고성능 슈퍼컴퓨팅은 도시를 더욱 스마트하게 만드는 것부터 질병 진단을 개선하는 것까지 우리 일상생활에 영향을 미치는 산업 발전을 엄청나게 촉진하고 있습니다.
AsianScientist(2024년 10월 16일) – 슈퍼컴퓨터와 민주화된 클라우드 기반 컴퓨팅의 지원을 받아 산업은 프로세스를 더 스마트하고 빠르고 저렴하게 만들기 위해 스스로를 혁신하고 있습니다. 예를 들어 디지털 트윈은 해양 연구자들이 더 스마트한 자율 선박을 만들고 도시 계획자들이 더 편안한 주거 도시를 건설하는 데 도움이 됩니다.
고성능 컴퓨팅(HPC)도 점점 더 쉽게 접근할 수 있게 되었습니다. 의료 분야에서 생물의학 과학자들은 뇌 영상 데이터를 분석하기 위해 개방형 클라우드 기반 플랫폼에서 HPC를 활용하여 뇌 질환 진단을 개선하기 위해 협력하고 있습니다.
산업의 디지털화로 인해 이해 관계자들은 서비스가 부족한 지역이 뒤처지지 않도록 노력하고 있습니다. 동남아시아 지역에 통하는 대규모 언어 모델(LLM)을 만드는 것이 그러한 예 중 하나입니다.
모든 산업 분야에서 HPC 기술과 발전이 디지털 혁신을 빠르게 형성하고 주도하고 있습니다.
바다 위의 스마트 선박
1700년대에 증기 엔진이 발명된 이래로, 기술적 발전은 해운 산업을 극적으로 변화시켰습니다. 오늘날, 이 부문의 디지털화는 원격 제어 선박에서 복잡한 의사 결정이 가능한 운영 체제를 갖춘 선원 없는 선박에 이르기까지 다양한 해운 자율 수상 선박(MASS)에서 알 수 있듯이 더 스마트한 운송 시스템을 만들어내고 있습니다.
MASS는 인력 감축을 통해 효율성을 높이고, 안전을 개선하고, 운영 비용을 낮출 수 있는 잠재력이 있습니다. 싱가포르 공화국 해군은 해저에서 지뢰를 탐지하고 처리하는 무인 수상함을 배치합니다.
이 선박들은 30분이 걸리는 유인 선박과 달리 10분 만에 효율적으로 출항합니다. 게다가 32명의 승무원이 필요한 것과 대조적으로, 무인 선박을 해안 기지의 안전한 곳에서 조종하는 데는 3명만 필요합니다.
MASS 연구를 선도하기 위해 싱가포르 해양 기술 센터(TCOMS) 산하 자율 및 원격 조종 선박 우수성 센터는 싱가포르 국립 슈퍼컴퓨팅 센터(NSCC)의 슈퍼컴퓨터의 페타스케일 역량을 활용하고 있습니다.
디지털 트윈은 사전에 미래 시나리오를 예상하고 평가하는 데 사용되어 MASS가 끊임없이 변화하는 해상 상태에 적응하는 능력을 향상시킵니다. 이는 선원이 경험적 지식에 의존하여 실제 상황, 특히 까다로운 해상 상태에 대응하는 것과 유사합니다. TCOMS 연구원은 계산 유체 역학 시뮬레이션을 사용하여 MASS의 디지털 트윈을 만들어 해류, 파도 및 바람이 포함된 거친 날씨에서 선박의 기동성과 전반적인 동작을 이해했습니다. 이러한 모델은 궁극적으로 자율 항해, 최적 경로 계획 및 충돌 회피에서 MASS의 기능을 향상시킵니다.
연구진은 NSCC 싱가포르의 수백 개의 중앙 처리 장치와 병렬 컴퓨팅을 활용하여 특정 조타 동작에 따른 시간에 따른 선박의 움직임과 속도를 예측할 수 있었습니다.
환경 도시 계획
해안에서 콘크리트 정글에 이르기까지 디지털 트윈 기술은 또한 건축 환경의 복잡성과 바람, 온도, 태양 복사 및 소음과 같은 환경 요인과의 상호 작용을 시뮬레이션하여 도시 계획을 변화시켰습니다. 이러한 기술의 한 예는 싱가포르 주택 및 개발 위원회의 엔지니어와 고성능 컴퓨팅 연구소 및 정보통신 연구소의 연구자들이 함께 구축한 통합 환경 모델러(IEM)입니다.
고해상도 시뮬레이션 도구인 IEM은 수역, 녹지, 건물과 같은 주요 도시적 특징을 도로 교통 소음을 포함한 여러 자연 환경 매개변수와 통합합니다. 1~2개의 환경 요인만 평가하는 상용 모델과 비교했을 때, IEM은 단일 3차원 모델에서 특징과 매개변수 간의 복잡한 다중 물리적 상호 작용을 시뮬레이션할 수 있습니다. 따라서 IEM은 실제 시나리오를 더 잘 모방하여 도시 설계를 최적화합니다.
IEM의 주목할 만한 적용 사례는 싱가포르 최초의 공공 주택 도시인 "숲의 도시" Tengah입니다. 처음부터 스마트 기술을 사용하여 설계되었습니다. 싱가포르 최초의 국가 페타스케일 슈퍼컴퓨터인 ASPIRE 1로 구동되는 IEM은 2016년에 Tengah의 계획에 적용되었습니다. 오늘날 Tengah가 점진적으로 공개됨에 따라 주민들은 녹색 공간과 도시적 특징을 최적으로 혼합하여 태양열 이득을 줄이고 도시를 더 시원하게 만드는 생물학적 디자인을 경험할 수 있습니다.
IEM은 2019년 대통령 기술상을 수상한 후 2021년 현지 ICT 시스템 공급업체인 Wizvision에 라이선스를 받았습니다. 이 회사는 소프트웨어를 조정하여 더 광범위한 건축, 엔지니어링 및 건설 산업에서 사용할 수 있도록 했으며 IEMSim ™ 으로 상용화했습니다.
한편, 과학자들은 IEM의 성공을 바탕으로 2단계인 IEM2로 접어들었습니다. 발전에는 평균 복사 온도와 열적 편안함 지수를 포괄하도록 환경 물리학 매개변수를 확장하는 것이 포함되며, 기후 변화가 도시 열섬 효과를 증폭함에 따라 점점 더 중요한 요소입니다.
마음의 매트릭스
과학자들은 외부 환경의 디지털 아바타를 만드는 것을 넘어 인체 내부를 조사하고 뇌 영상 분석을 가속화하고 있습니다. 이는 신경 질환과 싸우는 방식에 혁명을 일으킬 "디지털 뇌"를 개발하려는 희망에서입니다.
자기공명영상(MRI)은 뇌 기능과 구조에 대한 통찰력을 제공합니다. MRI 데이터를 통해 우리는 발달하는 뇌의 변화를 목격할 수 있고 뇌종양, 뇌졸중, 알츠하이머병과 파킨슨병과 같은 신경퇴행성 질환과 같은 질병을 진단할 수 있습니다. 이러한 풍부한 데이터를 통해 신경학적 상태를 시뮬레이션하고 예측할 수 있는 뇌의 디지털 트윈을 만들 수 있습니다. 그러나 원시 자기공명 신호를 사전 처리하는 것은 여전히 계산적으로 많은 작업이 필요한 병목 현상입니다.
일본의 RIKEN 계산과학 센터의 과학자들은 세계적으로 유명한 Fugaku 슈퍼컴퓨터의 도움을 받아 이 과제에 정면으로 맞서고 있습니다. 이 팀은 먼저 Fugaku의 단일 노드의 뇌 이미지 전처리 성능(노이즈 감소, 데이터 왜곡 수정 등)을 극대화한 다음, 여러 노드에서 병렬 컴퓨팅을 활용하여 대량의 이미지 전처리를 가속화했습니다.
과학자들은 Fugaku의 158,976개 노드 중 177개 노드만 사용하여 1,410개의 뇌 이미지를 17.33시간 만에 처리했습니다. 이는 기존 소프트웨어 프로그램으로는 몇 년이 걸리는 작업입니다.
일본은 후가쿠와 함께 치매 치료제를 개발하기 위한 정부 지원 6년 연구 프로젝트의 일환으로 "디지털 두뇌"를 구축할 준비가 되었습니다. 후지쯔와 GMO Research Activity Support & Technology는 2024년 3월 Fujitsu의 Computing-as-a-Service 클라우드 플랫폼에 배포된 뇌 MRI 데이터 분석 환경입니다.
이 분석 환경은 연구자 및 엔지니어와 같은 최종 사용자가 뇌 MRI 데이터를 초고속으로 사전 처리하는 데 도움이 되는 Fugaku에서 개발한 오픈 데이터와 소프트웨어를 모두 제공합니다.
자신의 데이터를 입력할 수 있는 사용자는 이제 뇌 MRI 분석 AI 도구를 효율적으로 개발할 수 있습니다. 이 분야에서의 집단적 노력을 통해 신경정신 질환의 조기 자동 감지가 현실이 될 수 있습니다.
AI 인식하기
영어 화자의 마음은 텍스트에서 "LOL"을 자동으로 처리하여 "큰소리로 웃는 것"을 나타냅니다. 그러나 많은 사람이 태국과 인도네시아에서 각각 흔한 웃음 표현인 "5555" 또는 "wkwkwk"를 인식하지 못할 수 있습니다. 이러한 문화적 뉘앙스는 현지 언어에 대한 노출이 필요한데, ChatGPT와 같은 챗봇을 구동하는 기존 LLM에는 없는 것입니다.
개발자들이 더 크고 더 똑똑한 언어 모델을 구축하기 위해 경쟁하는 생성 AI 분야가 점점 더 붐비고 있지만, LLM의 문화적 편견은 여전히 과제입니다. 많은 LLM은 문화적, 사회적, 정치적 신념 측면에서 종종 서구 중심적인 인터넷에서 스크래핑된 정보를 포함하여 영어 언어 교육 데이터를 섭취합니다.
LLM에서 동남아시아 언어의 과소 대표성을 해결하기 위해 AI Singapore(AISG)는 2023년 12월에 Southeast Asian Languages in One Network(SEA-LION) LLM 계열을 출범했습니다. 이 협력적 노력에는 싱가포르 과학기술연구청(A*STAR), 국가연구재단, 정보통신미디어개발청(IMDA)이 참여했습니다.
SEA-LION은 동남아시아 언어에 맞게 조정된 AISG의 독점 SEABPETokenizer를 사용하여 텍스트 길이를 LLM을 훈련하는 데 사용되는 단어 조각으로 분해합니다.
동남아시아에 최적화된 언어 토크나이저를 활용하는 것 외에도 SEA-LION의 훈련 데이터의 13%는 태국어, 인도네시아어, 말레이어, 베트남어와 같은 현지 언어로 되어 있었습니다.
Meta의 Llama 2의 0.5%와 뚜렷한 대조를 이룹니다.
일대일 테스트에서 SEA-LION과 Llama 2는 모두 인도네시아어로 ASEAN이 무엇인지 물었습니다.
주목할 점은 SEA-LION이 올바른 언어로 올바른 답을 제시한 반면, Llama 2는 ASEAN이 무엇인지 이해하지 못해 영어로 더 긴 답을 제시했습니다.
SEA-LION을 훈련하기 위해 AISG는 Amazon Web Services 클라우드 인프라를 활용했습니다.
256개의 NVIDIA A100 Tensor Core 그래픽 처리 장치의 힘으로 30억 개의 매개변수가 있는 SEA-LION 버전을 14일 만에 훈련했고, 70억 개의 매개변수가 있는 확장된 버전은 22일 만에 완료되었습니다. SEA-LION은 기존 LLM보다 작지만 민첩합니다.
AISG는 SEA-LION을 대중에게 공개하여 LLM을 민주화하고, 서비스가 부족한 지역의 기업을 포함하여 기업이 소형 LLM을 보다 신속하고 비용 효율적으로 배포하고 미세 조정할 수 있도록 했습니다.
예를 들어, 인도네시아 전자상거래 플랫폼인 Tokopedia는 SEA-LION을 사용하여 동남아시아 언어로 제품 설명을 생성하여 보다 다양한 대상 고객에게 더 나은 고객 경험을 제공하고 있습니다.
한편, SEA-LION은 싱가포르 IT 회사인 NCS가 법적 준수 프로세스의 콘텐츠를 이전에 NCS가 사용하던 영어 기반 LLM에 비해 태국어와 인도네시아어로 보다 정확하게 번역하도록 돕고 있습니다.
지역 LLM의 발전을 지속하기 위해 싱가포르는 2023년 12월에 National Multimodal LLM Programme(NMLP)으로 알려진 S$70 million(약 US$53 million) 이니셔티브를 시작했습니다.
IMDA, AISG, A*STAR 간의 파트너십이며 NSCC Singapore의 HPC 리소스의 지원을 받는 NMLP는 SEA-LION을 300억~500억 매개변수 크기의 LLM으로 개발하고 이를 멀티모달 음성-텍스트 모델로 확장하려는 야망을 가지고 있습니다.
SEA-LION 출시 직후, 중국의 선도적 기술 기업인 알리바바의 연구 기관인 DAMO Academy는 SeaLLM이라는 자체 오픈소스 동남아시아 언어 중심 LLM을 출시했습니다. 이 모델과 대화형으로 미세 조정된 대응 모델인 SeaLLM-chat은 70억 및 130억 매개변수 크기 버전으로 제공됩니다.
SeaLLM은 ChatGPT-3.5와 같은 영어 중심 LLM보다 최대 9배 더 긴 텍스트를 해석하고 처리하며, 운영 비용이 더 저렴하다고 합니다. 번역 및 이해, 수학적 추론, 일반 및 지역적 맥락별 질문에 대한 답변과 같은 다양한 벤치마크에서 SeaLLM-13B는 태국어, 버마어, 라오어 및 크메르어와 같은 언어에서 ChatGPT-3.5를 능가했습니다.
HPC가 더 쉽게 접근 가능해짐에 따라, 업계 관계자들은 점점 더 디지털화된 경제를 배경으로 운영을 개선하기 위해 HPC의 역량을 계속 활용할 것입니다. 동시에, 우리의 일상 생활에 영향을 미치는 산업이 변혁적인 페이스리프트를 거치면서 공평한 접근성과 AI 거버넌스와 같은 문제가 해결되어야 할 것입니다.
▷ 원문보기 : https://www.asianscientist.com/2024/10/print/accelerating-hpc-industry-innovation/
제1조(목적)
본 약관은 한국초고성능컴퓨팅포럼(이하 "포럼"이라 한다)이 제공하는 서비스의 이용조건 및 절차, 이용자와 포럼의 권리, 의무, 책임사항과 기타 필요한 사항을 규정함을 목적으로 합니다.
제2조(약관의 효력과 변경)
1. 귀하가 본 약관 내용에 동의하는 경우, 포럼의 서비스 제공 행위 및 귀하의 서비스 사용 행위에 본 약관이 우선적으로 적용됩니다.
2. 포럼은 본 약관을 사전 고지 없이 변경할 수 있고, 변경된 약관은 포럼 내에 공지하거나 E-mail을 통해 회원에게 공지하며, 공지와 동시에 그 효력이 발생됩니다. 이용자가 변경된 약관에 동의하지 않는 경우, 이용자는 본인의 회원등록을 취소(회원탈퇴)할 수 있으며 계속 사용의 경우는 약관 변경에 대한 동의로 간주됩니다.
제3조(약관 외 준칙)
본 약관에 명시되지 않은 사항은 전기통신기본법, 전기통신사업법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률 및 기타 관련 법령의 규정에 의합니다.
제4조(용어의 정의)
본 약관에서 사용하는 용어의 정의는 다음과 같습니다.
1. 이용자 : 본 약관에 따라 포럼이 제공하는 서비스를 받는 자.
2. 가입 : 포럼이 제공하는 신청서 양식에 해당 정보를 기입하고, 본 약관에 동의하여 서비스 이용계약을 완료시키는 행위.
3. 회원 : 포럼에 개인 정보를 제공하여 회원 등록을 한 자로서 포럼이 제공하는 서비스를 이용할 수 있는 자.
4. 비밀번호 : 이용자와 회원ID가 일치하는지를 확인하고 통신상의 자신의 비밀보호를 위하여 이용자 자신이 선정한 문자와 숫자의 조합.
5. 탈퇴 : 회원이 이용계약을 종료시키는 행위.
(... 이하 생략 ...)
1 개인정보의 처리 목적
① 한국초고성능컴퓨팅포럼은(는) 다음의 목적을 위하여 개인정보를 처리합니다. 처리하고 있는 개인정보는 다음의 목적 이외의 용도로는 이용되지 않으며 이용 목적이 변경되는 경우에는 「개인정보 보호법」 제18조에 따라 별도의 동의를 받는 등 필요한 조치를 이행할 예정입니다.
1. 홈페이지 회원가입 및 관리
회원 가입의사 확인, 회원제 서비스 제공에 따른 본인 식별·인증, 회원자격 유지·관리, 서비스 부정이용 방지, 만14세 미만 아동의 개인정보 처리 시 법정대리인의 동의여부 확인, 각종 고지·통지, 고충처리 목적으로 개인정보를 처리합니다.
2. 개인정보의 처리 및 보유 기간
① 한국초고성능컴퓨팅포럼은(는) 법령에 따른 개인정보 보유·이용기간 또는 정보주체로부터 개인정보를 수집 시에 동의받은 개인정보 보유·이용기간 내에서 개인정보를 처리·보유합니다.
② 각각의 개인정보 처리 및 보유 기간은 다음과 같습니다.
1. 홈페이지 회원가입 및 관리
홈페이지 회원가입 및 관리와 관련한 개인정보는 수집.이용에 관한 동의일로부터 준영구적으로 보유.이용됩니다.
(... 이하 생략 ...)
공고일자 : 2023년 07월 03일
시행일자 : 2023년 07월 03일