한국초고성능컴퓨팅포럼

공지사항

초고성능컴퓨팅 소식지(2025년 7월호)

등록일: 2025.08.04

작성자: 관리자

초고성능컴퓨팅 소식 및 행사

[보고] ISC High Performance 2025 참관 보고

일시/장소:

[보고] Global HPC Horizon 제 1호(2025 Summer)

일시/장소:

[행사] 2025년 한국초고성능컴퓨팅포럼 기술세미나 1회차 (인프라 분과)

일시/장소: 2025.07.25.(금) 10:00-12:00 / 서울스퀘어 중회의실1

[행사] 2025년 한국초고성능컴퓨팅포럼 기술세미나 2회차 (활용 분과)

일시/장소: 2025.08.21.(목) 16:00-18:00 / 서울역 삼경교육센터 5층

칼럼

[칼럼] Architecting Scale: Deep Dive into 1T-Parameter LLM Training Infrastructure

2025년, 인공지능은 단순한 기술 발전의 차원을 넘어, 국가의 주권과 정체성, 그리고 산업의 근간을 좌우하는 핵심 기술로 자리 잡았다. 그 중심에는 초거대 언어 모델(Large Language Model, LLM)의 급격한 진화가 있다. 이제 LLM은 수백억 개의 파라미터를 넘어 1조 파라미터 규모의 시대에 들어섰으며, 이는 단순한 연산 자원의 확대만으로는 도달할 수 없는 경지다. 인공지능이 국가의 경쟁력, 문화적 독립성, 경제적 자율성과 맞물리게 되면서 ‘주권형 AI(Sovereign AI)’라는 개념이 전 세계적으로 주목받고 있다. 이는 단순히 자국어를 잘 처리하는 AI를 만들자는 차원을 넘어, 데이터의 소유권과 활용, 인공지능 개발의 주체성, 그리고 인프라 운영의 독립성까지 확보하겠다는 선언이다. ‘모든 국가에는 자신만의 AI가 필요하다’는 주장처럼, 이제 각국은 자체적인 LLM을 보유하고 훈련시킬 수 있는 역량을 갖추기 위해 앞다투어 투자하고 있다. 그러나 LLM 개발에서 진정으로 중요한 것은 단순한 모델 아키텍처나 파라미터 수의 경쟁이 아니다. 진정한 격차는 LLM 훈련에 최적화된 인프라를 어떻게 설계하고 운영하느냐, 즉 대규모 GPU 시스템을 얼마나 효율적으로 다룰 수 있느냐에 달려 있다. 고성능 GPU를 단순히 많이 확보했다고 해서 강력한 AI 모델이 탄생하는 것은 아니다. 컴퓨팅 최적화, 메모리 관리, 네트워크 통신 설계, 저장 시스템 효율화 등 전방위적 엔지니어링이 뒷받침되어야만 초거대 모델 훈련이 가능하다. 최근 중국에서 발표된 DeepSeek R1은 이러한 흐름에 큰 충격을 던졌다. 단순히 거대한 모델을 만들었다는 점 때문이 아니다. DeepSeek이 시사하는 바는 초거대 LLM을 훈련시키기 위해 얼마나 많은 기술적 도전과 정교한 자원 활용이 필요한가를 여실히 보여준 데 있다. DeepSeek R1은 6,710억 파라미터를 가진 DeepSeek-V3 모델을 기반으로, 2048개의 H800 GPU를 활용해 훈련되었으며, RLHF와 SFT를 포함한 정교한 파인튜닝 기술이 적용되었다. 특히 GPU 자원 활용도를 극대화하기 위해 새로운 병렬화 기법과 PTX 수준의 커스텀 네트워크 통신 처리까지 도입한 것은 매우 주목할 만하다. 이러한 사례는 우리에게도 분명한 메시지를 전달한다. 진정한 주권형 AI를 만들기 위해서는 단순히 오픈소스 모델을 가져와서 한글 말뭉치를 학습시키는 수준으로는 부족하다. 우리가 집중해야 할 것은 GPU 자원을 효율적으로 활용할 수 있는 핵심 기술력, 즉 대규모 분산 인프라를 구성하고, 이를 최적화할 수 있는 엔지니어링 역량이다. 모델 설계, 데이터 구축도 중요하지만, 그것을 실제로 훈련시켜 성능을 끌어올리기 위한 인프라 기술이야말로 LLM 경쟁에서 가장 큰 분기점이다. 1조 파라미터 모델을 훈련시키기 위해서는 20조 개 이상의 토큰을 처리해야 하며, 전체 연산량은 100 엑사플롭스를 넘는다. 이 정도의 규모를 감당하려면 단순한 서버 수백 대로는 부족하다. H200 GPU 1,024개 이상이 필요하며, 총 16TB 이상의 GPU 메모리가 요구된다. 뿐만 아니라, 연산만큼 중요한 것이 통신과 저장이다. 텐서 병렬 및 파이프라인 병렬 구조에서는 GPU 간의 초고속 통신이 필수적이며, 이를 위해 NVLink Gen5나 RDMA 기반 네트워크가 필요하다. 또한, 수십 테라바이트에 달하는 훈련 데이터를 무작위 순서로 고속 읽기 처리해야 하며, 체크포인트는 매 에폭마다 수십 테라바이트 이상을 디스크에 저장해야 한다. 이 모든 과정은 단순히 인프라를 구매한다고 해결되지 않는다. 중요한 것은 어떻게 이 자원을 연결하고, 최적화하며, 병렬화하고, 자동화하는가에 대한 노하우와 경험이다. LLM 훈련은 단일 머신, 단일 스크립트로 끝나지 않는다. 수백 개의 GPU, 수십 개의 노드, 수천 개의 프로세스가 동시에 동작하며, 효율성을 확보하지 못하면 자원의 낭비가 심각하게 발생한다. 모델을 수직·수평으로 어떻게 나누고, 어떤 방식으로 통신하고, 어떤 레이어를 어느 GPU에 할당할 것인가를 결정하는3D 병렬화 전략(DP, TP, PP)이 핵심이다. 실제로 모델 훈련에서 가장 큰 병목은 연산보다는 메모리 대역폭과 네트워크 레이턴시에서 발생한다. 따라서 단일 레이어를 나눠 여러 GPU에 분산하는 텐서 병렬화에는 고속 AllReduce 연산이 필요하고, 모델 계층을 나눠 처리하는 파이프라인 병렬화에서는 스위치 단의 연결 최소화와 통신 지연 관리가 중요하다. 이런 상황에서는 GPU를 단순히 ‘붙이는’ 것이 아니라, 시스템 레벨에서 통신 구조와 연산 스케줄링까지 조율하는 수준의 기술력이 요구된다. 또한, 이러한 대규모 훈련을 제대로 운용하려면 LLMOps가 필수적이다. 데이터 파이프라인 구축, 체크포인트 자동화, 리소스 할당, 훈련 모니터링, 오류 복구, 미세조정 등 모든 과정을 안정적으로 운영하는 기술이 필요하다. 이를 위해서는 MLOps 전문가, 인프라 엔지니어, GPU 시스템 관리자, 모델 최적화 엔지니어 등 다양한 전문 인력이 팀으로 협업해야 한다. 단순히 모델을 잘 만드는 것과, 그것을 실전 환경에서 훈련시키고 운영하는 것은 완전히 다른 문제이며, 후자가 없이는 주권형 AI는 실현되지 않는다. DeepSeek의 등장은 우리에게 경종을 울린다. LLM 시대의 진정한 경쟁력은 GPU 자원의 확보가 아니라, 그 자원을 최대한 효율적으로 쓸 수 있는 기술과 인재를 갖추는 것이다. 즉, 계산, 메모리, 네트워크, 저장소를 하나의 시스템으로 묶어내고 최적화할 수 있는 핵심 엔지니어링 능력이야말로 우리가 진정 확보해야 할 ‘주권형 AI’의 실체다. 앞으로의 AI 경쟁은 모델의 크기나 연산 속도가 아니라, 얼마나 정교하게 자원을 조직하고 통제하며, 효율을 극대화할 수 있는가에서 결정될 것이다. 우리는 이제 단순한 연구 단계를 넘어, 실전에서 1조 파라미터 모델을 훈련할 수 있는 현실적이고 전략적인 인프라 역량을 갖춰야 한다. Sovereign AI는 선언이 아니라, 철저한 기술과 공학, 그리고 그것을 뒷받침할 인재에 기반한 실행의 문제다. GPU를 사는 것보다 중요한 건, 그것을 100% 활용할 수 있는 나라가 되는 것이다.

쿠팡 예기헌 박사

초고성능컴퓨팅 기술동향

국내

엔비디아 ‘슈퍼칩’ 놀라운 성능 이면의 변화는 ‘메모리 연결’ [AI 메모리 시대 ①]

경기도, 전국 최초 ‘자율주행차량+양자암호통신’ 실증사업 추진

ETRI부터 KISTI까지…IT기관 수장들 한자리에, 'IT21 2025' 개막

메가존클라우드, 이스라엘 양자SW 기업과 양자기술 상용화 협약

한양대 유호천 교수팀, 고잡음 기반 진성 난수 발생 트랜지스터 소자 개발

한국퀀텀컴퓨팅, H200 GPU 기반 초고성능 ‘AI GPU 팜’ 구축

소프트웨어 3.0과 AI시대의 방향성 [윤석빈의 Thinking]

AI가 만든 새로운 메모리 공식, HBM [AI 메모리 시대 ②]

메가존클라우드, 아이온큐 ‘양자컴퓨터'로 양자컴퓨팅 실증작업 한다

해머스페이스 “한국 AI·클라우드 잠재 이용자 높은 국가”

BC카드, 국내 금융사 최초 양자화 초거대 AI 모델 18종 공개

“양자 생태계 허브 될 것”…국민대, 양자캠퍼스 선포

"양자 소프트웨어, 실험실 넘어 시장으로!"... 큐비스택 박대영 대표와 양자소프트웨어의 현실

대전시, "국내 최초 상용 양자컴퓨터 대전에 들어서..."

"의료 데이터 양자내성암호 확산"…라온시큐어, 파이디지털헬스케어와 MOU

“연봉 4억5천만원 드립니다”…또 다른 도전나선 쿠팡, IT인재 확보 올인

"개발해도 로열티 낼수도"...양자기술 특허 장벽 [양자개발 '모래시계'②]

"R&D 인력 70% 투입"…삼성전기, 'AI·전장 MLCC'에 집중

안젯텍 '베샤드' 대표, "양자머신러닝의 핵심은 학습이 아니라 '압축과 해석'에 있다"

[GAM]AI 구루 젠슨황의 'Pick' ① 엔비디아 앞지른 AI 인프라 강자

국정기획위, 양자과학기술 발전 전략 논의

두나무, 가상 사용자 활용 뉴스 추천 기술 발표···개인정보 보호·효율성 강화

“AI 작게 설계하면 전력 최대 90% 절감”…유네스코·UCL 보고서

한국HPE, ‘AI@하이퍼스케일 2025’ 성료 ··· AI 기술·운영 전략 공유

“내 컴퓨터에서 접속”, 슈퍼컴퓨터 초고속 분석 이용한다

대전 기업 주목! 양자기술 미래 유니콘 육성 본격 시동

"AI로 시간·비용 90% 절감…신약개발 모든 단계 바꿀 것"

한울소재과학, KISTI와 양자암호 통신 인프라 장비 공급 계약

“메모리 한계 타파” 도전 나선 새로운 모듈 기술들 [AI 메모리 시대 ④]

KQC, 크립토포에이와 MOU 체결…아시아 양자보안 허브 도약 목표

양원석 델 전무 “AI 서버도 수랭이 기본, 냉각·전력 대비해야” [인터뷰]

"2만번 학습을 26번으로"…양자컴퓨터의 충격적 학습 효율

'독자 AI 파운데이션 개발’ 공모에 15개 팀 격돌…네이버·LG·SKT 유력

정부, GPU 운용 사업자에 네카오·NHN 선정…AI 생태계 활력 기대

데이터센터를 하나의 ‘GPU’처럼 묶는 연결 기술 경쟁 [AI 메모리 시대 ⑤]

GPU 1.3만장 확보로 소버린 AI 구축 본격화…민관협력 기대감↑

AI도 과학자처럼 협업… 코로나 변이 백신 설계

IBS, 영국 케임브리지대에 협력연구실 설치

NC AI, 카이스트·ETRI·롯데이노·포스코DX와 독자 AI 컨소시엄 구성

국외

JUPITER, 유럽 최초 엑사스케일 슈퍼컴퓨터로 ISC2025에 등극

PCI-SIG, AI의 128GT/s 대역폭 요구사항을 지원하는 PCIe 7.0 사양 출시

Fujitsu, 이화학연구소와 FugakuNEXT 슈퍼컴퓨터 설계 계약 체결

Frontier 슈퍼컴퓨터를 활용한 500만개 원자로 구성된 탄소섬유 시뮬레이션

Amazon, Anthropic을 위한 대규모 데이터센터 'Project Rainier' 가동

새로운 EuroHPC 프로젝트 SEANERGYS, 에너지 효율적인 슈퍼컴퓨팅 기술 개발 시작

뉴욕주, NVIDIA Blackwell 슈퍼컴퓨팅과 함께 Empire AI Beta 출시에 4,000만 달러 투자

폴란드 PIAST-Q 유럽 양자 컴퓨팅 운영 개시

OpenAI, 고객 서비스(CS) Agents Demo 프로젝트 공개

유럽연합 집행위원회, 2030년까지 양자 생태계 조성을 위한 양자 전략 발표

HPE, Juniper Networks 134억 달러 규모 인수 완료

EuroHPC, 부다페스트에 중규모 슈퍼컴퓨터 LEVENTE 호스팅 계약 체결

EU, 초전도 양자 칩 산업 생산 확대 위해 SUPREME 컨소시엄 선정

EuroHPC, Arrhenius 슈퍼컴퓨터 조달 계약 체결

SDSC의 슈퍼컴퓨터 시뮬레이션으로 새 혈관 성장을 위한 혈액 흐름의 비밀 발견

Agent Squad: AWS가 오픈소스로 공개한, Multi-Agents 간 복잡한 대화 관리를 위한 경량 프레임워크

중국의 Moonshot AI, 조 단위 파라미터 모델 Kimi K2 발표

QuNorth, 양자 시스템 구축을 위해 8천만 유로 지원받아 덴마크에서 출범

초고성능컴퓨팅 관련 교육

ANSYS Fluent를 이용한 CFD 해석 기본 교육 (2025, 특별과정)

신청기간:

2025-08-06 ~ 2025-08-08

교육기간:

2025-08-06 ~ 2025-08-08

신청하기
Abaqus 기본 교육 (2025, 특별과정)

신청기간:

2025-08-11 ~ 2025-08-14

교육기간:

2025-08-11 ~ 2025-08-14

신청하기
과학기술연구망의 이해와 활용

신청기간:

2025-08-18 ~ 2025-08-18

교육기간:

2025-08-18 ~ 2025-08-18

신청하기
대용량 데이터 전송 기술의 이해 및 실습

신청기간:

2025-08-19 ~ 2025-08-20

교육기간:

2025-08-19 ~ 2025-08-20

신청하기
통합로그인 기술의 이해와 활용

신청기간:

2025-08-21 ~ 2025-08-21

교육기간:

2025-08-21 ~ 2025-08-21

신청하기
특허정보 빅데이터 분석

신청기간:

2025-08-21 ~ 2025-08-22

교육기간:

2025-08-21 ~ 2025-08-22

신청하기
양자암호통신

신청기간:

2025-08-22 ~ 2025-08-22

교육기간:

2025-08-22 ~ 2025-08-22

신청하기
챗GPT 업무 활용 실무(기초)

신청기간:

2025-08-27 ~ 2025-08-29

교육기간:

2025-08-27 ~ 2025-08-29

신청하기

이전글 초고성능컴퓨팅 소식지(2025년 6월호)

다음글 초고성능컴퓨팅 소식지(2025년 8월호)

목록으로