
정부가 추진 중인 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 평가 마감이 이틀 앞으로 다가오면서, '소버린 AI' 전략의 첫 방향도 곧 윤곽을 드러낼 전망이다.
이달 중 5개 후보 가운데 한 곳이 탈락할 예정인 가운데, 최근 일부 기업을 둘러싼 중국 AI 차용 논란이 불거지면서 단순한 성능 비교를 넘어 어디까지를 '독자 개발'로 볼 것인지에 대한 정부의 판단과 기준 제시가 이번 평가의 핵심 과제로 떠오르고 있다.
13일 업계에 따르면 오는 15일 1차 평가 마감을 앞두고 후보 기업들은 지난 3일부터 오픈소스 플랫폼 허깅페이스 등을 통해 자사 AI 모델의 기술보고서를 순차적으로 공개하며 본격적인 검증 국면에 들어갔다. 기술보고서는 해당 AI 모델의 구조와 학습 방식, 벤치마크 성능 등을 담은 일종의 '제품 사양서'에 해당한다.
이들 기술보고서에 포함된 벤치마크 테스트 결과를 비교한 결과, 전반적인 성능 지표에서는 LG AI연구원의 'K-엑사원'이 가장 앞선다는 평가가 나온다. 대학원 수준의 전문 문제 해결 능력을 측정하는 항목인 전문지식(MMLU-Pro)을 비롯해 과학 추론 능력을 평가하는 GPQA-Diamond, 코딩 역량을 보는 라이브코드벤치(LiveCodeBench V6) 등 주요 지표에서 경쟁 모델 대비 가장 높은 점수를 기록했다.
SK텔레콤의 '에이닷엑스 케이원(A.X K1)' 역시 전반적인 성능 면에서 상위권을 기록했다. 특히 한국어 환경에서 전문가급 추론 능력을 평가하는 'KMMLU-Pro' 항목에서는 가장 높은 점수인 68.1점을 받았다. 통신사 가운데 유일하게 이번 프로젝트에 참여한 SK텔레콤은 통신 인프라와 운영 역량을 AI 경쟁력으로 연결할 수 있다는 점을 강점으로 내세우고 있다.
다만 네이버클라우드의 경우 전문지식이나 과학 추론 능력 등을 평가하는 일부 핵심 벤치마크 결과를 기술보고서에 포함하지 않아, 다른 후보 모델들과의 직접적인 성능 비교에는 한계가 있었다. 대신 네이버클라우드는 후보군 가운데 유일하게 멀티모달 AI를 탑재했다는 점이 특징으로 꼽힌다. 다른 4개 모델이 텍스트 기반 추론에 집중한 것과 달리, 이미지와 음성을 함께 활용해 추론 범위를 확장했다는 점에서 기술적 차별성이 있다는 평가다.
NC AI는 엔씨소프트의 자체 AI '바르코(VARCO)'를 기반으로 게임 개발과 시나리오 작성 등 특정 산업에 특화된 활용성을 강조했고, 업스테이지는 경량화 모델 '솔라'를 앞세워 법률·의료·금융 등 특화 분야에서 경쟁력을 보여주고 있다.
다만 업계에서는 이번 평가에서 성능만큼이나 '프롬 스크래치', 즉 데이터 수집부터 모델 설계·학습까지 전 과정에서의 독자성을 충족했는지 여부가 당락을 가를 핵심 변수로 작용할 것으로 보고 있다.
논란의 시작은 업스테이지의 AI '솔라-오픈-100B'가 중국 지푸 AI의 'GLM-4.5-에어'의 추론코드를 차용했을 가능성이 제기되면서 시작됐다. 이후 네이버클라우드가 중국 알리바바의 '큐웬(Qwen) 2.5' 비전·오디오 인코더와 가중치를 활용한 사실이 알려지며 논란이 재점화됐다. 여기에 SK텔레콤도 중국 딥시크의 '추론코드'와 유사하다는 의혹이 제기됐다.
업계에서는 '프롬 스크래치'의 핵심 기준에 대해 '가중치'를 외부에서 차용하지 않고 처음부터 직접 만들었는지 여부로 보고 있다. 즉, 외부에서 이미 학습된 가중치를 가져와 썼는지 여부가 독자성 판단의 핵심이라는 것이다.
가중치는 AI가 정보를 판단할 때 기준이 되는 중요도 값으로, 어떤 데이터로 학습하느냐에 따라 다른 결과가 만들어진다. 이는 어떤 경험을 쌓았느냐에 따라 사람의 판단이 달라지는 것과 같은 이치다.
이런 기준에 비춰보면 업스테이지·SK텔레콤과 네이버클라우드의 사례는 성격이 다르다는 평가가 나온다. 업스테이지와 SK텔레콤이 활용했다는 의혹이 제기된 인퍼런스 코드는 AI가 학습을 마친 뒤 추론을 수행하는 과정을 실행하는 공개 코드로, 출처만 명확히 하면 자유롭게 사용할 수 있는 것으로 알려져 있다. 특히 대형언어모델(LLM) 구조가 글로벌 표준으로 자리 잡으면서, 현재는 대부분의 AI 기업들이 유사한 모델 구조와 인퍼런스 코드를 활용하고 있다는 설명이다. 업계에서는 학습 데이터나 가중치를 외부에서 그대로 가져온 것이 아니라면, 인퍼런스 코드 활용만으로 프롬 스크래치 기준에 위배됐다고 보기는 어렵다는 시각이 우세하다.
반면, 네이버클라우드는 멀티모달 AI 개발 과정에서 비전·오디오 인코더와 그 가중치를 외부 모델에서 차용한 것으로 알려졌다. 업계에서는 이들 인코더의 가중치에 이미 학습된 데이터와 판단 기준이 반영돼 있어, 모델의 입력 처리와 의사결정 구조에 직접 영향을 줄 수 있다는 점을 문제의 핵심으로 지적한다.
다만 프롬스크래치 기준이 제도적으로 정리되지 않은 상황에서, 논란에 대한 최종 판단의 공은 과학기술정보통신부로 넘어가게 됐다. 과기부는 아직까지 독자성 판단 기준에 대한 공식 입장을 내놓지 않고 있다.
국가대표 AI 프로젝트의 첫 탈락팀은 이르면 이번 주 중 가려질 전망인 가운데, 과기부는 탈락자 발표와 함께 프롬 스크래치 논란에 대해 정부가 어떤 기준으로 판단했는지를 설명해야 하는 과제를 안게 됐다. 1차 평가는 오는 15일 마감되지만, 평가 과정과 판단 근거를 충분히 설명하기 위해 탈락팀 발표 시점이 며칠가량 늦춰질 가능성도 거론된다.
특히 평가에는 모든 후보들이 모델 개발 전 과정을 담은 개발 일지를 제출한 것으로 전해졌다. 평가위원들은 이를 바탕으로 학습 데이터의 출처와 구성, 사전학습 및 미세조정 방식, 외부 기술 활용 범위 등을 종합적으로 검토할 수 있어, '어디까지를 독자 개발로 볼 것인지'에 대한 보다 구체적인 판단이 나올 수 있을 것이라는 관측도 나온다.
CBS노컷뉴스 백담 기자 dam@cbs.co.kr
원문보기 : https://n.news.naver.com/mnews/article/079/0004104283?sid=105
제1조(목적)
본 약관은 한국초고성능컴퓨팅포럼(이하 "포럼"이라 한다)이 제공하는 서비스의 이용조건 및 절차, 이용자와 포럼의 권리, 의무, 책임사항과 기타 필요한 사항을 규정함을 목적으로 합니다.
제2조(약관의 효력과 변경)
1. 귀하가 본 약관 내용에 동의하는 경우, 포럼의 서비스 제공 행위 및 귀하의 서비스 사용 행위에 본 약관이 우선적으로 적용됩니다.
2. 포럼은 본 약관을 사전 고지 없이 변경할 수 있고, 변경된 약관은 포럼 내에 공지하거나 E-mail을 통해 회원에게 공지하며, 공지와 동시에 그 효력이 발생됩니다. 이용자가 변경된 약관에 동의하지 않는 경우, 이용자는 본인의 회원등록을 취소(회원탈퇴)할 수 있으며 계속 사용의 경우는 약관 변경에 대한 동의로 간주됩니다.
제3조(약관 외 준칙)
본 약관에 명시되지 않은 사항은 전기통신기본법, 전기통신사업법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률 및 기타 관련 법령의 규정에 의합니다.
제4조(용어의 정의)
본 약관에서 사용하는 용어의 정의는 다음과 같습니다.
1. 이용자 : 본 약관에 따라 포럼이 제공하는 서비스를 받는 자.
2. 가입 : 포럼이 제공하는 신청서 양식에 해당 정보를 기입하고, 본 약관에 동의하여 서비스 이용계약을 완료시키는 행위.
3. 회원 : 포럼에 개인 정보를 제공하여 회원 등록을 한 자로서 포럼이 제공하는 서비스를 이용할 수 있는 자.
4. 비밀번호 : 이용자와 회원ID가 일치하는지를 확인하고 통신상의 자신의 비밀보호를 위하여 이용자 자신이 선정한 문자와 숫자의 조합.
5. 탈퇴 : 회원이 이용계약을 종료시키는 행위.
(... 이하 생략 ...)
1 개인정보의 처리 목적
① 한국초고성능컴퓨팅포럼은(는) 다음의 목적을 위하여 개인정보를 처리합니다. 처리하고 있는 개인정보는 다음의 목적 이외의 용도로는 이용되지 않으며 이용 목적이 변경되는 경우에는 「개인정보 보호법」 제18조에 따라 별도의 동의를 받는 등 필요한 조치를 이행할 예정입니다.
1. 홈페이지 회원가입 및 관리
회원 가입의사 확인, 회원제 서비스 제공에 따른 본인 식별·인증, 회원자격 유지·관리, 서비스 부정이용 방지, 만14세 미만 아동의 개인정보 처리 시 법정대리인의 동의여부 확인, 각종 고지·통지, 고충처리 목적으로 개인정보를 처리합니다.
2. 개인정보의 처리 및 보유 기간
① 한국초고성능컴퓨팅포럼은(는) 법령에 따른 개인정보 보유·이용기간 또는 정보주체로부터 개인정보를 수집 시에 동의받은 개인정보 보유·이용기간 내에서 개인정보를 처리·보유합니다.
② 각각의 개인정보 처리 및 보유 기간은 다음과 같습니다.
1. 홈페이지 회원가입 및 관리
홈페이지 회원가입 및 관리와 관련한 개인정보는 수집.이용에 관한 동의일로부터 준영구적으로 보유.이용됩니다.
(... 이하 생략 ...)
공고일자 : 2023년 07월 03일
시행일자 : 2023년 07월 03일