공지사항
초고성능컴퓨팅 소식지(2025년 5월호)
등록일: 2025.06.16
작성자: 관리자

칼럼
Chemist-Intuitive Machine Learning Models for Chemical Synthesis Prediction
자연과학 분야에 인공지능(AI)을 적용하려는 관심이 높아짐에 따라, 신약 개발과 같은 복잡한 연구 개발 분야에 AI 기술을 활용하는 것이 뜨거운 주제로 떠오르고 있다. 2024년에는 단백질 구조를 예측하는 AI 모델에 대한 연구로 화학 분야 노벨상이 수여되기도 하였다. 약물 후보 물질 생성을 위한 성능이 뛰어난 생성 모델이 발전하고 있음에도 불구하고, 이러한 새로운 화합물을 실제로 합성하는 일은 여전히 쉽지 않은 문제이다. 새로운 분자의 합성은 수많은 합성 방법에 대한 깊고 폭넓은 이해가 요구되기 때문이다. 따라서 최근 몇 년간 과학자들은 합성경로 계획, 즉 역합성(retrosynthesis)을 위한 AI 기술을 개발해 왔다. 언어 기반의 머신러닝 모델은 특히 대형 언어 모델(LLM)의 영향으로 크게 발전하였으며, 현재 합성 예측에서 가장 인기 있는 모델 아키텍처가 되었다. 분자는 컴퓨터에서 간단한 화학 구조 표현 방식인 SMILES(Simplified Molecular Input Line Entry System) 형식으로 나타낼 수 있기 때문에, 제품을 반응물로 “번역”하는 데 이 방식을 활용하는 것이 그래프 기반 모델보다 더 간단하다는 점에서 인기를 끌었다. 하지만 역합성은 단순한 번역 작업이 아니라, 화학자에게는 분자의 어느 결합을 끊을지 전략적으로 판단하고, 해당 결합을 형성하기 위해 어떤 합성 방법을 사용할지를 결정해야 하는 복잡한 작업이다. 이러한 화학자 중심의 논리를 반영하기 위해, 본 연구팀은 LocalRetro라는 그래프 기반 모델을 개발하여 역합성 예측을 수행하였다. 모델이 전략적으로 끊어야 할 결합을 식별하고, 이를 합성하기 위해 어떤 반응이 필요한지를 분류하도록 학습함으로써, LocalRetro는 2021년 USPTO 반응 데이터셋에서 54.1%의 top-1 정확도와 97.7%의 top-50 정확도를 기록하며 최첨단 예측 성능을 달성하였다. 본 연구팀은 LocalRetro를 사용하여 문헌에 보고된 화학물질의 합성 계획을 반복적으로 설계해 보았으며, 모델은 5-HT6 수용체 리간드를 합성하는 데 필요한 7단계의 합성 과정을 성공적으로 재현하였다. 머신러닝 알고리즘이 빠르게 발전함에 따라 3년 전에 개발된 모델은 종종 구식으로 여겨지기도 하지만, LocalRetro는 여전히 이후에 개발된 소수의 모델만이 능가할 수 있는 강력한 기준 모델로 자리 잡고 있다. 화학자의 직관을 머신러닝 알고리즘에 반영한다는 동일한 원칙에 따라, 본 연구팀은 LocalTransform이라는 모델을 개발하여 반응물에 대한 반응 결과를 예측하였다. 이 모델은 반응물의 reaction center를 인식하고, 해당 site에서 발생할 가능성이 높은 반응 종류를 분류하도록 학습되었다. 이는 화학자가 분자를 분석한 후 반응 결과를 예측하는 방식과 동일한 과정을 따르는 것이다. 이러한 화학자 직관 기반 설계를 통해, LocalTransform은 USPTO 반응 데이터셋에서 90.8%의 top-1 정확도와 96.3%의 top-5 정확도를 기록하며 반응 결과 예측에서 최첨단 성능을 입증하였다. 또한 Coley et al.이 샘플링한 소규모 반응 집합에서 LocalTransform은 80개의 반응 중 75개의 반응 결과를 정확히 예측하였으며, 이는 61개의 반응을 맞힌 최고 수준의 인간 화학자를 능가하는 성과이다. 해당 결과는 AI 모델을 설계할 때 전문 화학자가 직접 반응을 분석하는 방법을 활용하는 것이 얼마나 높은 정확도를 달성할 수 있는지를 보여준다. AI를 화학 과학 발전에 활용하기 위한 추가 연구로, 본 연구팀은 머신러닝 모델을 사용해 새로운 화학 반응을 발견할 가능성을 탐구하였다. 새로운 화학 반응을 발견하기 위한 핵심 단계는 반응 메커니즘을 이해하는 것이며, 이는 반응 중 전자의 이동을 설명해 화학 구조 변환을 완성한다. 그러나 반응 메커니즘 학습을 위한 데이터셋은 현재 존재하지 않는다. 이와 관련된 유사한 연구로 Bradshaw et al.이 개발한 모델은 휴리스틱 규칙으로 생성된 반응 메커니즘을 사용하였지만, 대부분의 생성된 메커니즘은 화학적으로 부정확하다는 문제가 있었다. 이를 해결하기 위해 본 연구팀은 화학자의 직관에 기반한 계산 방법을 개발하였다. 이 방법은 먼저 반응 유형을 식별한 후, 주어진 반응에 대해 메커니즘을 그리는 방식으로 작동한다. 이를 통해 USPTO 데이터셋에 기록된 3천 개 이상의 반응에 대한 메커니즘을 생성하였으며, 이 메커니즘은 10명의 전문 화학자에 의해 검증되었다. 최신 연구에서 저희는 이러한 화학 반응 메커니즘을 학습하기 위해 화학자의 사고 방식을 모방한 기계 학습 모델을 설계했으며, 그것의 화학 반응 예측 능력이 이전에 화학 반응 메커니즘을 고려하지 않은 모델보다 현저히 우수하다는 것을 발견했습니다. 또한, 그것은 훈련 세트에 존재하지 않은, 최근 몇 년간 국제 화학 저널에 게재된 여러 화학 반응을 찾았습니다. 본 연구는 화학 합성 예측을 위한 AI 모델에서 화학자의 직관을 활용함으로써 더 높은 성능과 신뢰성을 달성할 수 있음을 강조한다. 이러한 모델의 개발 및 응용을 더욱 발전시키기 위해서는 고성능 컴퓨팅(HPC) 자원을 활용하는 것이 중요하다. HPC는 모델 학습과 추론 과정을 가속화하여 대규모 데이터셋에서의 학습을 더욱 효율적으로 수행하고, 새로운 아키텍처를 실험할 수 있도록 한다. 또한 HPC는 복잡한 반응 메커니즘을 이해하거나 광범위한 역합성 경로를 평가하는 등 높은 연산 능력을 요구하는 분석에 필요한 컴퓨팅 파워를 제공한다. HPC를 워크플로우에 도입함으로써, 화학 합성 예측과 관련된 분야에서 획기적인 발전과 가속을 기대할 수 있을 것이다.
서울대학교 Postdoc. Developing (ML) methods for organic synthesis prediction for a wide range of applications.
초고성능컴퓨팅 기술동향
국외
초고성능컴퓨팅 관련 교육
  • 대용량 데이터 전송 기술의 이해 및 실습
    신청기간:
    2025-06-17 ~ 2025-06-18
    교육기간:
    2025-06-17 ~ 2025-06-18
  • 통합로그인 기술의 이해와 활용
    신청기간:
    2025-06-19 ~ 2025-06-19
    교육기간:
    2025-06-19 ~ 2025-06-19
  • 파이썬(Python) 데이터 분석
    신청기간:
    2025-06-25 ~ 2025-06-27
    교육기간:
    2025-06-25 ~ 2025-06-27
  • 빅데이터 분석 및 구축 활용
    신청기간:
    2025-06-30 ~ 2025-07-01
    교육기간:
    2025-06-30 ~ 2025-07-01
  • D3.js를 이용한 데이터 시각화
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • DMP(Data Management Plan)
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • GPU Programming with OpenACC
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • MPI(초급)-온라인
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • OpenMP(초급)-온라인
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • R 기초
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • Scientific Computing을 위한 C 언어
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • Scientific Computing을 위한 CUDA 사용법
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • Scientific Computing을 위한 Fortran
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • Scientific Computing을 위한 Hybrid Programming
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 데이터 과학 기초
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 딥러닝 이해하기
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 머신러닝 기반 데이터 분석
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 분석용 데이터 탐색
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 브라이틱스(Brightics) 분석도구를 활용한 데이터 분석
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 분석 결과 시각화
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 분석 기획
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 수집 1
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 수집 2
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 처리 1
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 빅데이터 처리 2
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 사례를 통한 빅데이터 분석
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 슈퍼컴퓨터 이해와 활용
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 오픈엑세스와 AccessON 활용
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 인공지능 1
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 인공지능 2
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 인공지능 기초
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 초보자를 위한 슈퍼컴퓨터 사용자 가이드
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 텍스트 데이터 분석
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 통계 기반 데이터 분석
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30
  • 파이썬 기초
    신청기간:
    2025-06-01 ~ 2025-06-30
    교육기간:
    2025-06-01 ~ 2025-06-30

이전글 초고성능컴퓨팅 소식지(2024년 12월호)
다음글 초고성능컴퓨팅 소식지(2025년 6월호)