- 연합학습·특화 LLM 기술로 신약개발 데이터 부족 해결 기대
이 프로젝트는 보건복지부와 과학기술정보통신부가 공동으로 추진하는 대규모 국책 사업이다. 향후 5년간 총 348억 원의 예산이 투입될 예정이며 연합학습 플랫폼 구축·개발, 신약개발 데이터 활용·품질관리, 연합학습 플랫폼 활용 AI 솔루션 개발 등 3개 과제로 구성됐다.
아이젠사이언스는 신약 개발 과정의 실험 데이터를 활용한 고도화된 AI 모델 개발을 맡는다. 이 AI 모델은 약물의 흡수, 분포, 대사, 배설, 독성(ADMET) 특성을 정확히 예측해 효과적인 약물 후보 물질을 신속하게 발굴한다. 프로젝트에는 광주과학기술원, 목암생명과학연구소, 전북대산학협력단, 한국과학기술원 등 총 5개 기관이 참여한다.
연합학습은 각 기관의 민감한 데이터를 외부와 공유하지 않으면서도 다양한 기관의 풍부한 데이터를 AI 학습에 활용할 수 있게 한다. AI 모델은 각 기관의 로컬 환경에서 학습을 수행하고 학습된 모델을 중앙 서버로 통합해 개선한다. 이를 통해 데이터 유출 위험을 최소화하면서도 고성능 AI 모델 개발이 가능해진다.
아이젠사이언스는 최신 대형언어모델(LLM) 기술을 이용해 과학 문헌 데이터에서 ADMET 관련 정보를 자동으로 추출하는 방법을 제안했다. 예측 결과를 수치로 제시하는 것을 넘어 그 결과의 해석과 근거를 설명하도록 개발할 계획이다. 예를 들어 '이 화합물은 CYP3A4 억제제일 가능성이 높으며 A 작용기와 연관이 있다'와 같은 설명을 제공해 신약개발 연구자들의 의사결정에 유용한 정보를 제공한다.
김선규 아이젠사이언스 AI연구실장은 “약물 표현형 모델과 LLM 기술을 연합학습에 접목해 양질의 데이터 부족 문제를 효과적으로 해결할 수 있다”며 “이를 통해 ADMET 예측의 정확도를 크게 높여 신약개발 임상 성공률 향상에 기여할 수 있을 것”이라고 말했다.
이종균 기자
press@healthinnews.co.kr