이번 연구에서 연구진은 RAG(Retrieval-Augmented Generation) 기술 (AI가 답변 생성할때 외부 데이터베이스에서 관련 정보를 먼저 검색한 후 이를 바탕으로 답변을 생성하는 기술)을 적용해 개발한 갑상선 챗봇 Thyro-GenAI가 기존 AI 챗봇의 한계를 극복할 수 있는지 검토했다.
기존 AI 챗봇은 부정확한 답변을 생성하거나, 실제 존재하지 않는 내용을 만들어 내는 ‘환각(hallucination)’ 현상으로 인해 실제 의료 현장에서 활용하기 어려운 한계를 가지고 있었다. 연구팀은 이러한 문제를 해결하기 위해 RAG 기술을 적용한 Thyro-GenAI를 개발하고, 기존 AI 챗봇과의 성능을 비교했다.
연구팀은 Thyro-GenAI와 3개의 AI 챗봇 (ChatGPT, Perplexity, Claude)의 응답과 응답에 사용된 참고문헌의 질을 평가했다. 이를 위해 가상 갑상선 환자를 기반으로 한 9개의 갑상선 주관식 질문을 챗봇에 입력하고, 그 답변을 세 명의 갑상선 질환 전문의가 평가하는 방식으로 연구를 진행했다.

연구의 교신저자인 채영준 교수는 “Thyro-GenAI는 기존 AI 모델의 한계로 지적된 환각 문제를 줄이고, 정확도와 신뢰도를 높여 환자 맞춤형 임상 의사 결정을 지원할 수 있다”며 “향후 일반의가 실시간으로 의사 결정을 내리는 데 도움을 줄 수 있으며, 다른 의료 분야에도 충분히 적용 가능할 것”이라고 연구 성과를 설명했다.
임혜정 기자
press@healthinnews.co.kr