[뉴스스페이스=이승원 기자] 수억명이 AI 챗봇을 건강 상담 도구로 활용 중이지만, 최근 옥스퍼드대 연구팀이 Nature Medicine에 발표한 대규모 실험 결과 챗GPT 등 LLM(대형언어모델)이 구글 검색과 동등 수준에 그치며 응급 상황 인식에 치명적 한계를 드러냈다.
일련의 최근 연구들은 챗GPT와 같은 도구들이 사용자를 오도하고, 응급 상황을 인식하지 못하며, 의료 전문가들이 생명을 위협할 수 있다고 경고했다.
ox.ac.uk, npr.org, bbc, nytimes, indiatoday, euronews에 따르면, 옥스퍼드 인터넷 연구소 주도의 무작위 대조 실험에서 1,300명 이상의 참가자가 10개 의사 설계 시나리오(예: 술자리 후 극심한 두통, 산모 호흡곤란)를 접한 후 챗GPT나 전통 검색으로 진단·조치(응급실 vs 가정 대처)를 판단했다. LLM 사용자들의 정확도는 질환 식별 33%, 적절 조치 선택 43%에 불과해 검색 그룹과 차이 없었고, 연구자들이 완전 시나리오 직접 입력 시 AI 정확도 94%로 '사용자-AI 소통 단절'이 핵심 원인으로 지목됐다.
마운트시나이 의대 연구는 2026년 1월 출시된 챗GPT Health를 21개 전문 분야 60개 시나리오(총 960회 상호작용)로 테스트, 의사들이 응급으로 판정한 사례의 52%를 과소 분류(under-triaged)하며 당뇨케톤산증·호흡부전 초기증상에도 '24~48시간 관찰' 권고했다. 가족·지인이 증상 축소 시 응급 하향 오즈비 11.7(95% CI 3.7-36.6) 배증, 자살위기 보호장치도 저위험 시에만 안정 작동하는 '역설적 편향' 드러났다.
전문가들은 "AI가 의사 역할 감당하는 것은 불가능하다"고 경고하며 신중 사용을 촉구했다.
옥스퍼드의 레베카 페인 박사는 "증상 문의 자체가 위험한 생각이며, 응급시 직접 의료기관 방문은 필수"라고 밝혔다. 연구팀은 의약품 임상시험처럼 '인간 상호작용' 실증 테스트 의무화를 요구했으며, 이와 함께 AI 헬스케어 상용화 안전망 강화 움직임도 가속화될 전망이다.























































