[뉴스스페이스=윤슬 기자] 국내 주요 대형언어모델(LLM)이 수능 수학 문제 풀이에서 해외 선도 모델에 비해 현저히 낮은 성능을 보여 AI 경쟁력 격차가 명확하게 드러났다.
김종락 서강대 수학과 교수 연구팀은 15일, 국내 국가대표 AI로 선정된 5개 팀의 LLM과 챗GPT, 제미나이, 클로드, 그록, 딥시크 등 해외 5개 모델을 대상으로 수능 수학 및 논술 문제 총 50문제를 동일한 조건에서 평가했다.
평가 대상 문제는 수능 수학 공통과목, 확률과 통계, 미적분, 기하 영역에서 난이도가 가장 높은 문항 5개씩 20문제와 국내 10개 대학 기출 논술 10문제, 인도·일본 대학 입시 수학 각 10문제 등 총 50문제로 구성됐다. 해외 모델들은 평균 76~92점을 기록하며 고난도 문제에서도 높은 정답률을 보였다.
반면 국내 모델 중 업스테이지의 '솔라 프로-2'가 58점으로 가장 높은 점수를 받았고, 나머지 LG AI연구원 '엑사원 4.0.1', 네이버 'HCX-007', SK텔레콤 'A.X 4.0(72B)', 엔씨소프트 '라마 바르코 8B 인스트럭트'는 대부분 20점대에 머물렀다. 특히 '라마 바르코 8B 인스트럭트'는 2점이라는 최저점을 기록했다.
연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어렵다고 판단, 파이썬(Python) 도구 사용도 허용했으나 성능 격차는 여전히 컸다. 해외 모델로는 GPT-5.1, 제미나이 3 프로 프리뷰, 클로드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 포함됐다.
심화 평가에서도 격차는 명확했다. 자체 제작한 '엔트로피매스(EntropyMath)' 문제 세트 10문제(대학 및 연구급 난이도)를 추가로 풀게 한 결과, 해외 모델은 82.8~90점을, 국내 모델은 7.1~53.3점에 그쳤다. 세 차례 시도로 정답을 맞히는 방식의 실험에서는 그록이 만점을, 다른 해외 모델들도 90점을 기록한 반면, 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점으로 집계됐다.
김종락 교수는 “국내 5개 소버린 AI 모델에 대한 수능 수학 평가가 부족하다는 지적이 많아 자체 테스트를 진행했다”며 “해외 프런티어 모델과 비교해 국내 모델의 수학적 추론 능력이 크게 뒤처져 있음을 확인했다”고 밝혔다. 연구팀은 이번에 평가한 국내 모델이 모두 기존 공개 버전이라는 점을 강조하며, 국가대표 AI 최신 버전이 공개되면 다시 성능을 평가할 계획이라고 덧붙였다.
이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴이 공동 지원했다. 국내 AI가 수학 문제 해결 분야에서 해외에 비해 아직 기술 격차를 극복하지 못한 현실이 드러나면서, AI 생태계의 글로벌 경쟁력 강화 필요성이 다시금 제기되고 있다.























































