[빅테크칼럼] 세계적 수학자들, AI 능력 테스트 위한 10가지 문제 공개 "AI 수학 한계 폭로"…GPT-5.2·Gemini 3.0 단발 테스트서 실패

필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. / newscientist.com

[뉴스스페이스=이종화 기자] 필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. 스탠퍼드, 하버드, EPFL 등 명문대 연구자들이 자신들의 미공개 연구에서 도출된 10개의 문제를 공개하고, 암호화된 정답이 2월 13일에 공개되기 전까지 대중이 AI의 시도를 관찰할 수 있도록 초대했다.

febspot, proofnews, arxiv, nature에 따르면, "First Proof"라고 명명된 이 프로젝트는 2월 6일 arXiv 프리프린트를 통해 공개됐으며, 오일러 수(약 2.718)를 기념하는 2월 7일 e-Day에 맞춰 진행됐다. 경쟁 스타일의 문제에 의존하는 기존 AI 벤치마크와 달리, 이 실험은 논문에 따르면 "수학자 자신의 연구 과정에서 자연스럽게 발생했고, 이후 수학자에 의해 해결되었지만 아직 인터넷에 게시되지 않은 문제들을 활용한다"고 밝혔다.

예비 테스트에서 오픈AI의 GPT 5.2 Pro와 구글의 Gemini 3.0 Deepthink가 단 한 번의 시도에서 다수 문제를 해결하지 못한 결과가 확인됐다.

기존 벤치마크 한계 직격, '자연 발생' 연구 문제 도입

전통적 AI 수학 벤치마크인 FrontierMath(수백 개 전문가 수준 미공개 문제, 오픈AI 자금 지원)나 IMProofBench(39개 연구 수준 증명 문제)는 자동 검증 가능 정수·기호 답변 형식으로 강화학습(RL) 최적화에 취약하다는 비판을 받았다.

이에 반해 퍼스트 프루프는 "수학자 연구 과정에서 자연 발생, 인터넷 미공개" 문제를 사용하며, 증명 길이는 5페이지 미만으로 설계됐다. 분야는 대수적 조합론 2개, 스펙트럼 그래프 이론 1개, 대수적 위상수학 1개, 확률 해석학 2개, 심플렉틱 기하학 2개, 수치 선형대수학 2개로 다양하다.

뉴욕타임스 보도에 따르면, 이 실험은 AI가 훈련 데이터·온라인 검색 너머 창의적 문제 해결 한계를 드러내기 위한 것으로, AI 기업 자금 전혀 받지 않고 독립 진행 중이다. 하이러는 LinkedIn에서 "최고 모델조차 한 번 시도에서 정확 답변 못 함"을 강조하며 #1stProof 해시태그로 참여 독려했다.

AI 실적 수치 비교: 연구 수준서 여전한 '벽'

비교 벤치마크에서 Grok-4는 IMProofBench 최종 하위문제 정확도 61%, GPT-5는 완전 증명 생성 21%(39문제 중 8개 성공, 7개 미해결 문제 전부 실패)을 기록했다. MATH 500(공개 도메인 문제)에서는 제미나이(Gemini) 3 Pro가 96.4% 정확도를 보였으나, 데이터 오염 우려로 진짜 연구 능력 과대평가 논란이 있다.

퍼스트 프루프 예비 결과는 "공개 최고 AI가 다수 문제에서 실패"로, 반복 상호작용 시 개선 가능성을 시사하나 단발 테스트 기준으로는 연구 수준 증명 불가함을 객관화했다.

해외 미디어 반응은 뜨겁다. NYT는 "AI 수학 '해결' 과대광고에 제동"으로, Febspot은 "LLM 연구 수학 처리 한계 측정"으로 보도했다.

연구 수학 3단계 중 '해결 검증' 초점, 미래 벤치마크 예고

논문은 연구 수학을 (1) 큰 질문 파악, (2) 프레임워크 개발, (3) 소문제 해결·검증 3단계로 분해하며, 퍼스트 프루프는 (3)에 집중했다고 밝혔다. 참가자는 AI 상호작용 전체 기록 공유를 권장, 프롬프트 전략·평가 형식·데이터 오염 탐지 인사이트 수집 목적이다. 몇 달 내 제2세트 문제로 정식 벤치마크 진화 계획이며, 제빵 용어 'first proof'(1차 발효)처럼 커뮤니티 '발효'를 기대했다.

이 실험은 AI 수학 연구 '하이프' 억제와 학생·자금 유입 보호 효과를 노린다. 국내 수학계도 KIAS 'AI로 수학 향상' 프로젝트처럼 글로벌 추세 따라잡기에 나서야 한다는 지적이 제기된다.