2026.03.10 (화)

  • 맑음동두천 4.4℃
  • 맑음강릉 6.3℃
  • 맑음서울 5.5℃
  • 맑음대전 7.1℃
  • 맑음대구 8.8℃
  • 맑음울산 7.7℃
  • 맑음광주 5.8℃
  • 맑음부산 7.9℃
  • 맑음고창 3.6℃
  • 맑음제주 7.0℃
  • 맑음강화 2.2℃
  • 맑음보은 4.9℃
  • 맑음금산 5.6℃
  • 맑음강진군 6.1℃
  • 맑음경주시 6.8℃
  • 맑음거제 7.0℃
기상청 제공

빅테크

[빅테크칼럼] 세계적 수학자들, AI 능력 테스트 위한 10가지 문제 공개 "AI 수학 한계 폭로"…GPT-5.2·Gemini 3.0 단발 테스트서 실패

 

[뉴스스페이스=이종화 기자] 필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. 스탠퍼드, 하버드, EPFL 등 명문대 연구자들이 자신들의 미공개 연구에서 도출된 10개의 문제를 공개하고, 암호화된 정답이 2월 13일에 공개되기 전까지 대중이 AI의 시도를 관찰할 수 있도록 초대했다.

 

febspot, proofnews, arxiv, nature에 따르면, "First Proof"라고 명명된 이 프로젝트는 2월 6일 arXiv 프리프린트를 통해 공개됐으며, 오일러 수(약 2.718)를 기념하는 2월 7일 e-Day에 맞춰 진행됐다. 경쟁 스타일의 문제에 의존하는 기존 AI 벤치마크와 달리, 이 실험은 논문에 따르면 "수학자 자신의 연구 과정에서 자연스럽게 발생했고, 이후 수학자에 의해 해결되었지만 아직 인터넷에 게시되지 않은 문제들을 활용한다"고 밝혔다.

 

예비 테스트에서 오픈AI의 GPT 5.2 Pro와 구글의 Gemini 3.0 Deepthink가 단 한 번의 시도에서 다수 문제를 해결하지 못한 결과가 확인됐다.

 

기존 벤치마크 한계 직격, '자연 발생' 연구 문제 도입


전통적 AI 수학 벤치마크인 FrontierMath(수백 개 전문가 수준 미공개 문제, 오픈AI 자금 지원)나 IMProofBench(39개 연구 수준 증명 문제)는 자동 검증 가능 정수·기호 답변 형식으로 강화학습(RL) 최적화에 취약하다는 비판을 받았다.

 

이에 반해 퍼스트 프루프는 "수학자 연구 과정에서 자연 발생, 인터넷 미공개" 문제를 사용하며, 증명 길이는 5페이지 미만으로 설계됐다. 분야는 대수적 조합론 2개, 스펙트럼 그래프 이론 1개, 대수적 위상수학 1개, 확률 해석학 2개, 심플렉틱 기하학 2개, 수치 선형대수학 2개로 다양하다.

 

뉴욕타임스 보도에 따르면, 이 실험은 AI가 훈련 데이터·온라인 검색 너머 창의적 문제 해결 한계를 드러내기 위한 것으로, AI 기업 자금 전혀 받지 않고 독립 진행 중이다. 하이러는 LinkedIn에서 "최고 모델조차 한 번 시도에서 정확 답변 못 함"을 강조하며 #1stProof 해시태그로 참여 독려했다.

 

AI 실적 수치 비교: 연구 수준서 여전한 '벽'

 

비교 벤치마크에서 Grok-4는 IMProofBench 최종 하위문제 정확도 61%, GPT-5는 완전 증명 생성 21%(39문제 중 8개 성공, 7개 미해결 문제 전부 실패)을 기록했다. MATH 500(공개 도메인 문제)에서는 제미나이(Gemini) 3 Pro가 96.4% 정확도를 보였으나, 데이터 오염 우려로 진짜 연구 능력 과대평가 논란이 있다.

 

퍼스트 프루프 예비 결과는 "공개 최고 AI가 다수 문제에서 실패"로, 반복 상호작용 시 개선 가능성을 시사하나 단발 테스트 기준으로는 연구 수준 증명 불가함을 객관화했다.

 

해외 미디어 반응은 뜨겁다. NYT는 "AI 수학 '해결' 과대광고에 제동"으로, Febspot은 "LLM 연구 수학 처리 한계 측정"으로 보도했다. 

 

연구 수학 3단계 중 '해결 검증' 초점, 미래 벤치마크 예고


논문은 연구 수학을 (1) 큰 질문 파악, (2) 프레임워크 개발, (3) 소문제 해결·검증 3단계로 분해하며, 퍼스트 프루프는 (3)에 집중했다고 밝혔다. 참가자는 AI 상호작용 전체 기록 공유를 권장, 프롬프트 전략·평가 형식·데이터 오염 탐지 인사이트 수집 목적이다. 몇 달 내 제2세트 문제로 정식 벤치마크 진화 계획이며, 제빵 용어 'first proof'(1차 발효)처럼 커뮤니티 '발효'를 기대했다.

 

이 실험은 AI 수학 연구 '하이프' 억제와 학생·자금 유입 보호 효과를 노린다. 국내 수학계도 KIAS 'AI로 수학 향상' 프로젝트처럼 글로벌 추세 따라잡기에 나서야 한다는 지적이 제기된다.

배너
배너
배너

관련기사

6건의 관련기사 더보기


[빅테크칼럼] 샤오미 레이쥔 CEO "AI로 주 3일 근무 가능할 것"…AI 혁명, 주 3일·하루 2시간 노동시대 열까

[뉴스스페이스=이현주 기자] 샤오미 창업자이자 CEO인 레이쥔은 인공지능이 전통적인 주 5일 근무제를 시대에 뒤떨어진 것으로 만들 수 있으며, 사람들이 주 3일, 하루 2시간만 일하는 미래가 올 것이라고 전망했다. 그는 3월 7일 중국 전국인민대표대회(NPC) 기간 중 차이나 뉴스 위클리 인터뷰에서 "AI 시대에는 많은 규칙이 재작성되지만 새로운 일자리도 대거 창출될 것"이라며, "사람들이 다가오는 변화를 열린 마음으로 받아들일 것"을 촉구했다. 그는 AI 기반 자동화가 산업 전반에 자리 잡으면서 삶의 질과 근무 환경이 개선될 것이라고 예측했다. 레이쥔의 발언은 글로벌 CEO들의 AI 노동혁명 논의에 동참한 것이다. JP모건 체이스 CEO 제이미 다이먼은 AI가 20~40년 내 선진국 주 3.5일 근무를 실현할 것으로 예측했으며, 엔비디아 CEO 젠슨 황은 4일제 전환을, 줌 CEO 에릭 위안은 주 3~4일제를 언급했다. 다이먼은 "AI가 모든 업무·고객 인터페이스를 최적화해 생산성을 폭발적으로 높일 것"이라고 했고, 위안은 "AI가 시간을 해방시켜 모든 기업이 3일제를 지지할 것"이라고 분석했다. 샤오미는 이 비전을 뒷받침하기 위해 향후 5년간(2026~2