2026.03.28 (토)

  • 맑음동두천 9.6℃
  • 맑음강릉 11.1℃
  • 연무서울 14.0℃
  • 연무대전 15.7℃
  • 맑음대구 17.5℃
  • 연무울산 17.3℃
  • 맑음광주 16.7℃
  • 연무부산 18.3℃
  • 맑음고창 16.2℃
  • 박무제주 15.5℃
  • 맑음강화 9.8℃
  • 맑음보은 13.6℃
  • 맑음금산 14.7℃
  • 맑음강진군 19.4℃
  • 맑음경주시 17.8℃
  • 맑음거제 19.0℃
기상청 제공

빅테크

[빅테크칼럼] 세계적 수학자들, AI 능력 테스트 위한 10가지 문제 공개 "AI 수학 한계 폭로"…GPT-5.2·Gemini 3.0 단발 테스트서 실패

 

[뉴스스페이스=이종화 기자] 필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. 스탠퍼드, 하버드, EPFL 등 명문대 연구자들이 자신들의 미공개 연구에서 도출된 10개의 문제를 공개하고, 암호화된 정답이 2월 13일에 공개되기 전까지 대중이 AI의 시도를 관찰할 수 있도록 초대했다.

 

febspot, proofnews, arxiv, nature에 따르면, "First Proof"라고 명명된 이 프로젝트는 2월 6일 arXiv 프리프린트를 통해 공개됐으며, 오일러 수(약 2.718)를 기념하는 2월 7일 e-Day에 맞춰 진행됐다. 경쟁 스타일의 문제에 의존하는 기존 AI 벤치마크와 달리, 이 실험은 논문에 따르면 "수학자 자신의 연구 과정에서 자연스럽게 발생했고, 이후 수학자에 의해 해결되었지만 아직 인터넷에 게시되지 않은 문제들을 활용한다"고 밝혔다.

 

예비 테스트에서 오픈AI의 GPT 5.2 Pro와 구글의 Gemini 3.0 Deepthink가 단 한 번의 시도에서 다수 문제를 해결하지 못한 결과가 확인됐다.

 

기존 벤치마크 한계 직격, '자연 발생' 연구 문제 도입


전통적 AI 수학 벤치마크인 FrontierMath(수백 개 전문가 수준 미공개 문제, 오픈AI 자금 지원)나 IMProofBench(39개 연구 수준 증명 문제)는 자동 검증 가능 정수·기호 답변 형식으로 강화학습(RL) 최적화에 취약하다는 비판을 받았다.

 

이에 반해 퍼스트 프루프는 "수학자 연구 과정에서 자연 발생, 인터넷 미공개" 문제를 사용하며, 증명 길이는 5페이지 미만으로 설계됐다. 분야는 대수적 조합론 2개, 스펙트럼 그래프 이론 1개, 대수적 위상수학 1개, 확률 해석학 2개, 심플렉틱 기하학 2개, 수치 선형대수학 2개로 다양하다.

 

뉴욕타임스 보도에 따르면, 이 실험은 AI가 훈련 데이터·온라인 검색 너머 창의적 문제 해결 한계를 드러내기 위한 것으로, AI 기업 자금 전혀 받지 않고 독립 진행 중이다. 하이러는 LinkedIn에서 "최고 모델조차 한 번 시도에서 정확 답변 못 함"을 강조하며 #1stProof 해시태그로 참여 독려했다.

 

AI 실적 수치 비교: 연구 수준서 여전한 '벽'

 

비교 벤치마크에서 Grok-4는 IMProofBench 최종 하위문제 정확도 61%, GPT-5는 완전 증명 생성 21%(39문제 중 8개 성공, 7개 미해결 문제 전부 실패)을 기록했다. MATH 500(공개 도메인 문제)에서는 제미나이(Gemini) 3 Pro가 96.4% 정확도를 보였으나, 데이터 오염 우려로 진짜 연구 능력 과대평가 논란이 있다.

 

퍼스트 프루프 예비 결과는 "공개 최고 AI가 다수 문제에서 실패"로, 반복 상호작용 시 개선 가능성을 시사하나 단발 테스트 기준으로는 연구 수준 증명 불가함을 객관화했다.

 

해외 미디어 반응은 뜨겁다. NYT는 "AI 수학 '해결' 과대광고에 제동"으로, Febspot은 "LLM 연구 수학 처리 한계 측정"으로 보도했다. 

 

연구 수학 3단계 중 '해결 검증' 초점, 미래 벤치마크 예고


논문은 연구 수학을 (1) 큰 질문 파악, (2) 프레임워크 개발, (3) 소문제 해결·검증 3단계로 분해하며, 퍼스트 프루프는 (3)에 집중했다고 밝혔다. 참가자는 AI 상호작용 전체 기록 공유를 권장, 프롬프트 전략·평가 형식·데이터 오염 탐지 인사이트 수집 목적이다. 몇 달 내 제2세트 문제로 정식 벤치마크 진화 계획이며, 제빵 용어 'first proof'(1차 발효)처럼 커뮤니티 '발효'를 기대했다.

 

이 실험은 AI 수학 연구 '하이프' 억제와 학생·자금 유입 보호 효과를 노린다. 국내 수학계도 KIAS 'AI로 수학 향상' 프로젝트처럼 글로벌 추세 따라잡기에 나서야 한다는 지적이 제기된다.

배너
배너
배너

관련기사

6건의 관련기사 더보기


[이슈&논란] 구글 직원으로 위장 ‘이란 스파이 미녀 자매’…픽셀·SoC 기밀, 이란으로 흘러갔나

[뉴스스페이스=김정영 기자] 미국과 이란간 전쟁중인 가운데, 이란 국적 엔지니어 3명이 미국 실리콘밸리 주요 IT 기업에서 스파이로 활동한 혐의로 기소됐다. 미국 실리콘밸리 한복판에서 구글의 핵심 프로세서·암호화 기술을 빼내 이란으로 넘긴 혐의로 기소된 이란 국적 엔지니어 3인의 정체가 드러나면서, 미·이란 갈등이 ‘빅테크 기술전’으로 비화하고 있다는 분석이 나온다. 사건의 중심에는 실리콘밸리에서 경력을 쌓은 이란 출신 ‘간달리 자매’와 이들의 가족 네트워크가 있다. 구글 출신 ‘간달리 자매’와 남편, 어떻게 기소됐나 3월 23일(현지시각) 뉴욕포스트, CNBC 등에 따르면, 미 연방 대배심은 2026년 2월 19일 사마네 간달리(41), 동생 소르부르 간달리(32), 사마네의 남편 모하마드자바드 코스로비(40)를 영업비밀 절도 공모·절도·절도 미수·공무 방해(사법 방해)에 대한 혐의로 기소했다. 세 사람은 모두 이란 국적이며, 사마네는 2018년경 미 시민권, 남편 코스로비는 2019년경 영주권을 취득했고, 동생 소로르는 학생비자(F-1 계열)로 미국에 체류해 온 것으로 알려졌다. 사마네 간달리와 소르부르 간달리는 자매이다. 공소장과 해외 주요 매체 보도를

[빅테크칼럼] 오픈AI COO "AI의 가장 큰 병목은 메모리 칩"…AI 인프라 ‘전력’ 제치고 ‘메모리’가 목줄 쥐었다

[뉴스스페이스=김정영 기자] 오픈AI의 최고운영책임자(COO) 브래드 라이트캡은 3월 24일(현지시간) 메모리 칩 부족 심화가 현재 AI 인프라 확장의 가장 시급한 병목 현상으로 부상하여, 지난 2년간 업계의 주요 우려였던 전력 제약을 넘어섰다고 경고했다. bloomberg, TechRadar, MacTech, phemex에 따르면, 워싱턴에서 열린 힐 앤 밸리 포럼에서 라이트캡은 단도직입적으로 “지금 병목은 메모리이고, 과거에는 전력이었다”고 못 박으면서, AI 인프라 확장의 최대 변수로 메모리 칩 부족이 공식 부상했다. 불과 2년 전까지만 해도 업계의 모든 화두는 전력망과 전기요금이었지만, 이제는 HBM(고대역폭 메모리)과 DRAM 확보전이 AI 패권 경쟁의 승패를 가르는 결정적 변수가 되고 있다. 이 발언은 오픈AI를 포함한 기업들이 엔비디아 가속기에 자원을 쏟아부으면서 AI 공급망의 구조적 변화를 강조한다. 각 가속기에는 메모리 칩이 탑재되어 있으며, 이는 전 세계 생산 능력에서 점점 더 큰 비중을 차지하고 있다. 메모리 공급난은 2025년 말부터 본격화됐다. 로이터와 여러 업계 조사에 따르면 마이크로소프트, 알파벳, 바이트댄스 등 빅테크가 삼성전자·