2026.02.08 (일)

  • 맑음동두천 -9.7℃
  • 맑음강릉 -4.3℃
  • 맑음서울 -9.3℃
  • 맑음대전 -6.9℃
  • 맑음대구 -5.6℃
  • 맑음울산 -5.2℃
  • 광주 -5.4℃
  • 맑음부산 -3.7℃
  • 흐림고창 -4.7℃
  • 제주 -0.9℃
  • 맑음강화 -9.3℃
  • 맑음보은 -6.8℃
  • 맑음금산 -6.8℃
  • 구름많음강진군 -3.6℃
  • 맑음경주시 -6.0℃
  • 맑음거제 -2.9℃
기상청 제공
thumbnails
빅테크

[빅테크칼럼] 세계적 수학자들, AI 능력 테스트 위한 10가지 문제 공개 "AI 수학 한계 폭로"…GPT-5.2·Gemini 3.0 단발 테스트서 실패

[뉴스스페이스=이종화 기자] 필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. 스탠퍼드, 하버드, EPFL 등 명문대 연구자들이 자신들의 미공개 연구에서 도출된 10개의 문제를 공개하고, 암호화된 정답이 2월 13일에 공개되기 전까지 대중이 AI의 시도를 관찰할 수 있도록 초대했다. febspot, proofnews, arxiv, nature에 따르면, "First Proof"라고 명명된 이 프로젝트는 2월 6일 arXiv 프리프린트를 통해 공개됐으며, 오일러 수(약 2.718)를 기념하는 2월 7일 e-Day에 맞춰 진행됐다. 경쟁 스타일의 문제에 의존하는 기존 AI 벤치마크와 달리, 이 실험은 논문에 따르면 "수학자 자신의 연구 과정에서 자연스럽게 발생했고, 이후 수학자에 의해 해결되었지만 아직 인터넷에 게시되지 않은 문제들을 활용한다"고 밝혔다. 예비 테스트에서 오픈AI의 GPT 5.2 Pro와 구글의 Gemini 3.0 Deepthink가 단 한 번의 시도에서 다수 문제를 해결하지 못한 결과가 확인됐다. 기존 벤치마크 한계 직격, '자연 발생' 연구 문제 도입 전통적 AI 수학 벤치마크인 FrontierMath(수백 개 전문가 수준 미공개 문제, 오픈AI 자금 지원)나 IMProofBench(39개 연구 수준 증명 문제)는 자동 검증 가능 정수·기호 답변 형식으로 강화학습(RL) 최적화에 취약하다는 비판을 받았다. 이에 반해 퍼스트 프루프는 "수학자 연구 과정에서 자연 발생, 인터넷 미공개" 문제를 사용하며, 증명 길이는 5페이지 미만으로 설계됐다. 분야는 대수적 조합론 2개, 스펙트럼 그래프 이론 1개, 대수적 위상수학 1개, 확률 해석학 2개, 심플렉틱 기하학 2개, 수치 선형대수학 2개로 다양하다. 뉴욕타임스 보도에 따르면, 이 실험은 AI가 훈련 데이터·온라인 검색 너머 창의적 문제 해결 한계를 드러내기 위한 것으로, AI 기업 자금 전혀 받지 않고 독립 진행 중이다. 하이러는 LinkedIn에서 "최고 모델조차 한 번 시도에서 정확 답변 못 함"을 강조하며 #1stProof 해시태그로 참여 독려했다. AI 실적 수치 비교: 연구 수준서 여전한 '벽' 비교 벤치마크에서 Grok-4는 IMProofBench 최종 하위문제 정확도 61%, GPT-5는 완전 증명 생성 21%(39문제 중 8개 성공, 7개 미해결 문제 전부 실패)을 기록했다. MATH 500(공개 도메인 문제)에서는 제미나이(Gemini) 3 Pro가 96.4% 정확도를 보였으나, 데이터 오염 우려로 진짜 연구 능력 과대평가 논란이 있다. 퍼스트 프루프 예비 결과는 "공개 최고 AI가 다수 문제에서 실패"로, 반복 상호작용 시 개선 가능성을 시사하나 단발 테스트 기준으로는 연구 수준 증명 불가함을 객관화했다. 해외 미디어 반응은 뜨겁다. NYT는 "AI 수학 '해결' 과대광고에 제동"으로, Febspot은 "LLM 연구 수학 처리 한계 측정"으로 보도했다. 연구 수학 3단계 중 '해결 검증' 초점, 미래 벤치마크 예고 논문은 연구 수학을 (1) 큰 질문 파악, (2) 프레임워크 개발, (3) 소문제 해결·검증 3단계로 분해하며, 퍼스트 프루프는 (3)에 집중했다고 밝혔다. 참가자는 AI 상호작용 전체 기록 공유를 권장, 프롬프트 전략·평가 형식·데이터 오염 탐지 인사이트 수집 목적이다. 몇 달 내 제2세트 문제로 정식 벤치마크 진화 계획이며, 제빵 용어 'first proof'(1차 발효)처럼 커뮤니티 '발효'를 기대했다. 이 실험은 AI 수학 연구 '하이프' 억제와 학생·자금 유입 보호 효과를 노린다. 국내 수학계도 KIAS 'AI로 수학 향상' 프로젝트처럼 글로벌 추세 따라잡기에 나서야 한다는 지적이 제기된다.


최신뉴스




많이 본 카드뉴스



배너

최근 한달 많이 본 기사

















[콘텐츠인사이트] 진짜 ‘프로젝트’ 영화를 찍은 건가…<프로젝트 Y>를 보고

개인적으로 열렬한 팬이라고 할 수는 없지만, 전종서와 한소희 - 한소희와 전종서라는 두 배우의 만남만으로도 이 영화가 궁금해졌다. 보통 어떤 작품을 꼭 봐야겠다고 마음먹으면, 정작 그 영화는 이런저런 이유로 놓치고 엉뚱한 다른 영화를 보게 되는 징크스가 있다. 이번에도 마찬가지였다. 원래는 <직장상사 길들이기>나 <하우스메이드>를 볼 생각이었다. 하지만 조카들과 시간을 보내고, 장모님 생신 저녁을 함께한 뒤 분리수거까지 마치고 나니 어렵게 확보한 주말 ‘혼영’ 시간에 맞는 선택지는 많지 않았다. 시간대도 맞고 집에서 가장 가까운 극장에 걸려 있던 작품이 바로 <프로젝트 Y>였다. 결국 선택의 여지 없이 이 영화를 보게 됐다. 바쁘다는 핑계로, 힘들다는 이유로, 귀찮다는 변명으로 한동안 극장을 찾지 않았지만, 주말에 아내의 ‘허락’을 받고 누리는 혼영의 맛은 여전히 달콤했다. ◆ 제목은 그럴싸한데 제목은 묘하게 눈길을 끌었다. 실험영화 같기도 하고 상업영화 같기도 한, 졸업 작품 전시회에서 볼 법한 느낌. 그럼에도 제목이 주는 호기심이 컸다. 더구나 개성이 뚜렷한 두 배우가 주연을 맡았으니 기대하지 않을 수 없었다. 하지만 10

[콘텐츠인사이트] 왜 그는 오르는 걸까…<스카이스크래퍼 라이브: 초고층 빌딩을 오르다>를 보고

첫 화면과 소개글만 보고 저도 모르게 이런 생각이 들었다. “왜 이런 짓을 하는 걸까?” 등반장비도, 안전 로프도 없이 그저 마찰력을 높이는 가루만 묻혀가며 타이베이 101빌딩을 오르는 주인공(알렉스). 라이브 아닌 라이브 촬영으로 구성된 영상은 보는 내내 다리에 힘이 풀릴 정도로 긴장감을 줬다. 프로 스포츠 중계도 아닌데 이걸 실제로 라이브로 본 이들이라면 말 그대로 아드레날린이 폭발했을 듯하다. 신작이 없다느니, 볼 게 없다느니, 넷플릭스가 예전만 못하다느니 불평을 하다가도 결국 넷플이 위대해지는 이유는 이런 기획 때문이다. 과거 불법으로 몰래 초고층 빌딩을 타는 ‘러시아 클라이머’들이 골칫거리라는 뉴스를 본 적은 있지만, 이 정도 높이의 마천루를 맨손으로 오르는 장면은 본 기억이 없다. ◆ 무모한 도전에 감도는 경이 군대를 다녀온 필자 역시 유격훈련 당시 4층 높이 막타워에서 뛰어내리던 순간을 잊지 못한다. “애인 있습니까? 있습니다! 애인 이름 부르고 뛰어내립니다!”, “없습니다! 그럼 ‘엄마’ 하면서 뛰어내립니다!” 조교의 광기 어린 구령을 군필자라면 선명히 기억할 것이다. 그 짧은 높이에서도 공포는 대단했다. 하물며 이 정도 높이면 고소공포증이 있






















배너









People

더보기

Visual+

더보기

가장 많이 본 기사