[뉴스스페이스=이종화 기자] 오픈AI의 최신 플래그십 모델 GPT-5.4 Pro가 60년 가까이 풀리지 않았던 에르되시(Erdős) 난제 가운데 하나인 문제 #1196을 약 80분 만에 풀어냈다는 주장이 나오면서, AI의 순수 수학 연구 능력을 둘러싼 논쟁이 다시 불붙고 있다.
문제 풀이 직후 30분 만에 LaTeX 형식의 논문까지 자동으로 정리했다는 설명이 더해지면서, “AI가 드디어 인간 수학자의 프론티어를 넘었다”는 평가와 “과거에도 비슷한 과장 논란이 있었다”는 경계론이 동시에 제기되는 분위기다.
axinova, tilnote.io에 따르면, 이번에 GPT-5.4 Pro가 풀었다고 알려진 에르되시 문제 #1196은 1960년대 폴 에르되시가 사르쾨지, 세메레디와 함께 제시한 정수론 난제로, ‘원시 집합(primitive set)’이라 불리는 특수한 정수 집합에서 특정 합의 점근적 거동을 묻는 문제다. 원시 집합이란 집합 안의 어느 정수도 다른 정수의 약수가 되지 않는 구조를 갖는데, 이 특성 때문에 소수 분포, 정수의 분해 구조 등 ‘정수의 해부학(anatomy of integers)’과 밀접히 연결된 영역으로 평가돼 왔다.
미국 수학자 재러드 듀커 릭트먼은 이 합에 대한 상한값을 약 1.399로 끌어내는 데 성공했지만, 에르되시가 제기한 본래의 점근 추측 전체를 완전히 해결하지는 못한 상태였다.
GPT-5.4 Pro는 에포크 AI(Epoch AI) 연구원 리엄 프라이스의 프롬프트를 바탕으로 문제에 접근한 것으로 알려졌다. 모델이 제시한 핵심 아이디어는 ‘마르코프 연쇄(Markov chain)’를 도입하고 여기에 ‘폰 망골트 가중치(von Mangoldt weights)’를 결합하는 방식으로, 통계적 과정 이론과 정수론을 접목한 하이브리드 기법이다. 이 조합은 수년간 관련 문제를 파고든 인간 수학자들이 거의 시도하지 않았던 방향이어서, 수학 커뮤니티 내부에서도 “전통적 정수론 직관 바깥에서 나온 비정통적 발상”이라는 평가가 나온다.
필즈상 수상자인 테런스 타오는 에르되시 문제 프로젝트 포럼에 남긴 코멘트에서 GPT-5.4 Pro의 풀이에 대해 “정수의 구조와 마르코프 과정 이론 사이의 이전에 설명된 적 없는 연결고리를 드러낸다”고 평가하며, “이 에르되시 문제 하나를 푸는 수준을 훨씬 넘어서는, 정수 해부학에 대한 의미 있는 기여가 될 수 있다”고 말했다.
다만 테런스 타오는 동일한 글에서 증명의 핵심 단계에 대해 “돌이켜 보면 자명해 보일 수 있지만, 실제로는 다소 비약적인 점이 있다”고 지적해, AI가 제시한 논리 비약을 인간 수학자가 얼마나 엄밀하게 정리하고 재구성할 수 있을지가 향후 검증의 관건이 될 전망이다.
GPT-5.4 Pro는 에르되시 문제 #1196뿐 아니라 #1148, #1202 등 다른 문제들에 대해서도 ‘검증 가능한 수준의 해법’을 내놓았다는 주장이 이어지고 있으며, 비영리 연구기관 에포크 AI의 벤치마크 ‘FrontierMath: 오픈 Problems’에 포함된 하이퍼그래프 램지 스타일 문제 한 건에 대해서도 최초의 AI 기반 공식 해법을 제시한 바 있다.
에포크 AI는 GPT-5.4 Pro가 FrontierMath의 ‘미해결 문제(오픈 Problems)’ 가운데 하나를 처음으로 해결했으며, 이후 자체 스캐폴드 환경에서 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 등 다른 상위 모델들도 동일 문제를 풀 수 있음이 확인됐다고 밝혔다. 해당 증명은 정리·가공 과정을 거쳐 정형 증명 시스템 Lean 포맷으로도 작성됐고, 논문 출판이 추진 중이다.
물론 GPT 계열 모델의 ‘수학 난제 해결’ 주장을 시장·홍보 차원의 과장으로 보정해야 한다는 반론도 만만치 않다. 2025년 10월, 오픈AI 부사장 케빈 웨일은 X(옛 트위터)에 “GPT-5가 미해결 에르되시 문제 10개를 해결했다”고 주장했고, 같은 회사 연구원들도 “다른 11개 문제에서 추가 진전을 이뤘다”고 뒷받침하는 글을 올렸지만, 이는 곧바로 뒤집혔다.
에르되시 문제 웹사이트 운영자인 수학자 토머스 블룸이 “웹사이트의 ‘열린 문제(오픈)’ 표기는 단지 내가 해법을 모른다는 뜻일 뿐, 학계 전체에서 미해결이라는 뜻은 아니다”라고 반박하면서, 오픈AI의 홍보는 “이미 해결된 논문을 재발견한 수준”이라는 비판에 직면했다.
당시 논란은 구글 딥마인드 CEO 데미스 허사비스와 메타 AI 수석 연구원 얀 르쿤이 각각 “창피한 일”, “GPT-5 신봉자들의 착각”이라고 직격탄을 날리며 일종의 ‘동료 기업 공개견제’ 양상으로 번졌다. 국내에서도 “오픈AI, 마음 급했나… 수학적 난제 해결했다고 과장 홍보했다가 취소” 같은 제목의 기사가 쏟아지며, AI 기업이 실제 수학적 난제 해결 수준과 ‘이미 존재하는 해법의 재조합·검색’ 수준을 혼동해선 안 된다는 교훈을 남겼다.
이 같은 전례 때문에, 이번 GPT-5.4 Pro의 에르되시 #1196 풀이 역시 ‘수학계의 공식 검증’이 끝나기 전까지는 신중한 접근이 필요하다는 견해가 우세하다. 실제로 에르되시 문제 커뮤니티와 관련 포럼에서는 “증명 구조 자체는 흥미롭지만, 일부 단계는 인간 수학자들이 다시 풀어 써야 할 여지가 있다”는 평가가 나오고 있으며, 정리·공식화 과정에서 기존 문헌과의 중복 여부, 독창적 아이디어의 범위 등이 구체적으로 가려질 전망이다.
특히 최근 또 다른 에르되시 문제 #728이 “AI 도구에 의해 거의 자율적으로 해결됐다”는 사례가 공유되는 등, 인간-기계 협업 구조 속에서 AI의 역할을 어떻게 정의할 것인지가 수학계 내부 주요 쟁점으로 부상하고 있다.
그럼에도 GPT-5.4 Pro를 비롯한 최신 대규모 언어모델이 순수 수학 연구의 풍경을 바꾸고 있다는 점만큼은 부인하기 어렵다. 2025년 국제수학올림피아드(IMO)에서 구글 딥마인드와 오픈AI는 각각 6문제 가운데 5문제를 해결해 인간 금메달 수준의 성적을 기록했고, 이후 1년도 채 안 되는 사이에 FrontierMath처럼 ‘진짜 미해결 문제’를 겨냥한 벤치마크에서 첫 AI 기반 해법이 잇따라 등장하고 있기 때문이다.
정보 검색·패턴 탐지에서 증명 스케치 생성, 형식 검증 보조에 이르기까지, AI는 이미 수학자들의 일상 도구로 스며들고 있으며, 이번 에르되시 #1196 논란은 그 최전선에서 벌어지는 ‘역사적 인수인계’의 첫 장면으로 기록될 가능성이 크다.
하지만 인간 수학자가 아직 ‘직관’과 ‘아이디어의 선택’에서 우위를 점하고 있는 지금, GPT-5.4 Pro의 에르되시 난제 도전은 AI가 그 벽을 어디까지, 얼마나 빠르게 좁혀올지 가늠하게 해주는 시금석이 되고 있다.























































