2026.03.04 (수)

  • 맑음동두천 11.0℃
  • 맑음강릉 9.5℃
  • 맑음서울 11.7℃
  • 맑음대전 12.2℃
  • 맑음대구 13.3℃
  • 맑음울산 9.9℃
  • 맑음광주 14.0℃
  • 맑음부산 13.6℃
  • 맑음고창 11.1℃
  • 구름많음제주 13.7℃
  • 맑음강화 10.1℃
  • 맑음보은 10.5℃
  • 맑음금산 11.4℃
  • 맑음강진군 13.6℃
  • 맑음경주시 12.0℃
  • 맑음거제 12.5℃
기상청 제공

빅테크

오픈AI, 국제수학올림피아드 금메달 ‘충격’…"인간 수학을 넘어선 새역사·인간문명에 도전장"

 

[뉴스스페이스=김정영 기자] 2025년 7월, 인공지능(AI)이 또 한 번 역사를 썼다. 오픈AI(OpenAI)가 개발한 범용 추론 언어 모델이 세계 최고 고등학생 수학 경진대회인 국제수학올림피아드(IMO)에서 ‘금메달 수준’ 성적을 공식 인증받았다.

 

Business Insider, TechCrunch, Engadget 등의 매체와 Simon Willison’s Weblog, lesswrong.com, THE-DECODER.com 등의 자료를 분석한 결과에 따르면, 이 모델은 인간과 동등한 조건(두 번의 4.5시간 시험 세션, 인터넷∙계산도구 미사용)에서 출제된 6개 문제 가운데 5개를 완벽히 풀어내며, 42점 만점에 35점을 획득해 금메달 기준점을 넉넉히 넘었다.

 

IMO는 630명의 참가자 중 약 67명(전체의 10% 정도)만이 금메달을 따는 세계에서 가장 까다로운 대회로 알려져 있다. 오픈AI의 모델은 이 대회에서 실제 인간 수상자들과 같은 방식, 동일한 평가지침 아래서 전직 IMO 메달리스트 심사위원 3인에 의해 각각 채점됐고, 만장일치로 점수가 확정됐다.

 

“단일 과업 특화 모델 아니다”…범용 AI의 본격 도약


이번 성과는 전문 수학 프로그램이 아닌 일반 범용 대화형 AI가 달성했다는 점이 더욱 충격적이다.

 

연구원 Alexander Wei는 이번 성과가 “특정 과업 최적화가 아니라, 범용 강화학습과 시험 시 컴퓨팅 확장(test-time compute scaling)의 신기술을 적용한 결과”라고 밝혔다. 모델은 인간처럼 문제를 자연어(영어)로 서술해가며 해설했고, 기존 LLM(대규모 언어 모델)과 달리 시험 중 답을 내기까지 ‘수 시간’을 집중적으로 고민하는 접근으로 높은 평가를 받았다.

 

오픈AI 연구원 Noam Brown은 “최고의 인간과 AI의 약간 차이는 엄청난 차이”라고 강조했다.

 

경쟁 모델과 격차 ‘수치로 입증’


최근 MathArena.ai가 주요 상용 및 연구 모델(Gemini 2.5 Pro, Grok-4, o3 등)을 동일한 IMO 2025 문제로 평가한 결과, 최고 성적을 기록한 Gemini 2.5 Pro가 13점(42점 만점, 약 31%)에 그치며 동메달 커트라인(19점)에도 미달했다는 점은 AI 간 ‘성능 격차’의 현실을 수치로 단적으로 드러낸다.

 

심지어 일부 모델은 논리적 오류, 불완전한 해설, 심지어 없는 정리까지 만들어내는 등 한계를 노출했다는 것이 해외 IT매체들의 지적이다.

 

“곧 출시될 GPT-5와는 다른 연구 성과”…일반 공개는 미정


오픈AI는 “이 모델은 실험적으로만 개발된 연구용 시스템으로, 수 개월 내에라도 대중에 공개할 계획이 없다”고 못박았다. 대신 곧 공개될 예정인 GPT-5는 별도 팀이 개발 중인 소비자용 모델로, 이번 수학 올림피아드 금메달 성능과는 직접 관련이 없음을 분명히 했다.

 

AI 추론력의 한계 돌파…수학을 넘어 ‘문명 패러다임’ 바꿀까

 

AI의 수학 고차원 문제 해결력은 그 자체로 미래 문명의 ‘패러다임 시프트’ 신호탄으로 주목받고 있다. 전문가들은 이번 성과가 단순 수치 향상을 넘어 ▲범용 추론력 강화 ▲복잡한 창의 문제 해결 ▲증명 중심의 자연어 의사소통 등 인간 학습과정의 핵심 단계마저 기계가 넘기 시작한 기점으로 해석한다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] AI기업들, 펜타콘에 반란…오픈AI·구글 900명 서명, 트럼프 펜타곤에 'AI 자율무기 금지' 선봉장 앤트로픽 지지

[뉴스스페이스=김정영 기자] 미국 빅테크 기업 직원들이 앤트로픽의 AI 군사 활용 제한 정책에 연대하며 펜타곤과의 충돌이 격화되고 있다. 오픈AI와 구글 직원 중심의 공개서한에 900명 가까이가 서명한 가운데, 도널드 트럼프 대통령과 피트 헤그세스 국방장관의 강경 조치가 역풍을 맞고 있다. 서명 폭증, 빅테크 내부 균열 'We Will Not Be Divided'라는 제목의 공개서한은 지난 2월 27일부터 3일까지 오픈AI 100명, 구글 800명 등 총 900명이 서명하며 확산됐다. 서한은 펜타곤이 "국내 대규모 감시와 무인 자율살상 무기" 사용을 요구하며 기업 간 분열을 조장한다고 비판했다. 구글 내부에서는 AI 관련 직원 100명 이상이 경영진에게 별도 서한을 보내 제미나이 모델의 '레드라인' 설정을 촉구했다. 또 다른 서한에는 오픈AI 수십 명 외에 세일즈포스, 데이터브릭스, IBM, 커서 직원 수백 명이 동참해 헤그세스 장관의 조치를 철회하라고 요구했다. 이는 펜타곤이 앤트로픽 CEO 다리오 아모데이를 압박하며 국방생산법 발동을 위협한 데 따른 반발이다. 트럼프·헤그세스 강경 대응 트럼프 대통령은 2월 27일 모든 연방기관에 앤트로픽 기술 사용 즉시

[The Numbers] 메모리 호황, 전쟁에도 '불사조' 날개…삼성전자·SK하이닉스 "중동 위기, 반도체 호황 꺾지 못할 것"

[뉴스스페이스=이승원 기자] 한국 메모리 반도체 쌍두마차인 삼성전자와 SK하이닉스가 중동 위기 속 주가 10%대 폭락에도 사업 전망을 낙관했다. 미국-이스라엘의 이란 공습(2월 28일 시작)으로 호르무즈 해협 봉쇄 위협이 현실화되며 코스피가 7.24%(452.22포인트) 급락, 5791.91로 마감했으나, 양사는 칩의 항공 운송 특성과 AI 수요 폭증으로 영향 최소화될 것이라 입장 밝혔다. 한국의 양대 메모리 반도체 생산업체는 3월 3일 고조되는 미국-이란 갈등이 전례 없는 반도체 수요 호황을 저해하지 않을 것이라는 확신을 표명했다. 이는 패닉에 빠진 투자자들이 그들의 주식을 매도하며 거의 2년 만에 한국 증시 최대 폭락을 기록한 가운데 나온 입장이다. 삼성전자는 3월 3일 약 10% 하락했고 SK하이닉스는 약 11.5% 하락했으며, 이는 코스피가 7.24% 폭락하여 5,791.91로 마감하는 데 결정적 역할을 했다. 450포인트 이상 하락하며 한 달 만에 처음으로 서킷브레이커가 발동됐다. 한국 언론이 '블랙 튜즈데이'라고 명명한 이 폭락은 대체 공휴일 이후 시장이 재개되면서 투자자들이 이틀간의 부정적 뉴스를 한꺼번에 소화해야 했기 때문에 더욱 심화되었다.

[빅테크칼럼] '美 클로드 AI 활용' 이란 공격에 中 '화들짝'…"AI 군사화 기술 자립 박차"

[뉴스스페이스=이승원 기자] 미군이 이란 공습에서 ‘AI 기반 표적식별·시나리오 시뮬레이션’까지 실전에 투입했다는 보도가 나오자, 중국 내부에서 “AI 군사화는 더는 선택이 아니라 기술 자립의 문제”라는 경계론이 급부상하고 있다. 동시에 트럼프 행정부가 구글·xAI·오픈AI 등과 국방 AI 도입을 확장하는 흐름이 맞물리며, 미·중 ‘국방 AI 생태계’ 격차가 지정학 리스크로 재부상하는 양상이다. SCMP(사우스차이나모닝포스트)는 "미군의 대이란 작전이 전자전(EW)·정보수집·AI 보조작전이 결합된 형태로 전개되며, 중국에 전자전·정보·AI 통합의 압박을 키웠다"고 전했다. 같은 보도에서 미군이 1,000개가 넘는 표적을 타격했다는 서술은, AI가 결합될 때 작전의 속도·규모가 비약적으로 커질 수 있음을 시사한다. 또 WSJ(월스트리트저널)를 인용한 해외 보도에 따르면 미 중부사령부(CENTCOM)는 앤트로픽의 ‘클로드(Claude)’를 활용해 영상·신호정보를 분석하고 표적 식별, 전투 시나리오 시뮬레이션까지 수행한 것으로 전해졌다. “미 국방-빅테크 결합”이 만든 격차 미 국방부는 구글·xAI·오픈AI·앤트로픽에 각각 최대 2억 달러 규모 계약을 부여해 국방