2026.02.26 (목)

  • 맑음동두천 3.2℃
  • 구름많음강릉 4.1℃
  • 맑음서울 7.3℃
  • 맑음대전 6.2℃
  • 흐림대구 7.2℃
  • 흐림울산 8.6℃
  • 맑음광주 6.7℃
  • 흐림부산 9.1℃
  • 맑음고창 2.0℃
  • 흐림제주 10.5℃
  • 맑음강화 2.6℃
  • 맑음보은 5.3℃
  • 맑음금산 2.5℃
  • 맑음강진군 4.5℃
  • 흐림경주시 8.1℃
  • 흐림거제 9.0℃
기상청 제공

빅테크

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

 

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

 

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

 

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

 

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

 

 

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화


Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

 

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

 

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속


마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

 

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

 

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[내궁내정] 뜨거운 물이 차가운 물보다 먼저 어는 이유…음펨바 효과, 60년 논쟁 속 과학의 숨겨진 진실

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 1963년 탄자니아 마감바 중학교 요리 수업에서 에라스토 음펨바(Erasto Mpemba)가 뜨거운 아이스크림 혼합물을 냉동실에 넣었을 때, 미리 식힌 친구들의 것보다 먼저 얼어붙는 현상을 목격했다. 학교 방문 중 물리학자 데니스 오스본(Denis Osborne)에게 음펨바가 "35℃와 100℃ 물을 냉동고에 넣으면 뜨거운 물이 찬물보다 왜 더 빨리 어느냐"고 질문하자, 당시 동석했던 교사와 학생들은 그가 물리학의 기초도 모른다며 비웃고 조롱했다. 하지만 주변의 조롱에도 오스본은 실험으로 확인해 하며 '음펨바 효과(Mpemba Effect)'를 공식화했다. 하지만 오스본 교수는 아이의 관찰을 무시하지 않고 대학 실험실로 돌