2026.02.15 (일)

  • 맑음동두천 11.9℃
  • 맑음강릉 15.8℃
  • 맑음서울 10.6℃
  • 연무대전 9.9℃
  • 맑음대구 14.9℃
  • 맑음울산 17.4℃
  • 연무광주 12.4℃
  • 맑음부산 19.2℃
  • 흐림고창 7.2℃
  • 맑음제주 14.4℃
  • 맑음강화 9.3℃
  • 흐림보은 8.8℃
  • 구름많음금산 10.1℃
  • 맑음강진군 13.4℃
  • 맑음경주시 15.9℃
  • 맑음거제 16.2℃
기상청 제공

빅테크

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

 

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

 

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

 

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

 

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

 

 

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화


Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

 

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

 

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속


마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

 

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

 

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 죽은 뒤에도 인스타에 댓글 단다?… 메타의 ‘디지털 사후 아바타’ 특허가 던진 불편한 미래

[뉴스스페이스=김정영 기자] 메타 플랫폼스가 사용자 사망 후에도 소셜 미디어 계정을 활성 상태로 유지할 수 있는 인공지능 기술 특허를 취득했다. 이 기술은 사용자의 과거 게시물과 상호작용을 대규모 언어 모델에 학습시켜 온라인 행동을 무기한으로 시뮬레이션할 수 있다. 이 인공지능(AI) 기술에 대해 미국 특허를 취득하면서, 이른바 ‘디지털 사후세계(digital afterlife)’ 시장과 규제 논쟁이 동시에 달아오르고 있다. Business Insider가 처음 보도한 이 특허는 2025년 12월 말에 승인됐으며, 사용자가 부재 중일 때, 사망 후를 포함해 페이스북, 인스타그램, 왓츠앱과 같은 플랫폼에서 AI가 사용자의 활동을 "시뮬레이션"할 수 있는 시스템이다. 메타의 최고기술책임자(CTO)인 앤드류 보스워스가 이 특허의 주요 저자로 명시되어 있으며, 이 특허는 원래 2023년에 출원됐다. 메타는 특허 문서에서 “해당 사용자가 사망하여 소셜 네트워킹 플랫폼에 영원히 돌아올 수 없다면, 그 사용자를 팔로우하던 다른 사용자에게 미치는 영향은 훨씬 더 심각하고 영구적”이라며, ‘부재’가 가져오는 공백을 AI가 메워줄 수 있다는 논리를 제시했다. 하지만 논란이 급