2026.04.12 (일)

  • 맑음동두천 5.9℃
  • 맑음강릉 9.0℃
  • 맑음서울 7.8℃
  • 구름많음대전 9.7℃
  • 구름많음대구 13.7℃
  • 구름많음울산 14.1℃
  • 흐림광주 12.3℃
  • 구름많음부산 17.1℃
  • 흐림고창 10.8℃
  • 흐림제주 15.1℃
  • 맑음강화 3.5℃
  • 구름많음보은 6.6℃
  • 흐림금산 8.8℃
  • 흐림강진군 11.1℃
  • 구름많음경주시 11.5℃
  • 구름많음거제 13.1℃
기상청 제공

빅테크

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

 

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

 

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

 

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

 

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

 

 

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화


Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

 

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

 

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속


마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

 

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

 

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[이슈&논란] 가족 사진까지 꺼낸 올트먼…화염병 테러가 드러낸 ‘AGI의 반지’ 권력전쟁

[뉴스스페이스=이현주 기자] 오픈AI 최고경영자(CEO) 샘 올트먼이 자택 화염병 테러 직후 새벽에 올린 블로그 글은 단순한 심경 고백을 넘어, AI 권력 구조와 민주주의, 그리고 미디어 책임을 둘러싼 정치·사회적 선언문에 가깝다. 4월 10일(현지시간) 오전 4시12분 전후, 미국 샌프란시스코 노스비치 지역에 위치한 올트먼 자택 대문에는 화염병이 던져졌다. 샌프란시스코 경찰에 따르면 화염병은 문과 외벽 일부를 그을렸지만, 인명 피해는 발생하지 않았다. 사건 1시간가량 뒤인 오전 5시7분, 같은 남성이 3번가에 위치한 오픈AI 본사 앞에서 건물을 불태우겠다고 협박했고, 출동한 경찰에 현장에서 체포됐다. 용의자는 20세 남성으로, 신원과 구체적인 범행 동기는 아직 공개되지 않았다. 이 사건은 챗GPT를 비롯한 생성형 AI에 대한 불안과 반발이 전 세계적으로 고조되는 가운데 발생했다는 점에서, ‘AI 공포’가 물리적 폭력으로 번진 첫 상징적 사례로 받아들여지고 있다. “이것은 내 가족 사진이다”…가장 사적인 이미지의 정치화 사건 직후 올트먼은 평소 철저히 숨겨왔던 가족 사진을 공개하는 이례적 행보를 택했다. 그는 블로그에서 “이것은 내 가족 사진이다. 나는 그

[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[뉴스스페이스=김정영 기자] 미국 AI 스타트업 앤트로픽(Anthropic)이 자체 AI 칩 개발을 검토하고 있다고 로이터 통신은 9일(현지시간) 복수의 소식통을 인용해 보도했다. 전 세계적인 AI 수요 폭증으로 고성능 반도체 품귀와 가격 급등이 이어지자, 중장기적으로 안정적인 연산 인프라를 확보하기 위한 전략의 하나라는 해석이 나온다. 다만 논의는 극초기 단계로, 아직 전담 조직도 꾸려지지 않았고 구체적인 칩 아키텍처 설계 역시 착수하지 않은 상태라며, 상황에 따라 프로젝트가 전면 백지화될 수 있다는 점을 소식통들은 분명히 했다. 로이터는 첨단 AI 칩 설계·생산 체제를 구축하는 데 숙련 공학자 확보와 제조 파트너십까지 감안하면 약 5억달러(약 7400억원) 안팎의 초기 비용이 들어갈 수 있다고 전했다. GPU 의존도와 ‘멀티 벤더’ 전략의 한계 앤트로픽은 현재 엔비디아 GPU뿐 아니라 아마존웹서비스(AWS)의 ‘트레이니엄(Trainium)’, 구글 클라우드의 텐서 처리 장치(TPU) 등 빅테크의 전용 AI 칩을 폭넓게 사용하는 ‘멀티 벤더’ 구조를 구축해 왔다. AWS는 앤트로픽의 초기 핵심 파트너이자 주요 AI 고객사로, 자사 고성능 칩과 슈퍼컴퓨팅 인

[빅테크칼럼] 구글 CEO "AI가 거의 모든 SW 무너뜨릴 것"... 순다르 피차이의 경고가 가리키는 사이버 보안의 ‘급변점’

[뉴스스페이스=이현주 기자] 구글 CEO 순다르 피차이가 “AI 모델이 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것”이라고 공개 경고하면서, AI 확산의 숨은 뇌관으로 사이버 보안 리스크가 다시 전면에 부상하고 있다. nytimes, Techmeme, searchenginejournal, securityaffairs에 따르면, 그는 최근 스트라이프 공동창업자 존 콜리슨과 투자자 엘라드 길이 진행하는 팟캐스트 ‘Cheeky Pint’에 출연해, 메모리·전력·웨이퍼 등 하드웨어 공급 병목과 더불어 보안 취약성이 AI 산업의 성장 속도를 제약할 수 있는 핵심 변수라고 지목했다. 특히 AI가 제로데이(0day) 취약점의 ‘발견 비용’을 극단적으로 낮추면서, 소프트웨어 생태계 전반에 걸친 구조적 충격이 도래할 수 있다는 점을 수치로 뒷받침한 셈이다. “이미 무너지고 있을지도 모른다”는 피차이의 문제의식 피차이는 해당 팟캐스트에서 “이 모델들은 분명히 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것이다. 어쩌면 이미 그렇게 되고 있는지도 모른다, 아직 모를 뿐”이라고 말했다. 진행자가 SSH 같은 기초 프로토콜까지 위험해지는 것이냐고 되묻자 그