
[뉴스스페이스=윤슬 기자] 오픈AI는 자사의 최신 인공지능 모델인 GPT-5가 미국 경제의 핵심 9개 산업에서 44개 직업을 대상으로 시행한 실제 업무 과제 평가에서 인간 전문가와 맞먹는 성과를 냈다고 2025년 9월30일(현지시간) 발표했다.
이 평가는 GDPval이라는 새로운 벤치마크로, 1320개의 실제 업무 산출물을 평균 14년 경력의 업계 전문가들이 설계·검증하고 AI와 인간의 결과물을 비교하는 형식으로 진행됐다.
오픈AI 공식 발표, TechCrunch, Axios, CNBC에 따르면, 오픈AI GPT-5-high 모델은 인간 전문가 대비 40.6%의 승리 및 동률을 기록하며 2024년 봄 출시된 GPT-4o의 13.7%와 비교할 때 거의 3배에 달하는 발전을 이뤘다. 경쟁사 앤트로픽의 Claude Opus 4.1은 이보다 더 높은 47.6%로 우위를 점하며 AI 전문가 수준의 품질 경쟁이 치열해지고 있음을 보여준다.
GDPval은 단순 텍스트 입력이 아닌 설계도, 보고서, 프레젠테이션, 멀티미디어 등 다양한 포맷 업무 수행 능력을 평가하며, 미국 노동부와 BLS가 선정한 고부가가치 직업군을 대상으로 삼아 실용적 경제 가치를 반영한다. 과제들은 금융, 의료, 법률, 제조, 사회복지 등 9개 산업에 속하며 AI가 기존에 소외됐던 탐정, 약사, 사회복지사 업무까지도 포함해 전방위적인 경제 영향력을 분석한다.
동시에 오픈AI는 미국 내 ChatGPT 사용자들에게 대화형 인터페이스 내에서 Etsy 상인 제품을 즉시 검색·구매할 수 있는 ‘즉시 결제(Instant Checkout)’ 기능을 출시했다. 이 기능은 신용카드, 애플페이, 구글페이 등 다양한 결제수단을 지원하며, 연내 100만개 이상의 Shopify 판매자들도 추가될 예정이다.
이커머스 통합은 결제 솔루션 기업 Stripe와 협력해 개발한 오픈소스 ‘Agentic Commerce Protocol’을 활용, 자연어로 상품 검색부터 결제까지 원스톱 처리 가능하다. 출시 당일 Etsy 주가는 16%, Shopify는 6% 이상 상승했다.
하지만 AI 기술의 상용화 성공률은 아직 낮다는 지적도 있다. MIT의 최근 연구에 따르면 95% 이상의 기업이 AI 도입 후 실질적인 투자 수익을 이루지 못했으며, 하버드·스탠포드 연구진은 AI가 생성하는 ‘작업 쓰레기(workslop)’ 현상으로 인해 성과 미진이 초래된다고 분석했다.
이러한 상황에서 오픈AI와 앤트로픽은 경쟁적으로 자율 작업체제, 고급 코딩 지원 기능 등을 강화하며 기업 현장 적용도를 높이려 노력하고 있다. 앤트로픽이 새로 공개한 Claude Sonnet 4.5는 30시간 이상 자동으로 작업을 수행할 수 있어 지속적 코딩 및 금융 분석 능력이 대폭 개선되었다고 발표했다.
마이크로소프트도 자체 ‘Copilot Merchant Program’을 통해 AI 기반 상점 프론트 기능을 상인들에게 제공, 오픈AI와 경쟁 구도를 형성 중이다. 이런 경쟁구도는 AI가 경제 전반에 미치는 실질적 영향력 강화를 위한 기술 고도화 및 상용화 가속화로 이어지고 있다.
그럼에도 불구하고 오픈AI는 GDPval 벤치마크 결과를 통해 대부분 직종이 단순 과제 집합을 넘어서 복잡한 인간의 창의적·사회적 판단을 필요로 한다는 한계를 솔직히 인정하면서, AI가 ‘협업적 보조자’ 역할을 하며 점진적으로 생산성을 높이는 방향으로 산업 전반에 파급될 것으로 전망한다.
이 같은 AI 성능 고도화와 이커머스 기능 결합은 기업의 업무 효율성, 소비자 구매 경험 혁신뿐 아니라 산업 구조 전반에 중대한 변화 조짐을 예고한다. 그러나 투자 수익성과 실질적 현장 적용 확대에 있어서는 조심스러운 접근과 추가 연구가 요구되는 시점이다.