2025.12.14 (일)

  • 구름많음동두천 -0.4℃
  • 맑음강릉 6.4℃
  • 구름조금서울 1.5℃
  • 구름많음대전 3.3℃
  • 맑음대구 5.5℃
  • 맑음울산 6.2℃
  • 광주 4.5℃
  • 맑음부산 7.7℃
  • 구름많음고창 4.9℃
  • 흐림제주 8.2℃
  • 구름조금강화 1.9℃
  • 흐림보은 1.7℃
  • 흐림금산 3.0℃
  • 구름많음강진군 6.1℃
  • 맑음경주시 6.2℃
  • 맑음거제 7.8℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[내궁내정] AI가 수능출제? ‘불수능’ 후폭풍과 AI 도입 명분…교육과정평가원, 2.5억 입찰공고 낸 속사정

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 도입 32년째를 맞은 대학수학능력시험(수능)에 인공지능(AI) 기반 자동 문항 생성 시스템을 도입하기 위한 정부의 사전 작업이 본격화됐다. 수능 출제기관인 한국교육과정평가원(이하 평가원)은 최근 ‘AI 기반 수능 자동 문항 생성 기능 개발을 위한 정보화전략계획(ISP)’ 입찰 공고를 내고, 12월 초 제안서 평가를 마무리한 뒤 이달 중 사업자를 선정해 계약에 들어갈 예정이다. 선정된 업체는 내년 2월까지 시스템 구축·관리 비용, 사업 규모, 기술·데이터 요건, 기대 효과 등을 담은 종합 보고서를 제출하게 되며, 이 결과는 향후 본 사업 예산을 기획재정부에 요구하는 근거 자료로 활용된다.​ 이번 ISP 사업의 추정가격은 약

[이슈&논란] "챗GPT와 대화하다 망상에 빠져 모친 살해했다" 오픈AI에 소송…AI의 정신건강 책임 '논란'

[뉴스스페이스=윤슬 기자] 미국 코네티컷주 그리니치에 거주하던 스타인-에릭 솔버그(56)가 지난 8월 어머니 수잰 애덤스(83)를 교살한 뒤 자살한 사건과 관련, 챗GPT 개발사 오픈AI가 망상을 부추겼다는 이유로 유족들로부터 소송을 당했다. 이번 사건은 챗GPT가 자살뿐 아니라 타인을 해치는 행동까지 부추겼다고 주장한 첫 사례로, 미국 내 AI 기업의 안전성에 대한 논란을 다시 불러일으키고 있다.​ 사건 개요와 소장 주장 유족들은 캘리포니아주 법원에 제출한 소장에서, 솔버그가 사건 이전 몇 달간 챗GPT와 대화하며 심각한 망상에 빠졌다고 주장했다. 챗GPT는 솔버그에게 “신성한 목적을 위해 선택받았다”며 자신감을 심어주고, 어머니를 ‘적’ ‘감시자’ ‘프로그램된 위협’으로 규정하도록 했다는 점이 소장에 포함됐다. 또한, 챗GPT는 어머니의 프린터에서 나오는 불빛이 감시 장치라거나, 차량 환풍구를 통해 환각 물질을 주입하려 한다는 망상에 동조하는 등 위험한 대화를 이어갔다고 유족들은 지적했다. 실제 솔버그가 사용한 챗GPT 모델인 ‘GPT-4o’는 동조적 경향이 강해 정신적으로 취약한 사용자에게 부정적 영향을 줄 수 있다는 비판이 꾸준히 제기된 바 있다.​​

[이슈&논란] 올트먼 "홍채가 곧 지갑…월드페이로 송금·환전·결제까지 가능"

[뉴스스페이스=윤슬 기자] 샘 올트먼이 창립한 가상화폐 프로젝트 '월드페이'는 홍채인식을 이용한 신원확인 시스템으로 글로벌 금융시장의 혁신을 예고하고 있다. 현재 전 세계 1,700만명이 홍채 스캔을 완료했으며, 월드앱은 출시 7개월 만에 월평균 200만명의 일일 활성 이용자를 기록하며 가상자산 지갑 분야에서 세계 1위를 차지했고, 이 기술은 앞으로 오프라인 결제와 카드 연계 등으로 글로벌 비즈니스 확장을 예고하고 있다. 실리콘밸리의 대표적 AI 업계 지도자인 샘 올트먼은 2019년부터 AI와 인간을 구별하는 혁신적 비전인 '홍채 인증'을 추진했고, 이번 행사는 그 연장선상에 있다. 올트먼은 대중에게 "인공지능 세상에서 프라이버시와 신원을 보호하는 것이 필수"라고 강조하며, '월드ID' 인증을 통해 개인의 존재를 증명하면서도 개인정보 보호와 사기 방지 기술을 동시에 구축하고자 했다. 월드앱과 오브(Orb) 기기를 활용한 홍채인식은 눈 만으로 인증이 가능하며, 이 기술은 이미 글로벌 사용자를 대상으로 수백만 건의 거래가 이루어지고 있다. 이 시스템은 특히 최근 '틴더'와의 협업으로 유명하는데, 인간임을 인증받은 사용자끼리만 매칭하는 기능이 도입돼 개인정보 유출