2025.12.24 (수)

  • 구름많음동두천 2.9℃
  • 흐림강릉 8.3℃
  • 구름조금서울 5.3℃
  • 흐림대전 3.7℃
  • 흐림대구 7.5℃
  • 흐림울산 7.9℃
  • 흐림광주 5.4℃
  • 흐림부산 9.2℃
  • 흐림고창 5.1℃
  • 흐림제주 9.7℃
  • 맑음강화 3.9℃
  • 흐림보은 2.9℃
  • 흐림금산 3.6℃
  • 흐림강진군 6.6℃
  • 흐림경주시 8.1℃
  • 흐림거제 8.9℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 텔레그램 창립자 '두로프', 자신의 정자를 사용하는 여성들의 체외수정 비용 전액 부담…"700만원 비용, 37세 이하 미혼여성만"

[뉴스스페이스=이종화 기자] 러시아 출신의 메시징 앱 텔레그램 창립자 파벨 두로프(41)가 자신이 기증한 정자를 사용하는 37세 이하 미혼 여성들에게 체외수정(IVF) 비용을 전액 지원하겠다고 발표해 글로벌 사회적 논란을 일으키고 있다. Rattlestork.org, Wall Street Journal, CNN, Latin Times에 따르면, 두로프는 2010년부터 12개국에서 정자 기증을 통해 이미 100명 이상의 자녀를 둔 것으로 알려져 있으며, 최근 모스크바의 알트라비타(Altravita) 클리닉과 협력해 이 프로그램을 운영하고 있다. ​ 클리닉·비용·대상 알트라비타 클리닉은 두로프의 정자를 사용하는 여성들에게 IVF 시술 비용을 무료로 제공하고 있다. 일반적으로 IVF 시술은 약 5,000달러(약 730만원)가 소요되며, 클리닉 측은 이를 “사회에 대한 매우 관대한 기여”라고 설명했다. 이 프로그램은 오직 37세 이하의 미혼 여성만 신청 가능하다. 클리닉은 법적 문제를 피하기 위해 기혼 여성은 제외하고 있으며, 지원자들은 반드시 생식 전문의의 평가를 받아야 한다. 두로프의 사회적 메시지 두로프는 2024년 7월 자신의 텔레그램 계정을 통해 “전 세계

[이슈&논란] 전동문이 지옥문? 블룸버그 "전자식 도어 결함으로 최소 15명 사망"…자동차업계, 도어 시한폭탄 '경고등'

[뉴스스페이스=김정영 기자] 테슬라의 전자식 도어·도어 핸들 시스템이 충돌·화재 상황에서 제대로 작동하지 않아 지난 10여년간 최소 15명의 사망으로 이어졌다는 블룸버그의 심층 조사 결과가 공개되면서, 전 세계적으로 ‘미래차 상징’이던 전동식 도어의 안전성이 정면 도마 위에 올랐다. 미 도로교통안전국(NHTSA)과 유럽 교통안전기구까지 관련 조사와 규제 검토에 착수하면서, 테슬라는 물론 전기차 업계 전반으로 후폭풍이 확산되는 모습이다. ​ 블룸버그 “10년간 최소 15명, 12건 사고에서 탈출 실패” 블룸버그는 미 전역에서 발생한 테슬라 치명적 사고 가운데 화재와 문 개폐 실패가 동시에 얽힌 사건들을 추려, 경찰·소방 보고서와 검시조서, 911 통화 녹음 등 수천 페이지의 공문서와 증거 자료를 분석했다. 그 결과, “충돌 후 차량이 불에 타는 동안 탑승자나 구조대가 차 문을 열지 못해 탈출이 지연되거나 불가능했고, 이 과정이 사망에 결정적 영향을 준 사례”가 최소 12건, 사망자는 15명 이상으로 집계됐다고 밝혔다. ​ 블룸버그 분석에 따르면 이 15명은 2010년대 초부터 2025년까지 약 13년에 걸쳐 미국에서 발생한 테슬라 사고에 분포해 있으며, 모델S