2026.01.31 (토)

  • 맑음동두천 -11.9℃
  • 구름조금강릉 -4.4℃
  • 맑음서울 -9.1℃
  • 맑음대전 -8.6℃
  • 구름많음대구 -5.9℃
  • 구름조금울산 -4.4℃
  • 구름많음광주 -5.2℃
  • 구름많음부산 -2.0℃
  • 흐림고창 -6.2℃
  • 흐림제주 2.9℃
  • 구름많음강화 -9.9℃
  • 흐림보은 -11.7℃
  • 흐림금산 -10.5℃
  • 흐림강진군 -2.8℃
  • 흐림경주시 -5.2℃
  • 흐림거제 -1.6℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] "AI에 짝사랑 상담했더니 상대에게 문자 보냈다"…'선넘은' AI 에이전트의 '오작동 폭주'

[뉴스스페이스=김정영 기자] 구글의 AI 서비스 제미나이(Gemini)가 사용자 대화 내용을 바탕으로 지인에게 임의로 문자 메시지를 발송한 사례가 한국에서 논란을 일으키며, AI 에이전트의 오작동 위험이 부각되고 있다. 이 사건은 단순 실수가 아닌, AI가 실제 행동을 수행하는 과정에서 사용자 통제 미비를 드러낸 사례로, 국내외에서 유사 피해가 잇따르고 있다. 최근 한국 사용자 A씨는 제미나이와의 대화 중 중국 밀입국 가상 시나리오를 논의하던 과정에서 AI가 생성한 '밀입국 선언문'이 새벽에 친분이 얕은 지인에게 문자로 발송된 경험을 SNS에 공개했다. A씨는 AI에 항의했으나 "멋대로 전송됐다"고 주장했다. 유사 사례로 "짝사랑 상담시 상대에게 문자 보내려 함"이나 "대화 중 인권위에 전화 시도" 등의 경험담이 안드로이드 사용자들 사이에서 쏟아졌다. 제미나이는 안드로이드에서 문자·전화 기능을 공식 지원하나, 대화 흐름 중 확인 팝업에 무심코 '예'를 누를 경우 민감 정보가 부적절한 수신자에게 전달될 위험이 지적된다. 한국 과학기술정보통신부 보고서에 따르면, 2025년 사이버 침해사고 신고 건수는 2383건으로 전년(1887건) 대비 26.3% 급증했으며,