2025.07.02 (수)

  • 구름많음동두천 27.7℃
  • 흐림강릉 29.4℃
  • 구름조금서울 29.1℃
  • 구름조금대전 30.2℃
  • 맑음대구 32.3℃
  • 연무울산 29.4℃
  • 맑음광주 31.6℃
  • 구름조금부산 26.6℃
  • 구름조금고창 32.1℃
  • 맑음제주 29.6℃
  • 흐림강화 26.9℃
  • 구름많음보은 28.2℃
  • 구름조금금산 30.3℃
  • 구름많음강진군 30.8℃
  • 구름조금경주시 32.9℃
  • 구름조금거제 28.1℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


텔레그램, ‘추적 불가’ 신화 깨졌다…한국경찰에 95% 정보제공, 디지털범죄 검거 급증

[뉴스스페이스=김시민 기자] ‘추적당하지 않는 메신저’로 악명 높았던 텔레그램이 2024년 8월 창업자 파벨 두로프 체포 이후 정책을 전면 수정, 한국 경찰의 수사 요청에 95% 이상 응답하며 디지털 범죄 검거에 결정적 역할을 하고 있다. 가입자 정보·IP 기록 등 핵심 자료가 제공되며, 딥페이크·마약·성착취 등 각종 범죄 검거 사례가 급증하고 있다. 텔레그램, ‘범죄 안전지대’에서 ‘수사 협조’로 급선회 2024년 8월, 텔레그램 창업자 겸 CEO 파벨 두로프가 프랑스에서 아동 음란물 유포, 마약 밀매, 자금 세탁 방치 등 혐의로 체포된 것이 결정적 전환점이 됐다. 이후 텔레그램은 개인정보 보호 정책을 변경하고, 한국 경찰 등 수사기관의 자료 요청에 적극적으로 응답하기 시작했다. 경찰청에 따르면, 2024년 10월 이후 텔레그램은 한국 경찰의 자료 요청에 95% 이상 응답하고 있다. 실제로 2025년 6월 기준, 경찰이 제공받은 자료는 1000여 건에 달한다. 요청이 들어오면 텔레그램은 자사 정책 및 국제법 위반 여부를 검토한 뒤, 가입자 정보와 IP 기록 등을 제공하는 방식이다. 나머지 5%도 요청서를 보내고 기다리는 상태로, 사실상 거의 모든 요청이 받

[공간사회학] 148년 역사 윔블던, AI 심판 도입…'전통 상징' 테니스 ‘혁신의 서막’ 열다

[뉴스스페이스=이종화 기자] 6월 30일(현지시간) 영국 런던 올잉글랜드클럽에서 개막한 ‘윔블던 챔피언십’이 148년 만에 사상 최초로 ‘AI 심판’ 시스템을 전면 도입했다. 1877년 창설 이래 ‘전통의 상징’이었던 윔블던이 인공지능 기술을 도입하며 스포츠 혁신의 한복판에 섰다. AI 심판, 148년 만에 선심을 대체하다 BBC, Sky News의 보도에 따르면, 올해 윔블던의 가장 큰 변화는 ‘인간 선심’이 완전히 사라지고, AI 기반 라인 판독 시스템이 모든 코트에서 인·아웃 판정을 맡는다는 점이다. AI 심판은 코트 주변에 설치된 고성능 카메라와 센서를 통해 공의 궤적을 실시간으로 추적, 인공지능 알고리즘이 ‘인’과 ‘아웃’을 즉각적으로 판정한다. BBC와의 인터뷰에서 윔블던 조직위원회는 “기술의 발전이 경기의 공정성과 신속성을 높일 수 있다는 점에서, AI 심판 도입은 불가피한 선택이었다”고 밝혔다. 이 시스템은 이미 2023년 US오픈, 2024년 호주오픈 등 일부 메이저 대회에서 부분적으로 도입된 바 있으나, 윔블던처럼 모든 코트에서 선심을 완전히 대체하는 것은 이번이 처음이다. AI 심판은 판정의 일관성과 신속성, 그리고 인간 오심 논란을 원천