2026.04.27 (월)

  • 흐림동두천 17.9℃
  • 흐림강릉 14.9℃
  • 서울 18.5℃
  • 흐림대전 21.0℃
  • 흐림대구 26.0℃
  • 구름많음울산 21.1℃
  • 구름많음광주 21.6℃
  • 구름많음부산 20.2℃
  • 구름많음고창 19.2℃
  • 구름많음제주 18.9℃
  • 흐림강화 16.0℃
  • 흐림보은 20.9℃
  • 흐림금산 20.4℃
  • 구름많음강진군 22.4℃
  • 맑음경주시 21.4℃
  • 맑음거제 21.0℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=이승원 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] AI, ‘평등의 기술’이 아니라 고소득·고학력·남성에게 쏠린 특권이 되고 있다?

[뉴스스페이스=이종화 기자] 인공지능(AI)이 노동시장의 생산성을 끌어올리는 ‘게임 체인저’로 주목받고 있지만, 실제 현장에서는 소득·성별·연령·학력에 따라 혜택이 극단적으로 쏠리는 ‘AI 디바이드(AI 격차)’가 빠르게 굳어지는 양상이다. 기술 낙관론이 말하던 “AI가 모두의 생산성을 공평하게 높여줄 것”이라는 서사는 적어도 현재까지는 통계와 거리가 멀다는 게 국내외 데이터를 종합한 결론이다. 고소득층 60% 이상이 매일 AI 사용…저소득층은 16% 영국 파이낸셜타임스(FT)와 리서치 기업 포컬데이터(Focaldata)가 미국·영국 근로자 4,000명을 대상으로 실시한 ‘AI 노동시장 추적기’ 첫 보고서에 따르면, 소득 상위 근로자의 60% 이상이 AI 도구를 ‘매일’ 사용하는 반면, 저소득 근로자 가운데 매일 AI를 쓴다고 응답한 비율은 16%에 그쳤다. 임금 수준이 높을수록 AI 활용 빈도가 기하급수적으로 올라가는, 전형적인 ‘K자형 기술 확산’의 단면이다. FT는 이 조사 결과를 두고 “임금과 교육 수준, AI 활용 간 강한 상관관계가 존재하며, 이는 상위 노동자의 생산성을 더 끌어올리는 반면 하위 노동자에게는 같은 효과가 나타나지 않아 소득 격차 확

[빅테크칼럼] 소니 탁구 로봇 ‘Ace’, 엘리트 선수 이겼다…"피지컬 AI가 인간의 코트까지 점령"

[뉴스스페이스=김정영 기자] 인공지능이 바둑·체스·e스포츠를 넘어서, 마침내 실제 구기 종목의 테이블 위에서 인간 엘리트 선수들을 쓰러뜨렸다. 소니 AI가 개발한 탁구 로봇 ‘에이스(Ace)’가 국제탁구연맹(ITTF) 규정에 따른 정식 경기에서 엘리트 선수들을 상대로 5전 3승의 승리를 거두고, 추가 업그레이드를 통해 프로 선수들까지 제압한 것이다. 연구가 세계적 학술지 《네이처(Nature)》에 게재되면서 ‘피지컬 AI(Physical AI)’ 시대가 본격 개막했다는 평가가 뒤따른다. ITTF 룰 정식 경기에서 5전 3승… “바둑·체스 넘은 첫 현실 스포츠 돌파구” 소니 AI 연구진은 스위스 취리히 연구소에서 개발한 로봇 팔 ‘에이스’를 소니 도쿄 본사에 설치한 올림픽 규격 탁구 코트로 옮겨, 인간 선수들과의 정식 대결에 투입했다. ITTF 공식 규칙을 적용한 경기에서 에이스는 10년 이상 훈련한 엘리트 선수 5명을 상대로 5경기를 치러 3경기에서 승리했다. 매체들은 “엘리트 선수와의 5경기 중 3경기 승리, 프로와의 2경기 패배”라는 초기 결과를 인용하며, 인간-기계 대결이 이세돌-알파고 이후 ‘분석·추론’에서 ‘신체 활동 스포츠’ 영역으로까지 확장됐다고

[빅테크칼럼] “앱 열지 말고 말로 시켜라”…스타벅스·항공사·보험사까지 챗GPT 안으로 들어왔다

[뉴스스페이스=김정영 기자] 피자부터 항공권·주택담보대출·보험상품까지, 글로벌 브랜드들이 일제히 ‘챗GPT 안의 앱(Apps in 챗GPT)’ 출시 경쟁에 뛰어들면서 대화형 AI가 사실상 새로운 쇼핑·예약 게이트웨이로 부상하고 있다. 아직 결제는 각사 앱·웹사이트로 넘어가는 ‘하프 스텝’ 단계지만, 트래픽과 데이터가 챗GPT로 몰리면서 플랫폼 파워가 애플 앱스토어·구글 플레이를 연상케 한다는 평가다. 대화가 주문이 되는 순간 4월 글로벌 소비재·서비스 브랜드들은 일제히 “챗GPT 안에서 바로 주문·예약이 가능한” 전용 앱을 공개했다. 4월 15일, 스타벅스는 사용자가 자신의 기분을 설명하거나 주변 사진을 올리면 맞춤 음료를 추천받고, 옵션을 커스터마이징한 뒤 픽업 매장까지 고를 수 있는 베타 앱을 챗GPT에 탑재했다. 같은 날 피자 체인 리틀 시저스는 인원 수, 식이 제한, 예산을 입력하면 AI가 자동으로 메뉴를 구성해 장바구니를 채워주는 주문 앱을 열었다는 보도가 이어졌다. 4월 20일에는 버진 애틀랜틱이 항공사 최초로 챗GPT 앱을 선보여 “2월 카리브해 휴가”, “런던 출발, 직항만” 같은 자연어 프롬프트로 항공편 검색·비교를 지원하기 시작했다. 4월