2025.12.11 (목)

  • 맑음동두천 8.4℃
  • 구름조금강릉 11.6℃
  • 맑음서울 7.9℃
  • 구름조금대전 10.2℃
  • 구름많음대구 12.8℃
  • 구름많음울산 14.5℃
  • 맑음광주 12.3℃
  • 맑음부산 16.8℃
  • 구름많음고창 10.0℃
  • 구름많음제주 15.0℃
  • 맑음강화 5.9℃
  • 구름많음보은 9.7℃
  • 구름많음금산 11.1℃
  • 흐림강진군 12.2℃
  • 구름많음경주시 12.6℃
  • 맑음거제 15.2℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 머스크 "정부효율부, 약간 성공했지만 다시 맡지는 않겠다” 선긋기…"내 회사 테슬라·스페이스X·X 우선"

[뉴스스페이스=이종화 기자] 일론 머스크가 정부효율부(DOGE)를 “일정 부분 성공했다”고 평가하면서도 “다시 맡지는 않겠다”며 선을 그은 발언은, 트럼프 2기 정부의 재정삭감 실험이 정치·경제·기업 평판에 남긴 상처를 웅변적으로 보여준다. 그는 “그 시간에 내 회사들을 위해 일했어야 한다”고 토로하며, 정부 개입보다 민간 기업 경영에 집중하겠다는 입장을 분명히 했다.​ “약간 성공했지만, 다시는 안 한다” 머스크는 12월 9일(현지시간) ‘케이티 밀러 팟캐스트’에 출연해 DOGE가 성공적이었느냐는 질문에 “somewhat(어느 정도) 성공적이었다”고 평가하면서도, 다시 맡겠느냐는 질문에는 “그럴 것 같지 않다”고 답했다. 그는 같은 시간에 “그 시기에 DOGE 대신 테슬라·스페이스X·X(옛 트위터)에서 일했다면 훨씬 나았을 것”이라며 기회비용을 직접 언급했다.​ DOGE는 트럼프 대통령이 연방 정부 지출을 줄이고 규제를 대폭 완화하겠다며 만든 ‘정부효율부(Department of Government Efficiency)’로, 머스크가 사실상 얼굴이자 설계자 역할을 맡았다. 출범 초기 목표는 연간 최대 2조달러 규모의 예산 절감을 내세운 ‘초대형 긴축 프로젝

[빅테크칼럼] 올트먼이 AI 가장 큰 경쟁자로 구글 아닌 애플 '지목'한 이유…오픈AI와 애플간 하드웨어 인재전쟁 '속사정'

[뉴스스페이스=이종화 기자] 오픈AI CEO 샘 올트먼은 최근 뉴욕에서 기자들과의 오찬에서, 구글이 아닌 애플이 장기적으로 오픈AI의 가장 큰 경쟁자라고 공식적으로 지목했다. 그는 “미래의 인공지능 경쟁은 소프트웨어가 아니라 디바이스를 통해 결정될 것”이라며, 현재 스마트폰은 AI 컴패니언을 위한 최적의 플랫폼이 아니라고 강조했다. bloomberg, 9to5mac, techcrunch에 따르면, 이 발언은 오픈AI가 최근 내부적으로 ‘코드 레드’를 선언하고, 직원들에게 8주간 부수 프로젝트를 중단하고 오직 챗GPT 강화에만 집중하라는 지시를 내린 바로 직후 나온 것으로, 구글의 압박 속에서도 장기적 경쟁 구도는 애플이 중심이라고 판단한 것이다. 하드웨어 인재 영입 전쟁, 애플-오픈AI 갈등 심화 오픈AI는 최근 한 달간 애플 하드웨어 엔지니어 40명 이상을 영입한 것으로 알려졌다. 영입된 인력은 카메라, 웨어러블, 로보틱스, 오디오 등 거의 모든 핵심 분야에 걸쳐 있으며, Jony Ive가 설립한 AI 기기 스타트업 io를 65억 달러에 인수한 이후 본격적으로 하드웨어 개발에 박차를 가하고 있다. Ive는 프로토타입에 대해 “우아하고, 아름답고, 유쾌하다”

[빅테크칼럼] EU, 엑스에 2000억원 과징금에 머스크 ‘EU 해체’ 주장…미·EU 갈등 격화

[뉴스스페이스=김정영 기자] 유럽연합(EU)이 일론 머스크가 소유한 소셜미디어 플랫폼 엑스(X·구 트위터)에 디지털서비스법(DSA) 위반 혐의로 1억2000만 유로(약 2000억원)의 과징금을 부과했다. 이번 처분은 2023년 도입된 DSA 시행 이후 첫 사례로, EU 집행위원회는 엑스의 블루 체크(계정 인증 마크)가 신뢰도와 무관하게 유료로 운영되며 이용자를 기만했고, 광고 투명성 및 데이터 접근 권한도 기준에 미달했다고 판단했다.​ 머스크는 엑스를 통해 “EU는 해체돼야 하고, 주권은 개별 국가로 돌아가야 한다. 그래야 정부가 국민을 더 잘 대표할 수 있다”고 주장하며, EU를 ‘워크’(woke) 슈타지 정치위원들로 비판했다. 그는 “EU의 워크 슈타지 정치위원들은 ‘스트라이샌드 효과’의 진정한 의미를 곧 알게 될 것”이라고 경고했다. 워크는 미국 보수 진영에서 진보적 가치를 비판할 때 쓰는 용어이며, 스트라이샌드 효과는 검열할수록 오히려 더 퍼지는 현상을 의미한다.​ 미국 정부는 EU의 이번 조치를 표현의 자유 침해로 규정하며 강력 반발했다. JD 밴스 부통령은 “미국 기업들을 쓸데없는 문제로 공격하지 말고 표현의 자유를 지지해야 한다”고 말했고, 마코