2025.12.09 (화)

  • 맑음동두천 -4.7℃
  • 맑음강릉 2.9℃
  • 맑음서울 -1.7℃
  • 맑음대전 -2.5℃
  • 맑음대구 2.1℃
  • 맑음울산 1.1℃
  • 맑음광주 0.4℃
  • 맑음부산 3.3℃
  • 맑음고창 -2.2℃
  • 구름많음제주 7.9℃
  • 맑음강화 -2.7℃
  • 맑음보은 -5.5℃
  • 맑음금산 -5.2℃
  • 맑음강진군 0.2℃
  • 맑음경주시 -2.7℃
  • 맑음거제 1.9℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] EU, 엑스에 2000억원 과징금에 머스크 ‘EU 해체’ 주장…미·EU 갈등 격화

[뉴스스페이스=김정영 기자] 유럽연합(EU)이 일론 머스크가 소유한 소셜미디어 플랫폼 엑스(X·구 트위터)에 디지털서비스법(DSA) 위반 혐의로 1억2000만 유로(약 2000억원)의 과징금을 부과했다. 이번 처분은 2023년 도입된 DSA 시행 이후 첫 사례로, EU 집행위원회는 엑스의 블루 체크(계정 인증 마크)가 신뢰도와 무관하게 유료로 운영되며 이용자를 기만했고, 광고 투명성 및 데이터 접근 권한도 기준에 미달했다고 판단했다.​ 머스크는 엑스를 통해 “EU는 해체돼야 하고, 주권은 개별 국가로 돌아가야 한다. 그래야 정부가 국민을 더 잘 대표할 수 있다”고 주장하며, EU를 ‘워크’(woke) 슈타지 정치위원들로 비판했다. 그는 “EU의 워크 슈타지 정치위원들은 ‘스트라이샌드 효과’의 진정한 의미를 곧 알게 될 것”이라고 경고했다. 워크는 미국 보수 진영에서 진보적 가치를 비판할 때 쓰는 용어이며, 스트라이샌드 효과는 검열할수록 오히려 더 퍼지는 현상을 의미한다.​ 미국 정부는 EU의 이번 조치를 표현의 자유 침해로 규정하며 강력 반발했다. JD 밴스 부통령은 “미국 기업들을 쓸데없는 문제로 공격하지 말고 표현의 자유를 지지해야 한다”고 말했고, 마코

[빅테크칼럼] 저널리스트의 AI 안경 시연, 유럽 개인정보 논쟁에 불 지폈다…"익명성 사라지고, 프라이버시 위협"

[뉴스스페이스=이종화 기자] 네덜란드의 기술 저널리스트 Alexander Klöpping이 선보인 AI 스마트 안경 시연이 유럽 전역에서 개인정보 보호에 대한 경고음을 울리고 있다. Klöpping은 최근 인기 있는 네덜란드 텔레비전 프로그램에서 공개적으로 AI 안경을 시연하며, 정부 데이터베이스나 경찰 시스템 없이도 거리의 낯선 사람들을 즉시 식별하고 그들의 이름, 직업, LinkedIn 프로필 등 개인 정보를 몇 초 만에 검색해 보여줬다. 그는 암스테르담 비즈니스 지구를 걸으며 의심하지 않는 행인들에게 다가가, 단 몇 초 만에 상대방에 대한 상세한 정보를 제공해 충격을 안겼다.​ AI 프라이버시 전문가 Pascal Bornet은 12월 5일 X(트위터) 게시물에서 "이번 시연은 공식적으로 사람을 보는 것과 그를 아는 것 사이의 경계를 흐렸다. 공공장소에 있는 것과 노출되는 것 사이의 경계도 허물어졌다"며, 기술의 진화가 인간의 프라이버시와 익명성에 근본적 도전을 제기하고 있다고 지적했다.​ 이번 시연은 글로벌 기술 기업들이 AI 안경 시장에 본격적으로 진출하는 시점에 주목받고 있다. 메타는 2025년 9월, 내장 화면과 제스처 제어를 위한 신경 손목 밴드

[빅테크칼럼] 넷플릭스, 워너브라더스 인수에 미디어 업계 '대지진'…반독점·일자리·극장업계 '격렬 반대'

[뉴스스페이스=윤슬 기자] 넷플릭스가 720억 달러(약 98조원)에 워너브라더스 디스커버리의 스튜디오 및 스트리밍 사업부를 인수하는 초대형 거래를 발표하면서, 미디어 산업계는 물론 정치권, 노조, 극장업계까지 전방위적으로 반발하고 있다. cnbc, bbc, forbes, usatoday, deadline에 따르면, 이번 인수로 넷플릭스는 '배트맨', '해리포터', '왕좌의 게임', 'DC 코믹스' 등 세계적 프랜차이즈를 장악하게 되며, 스트리밍 시장의 점유율이 50%에 가까워질 전망이다.​ 반독점·정치권의 거센 비판 엘리자베스 워런 상원의원(민주·매사추세츠)은 이번 거래를 “반독점 악몽”이라며 강력 반발했다. 그는 “이로 인해 스트리밍 시장의 절반을 장악하는 미디어 거대 기업이 탄생할 것”이라고 경고하며, 트럼프 행정부의 반독점 심사 과정을 “정치적 특혜와 부패의 소굴”이라고 비판했다. 공화당 마이크 리 상원의원(유타)도 “전 세계 반독점 규제 당국에 경종을 울려야 한다”고 지적했으며, 대럴 아이사 하원의원(캘리포니아)은 “넷플릭스는 3억 명이 넘는 구독자로 비할 데 없는 시장 지배력을 행사하고 있다”고 우려했다.​ 노조와 극장업계의 경고 미국작가조합(Wri

[The Numbers] 머스크 스페이스X, 기업가치 8000억 달러…오픈AI 넘어 세계 1위 비상장 '등극'

[뉴스스페이스=김정영 기자] 일론 머스크의 우주항공 기업 스페이스X가 최근 내부자 주식 매각을 통해 기업가치가 최대 8000억 달러(약 1180조원)에 달할 것으로 평가받으며, 챗GPT 개발사 오픈AI(5000억 달러)를 넘어 세계에서 가장 가치 있는 비상장 기업으로 등극할 가능성이 높아졌다. 블룸버그, 월스트리트저널(WSJ), 더인포메이션 등 주요 외신들은 스페이스X가 주당 400달러 이상의 가격으로 주식 거래를 진행 중이며, 이는 7월 4000억 달러에서 불과 5개월 만에 두 배로 뛴 수치라고 보도했다.​ IPO 시점과 통합 상장 전략 스페이스X는 내부 회의를 통해 이르면 2026년 하반기 기업공개(IPO)를 목표로 추진하고 있으며, 구체적인 상장 일정과 방식도 논의 중이다. 과거에는 위성 인터넷 사업 스타링크를 분사해 먼저 상장할 것이라는 관측이 많았지만, 최근에는 스타링크를 포함한 전체 회사를 통합 상장하는 방안이 유력시되고 있다. 이는 로켓 발사 사업과 위성 통신 사업의 시너지를 극대화하겠다는 전략으로, 스타링크는 스페이스X 전체 매출의 상당 부분을 차지할 것으로 전망된다.​ 기업가치 변동과 시장 반응 스페이스X의 기업가치는 2025년 7월만 해도