챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

2023년 6월 9일 서울 여의도 63스퀘어에서 열린 'K-스타트업 미트 오픈 AI'에 참석한 샘 올트먼 오픈AI CEO(오른쪽)와 이영 중소벤처기업부 장관이 대담을 하고 있다. [중소벤처부]

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

관련기사

이 시각 추천뉴스

[빅테크칼럼] "AI 도구로 코딩환경 변화"에 개발자들, '그리프' 시대 도래…화이트칼라 생산성 폭증 속 정체성 위기

[빅테크칼럼] "중국 도시 상공에서 수백만개의 미세플라스틱 입자 검출"…미세·나노플라스틱 대기 순환 실체 규명

[빅테크칼럼] "月 10억 달러 현금 소진" xAI, AI 인프라 경쟁 속 손실 14억6000만 달러로 '급증'... 흑자 전환은 2027년 이후

[The Numbers] 삼성전자, 1년 만에 'SK하이닉스' 제치고 D램 1위 탈환…'범용 D램 폭등+ HBM4 우위'로 왕좌 복귀

[랭킹연구소] 미국에서 가장 비싼 비상장기업 순위…스페이스X>오픈AI>앤트로픽>xAI>데이터브릭스>스트라이프>안두릴>램프>스케일>리플 順

[The Numbers] 머스크 "북한, 침공 필요도 없고, 걸어 넘어오면 된다” 비유…숫자로 뜯어본 ‘한국 인구 붕괴’ 시나리오

[빅테크칼럼] 머스크 vs 오픈AI, AI 제국 쟁탈전 배심원 재판 돌입…'기업운명 좌우' 법정 결과에 '촉각'

[빅테크칼럼] "비만 치료제 중단 후 체중 4배 빠르게 회복"…비만약 '요요 폭풍', 건강 지표도 '제로'

[빅테크칼럼] 다빈치 DNA, 500년 만에 르네상스 유물서 '부활'…Y염색체 E1b1b 계통으로 '토스카나 남성' 확인

많이 본 뉴스

[이슈&논란] 호카 국내 총판 조이웍스앤코 조대표, 폐건물로 불러 하청업체 ‘무차별 폭행’…주가 직격탄 '우려'

[우주칼럼] 로켓랩, 센서 문제로 한국 위성 발사 중단… 韓 재난감시 위성 NEONSAT-1A, 발사 첫날 전격 스크럽 이유

[내궁내정] "스탠포드대학, 코딩 수업 없앴다" 소문의 진실과 이 뉴스를 믿는 현실…AI 시대 코딩, 언어해상도가 곧 성과

[빅테크칼럼] 챗GPT, 2026년 1분기 ‘성인 모드’ 출시…"정신건강 위기와 자살기여 오명 대응책"

[내궁내정] 12월 23일부터 휴대폰 개통 안면인식 의무화…현장 혼란 불가피에도 강행해야 하는 진짜 이유

[이슈&논란] "관리의 삼성" 뇌물 스캔들에 '발칵'…AI 열풍에 휩싸인 메모리 칩 뇌물의혹

[빅테크칼럼] 구글, 제미나이3 탑재 AI 프로 요금제 59% 할인…年 14만원, 챗GPT·클로드와 비교도 '가성비' 우세

[랭킹연구소] 한국, 프랑스 제치고 세계 6위 '글로벌 무역 강자' 부상…수출국가 순위, 미국>독일>중국>일본>네덜란드>한국 順

[이슈&논란] 갤럭시 S26 가격책정 '진퇴양난'에 빠진 삼성전자…고객지키기 vs 수익성 '고민'

[이슈&논란] 코인 '세금 폭탄' 임박…국세청, 2027년 22% 과세 '준비 완료'

[The Numbers] "삼전·하닉스, 이제 팔까?" 고민중이라면…맥쿼리 "삼전 24만원·하닉스 112만원" 슈퍼사이클은 진행형

[공간사회학] 중국, 아시아 최대 해저 금광 562톤 발견…산둥성 라이저우 중심지로 부상

[이슈&논란] 그록 AI, 미성년자 성적 이미지 생성 스캔들에 '발칵'…글로벌 규제 칼끝 'Spicy 모드' 정조준

[이슈&논란] JP모건 헬스케어 2026, 참가기업 어디?…톱티어 CDMO부터 차세대 바이오텍까지, 글로벌 무대 주목株 '솔깃'

[The Numbers] 비트마인, 이더리움 1억1200만 달러 매수…톰 리 '바닥 통과' 선언

[공간사회학] 양재동 화물터미널·반포동 고속버스터미널 개발 호재에 '몸값 급등'…하림지주·천일고속 등 '상한가 랠리'

[이슈&논란] 노트북·PC 살거면 지금이 마지막 기회…DRAM 대란에 가격 폭등 '임박'

[The Numbers] 마이크론 실적 발표 앞두고 삼성전자·SK하이닉스 기대감 고조…"메모리 슈퍼사이클 본격화의 신호탄"

[이슈&논란] 삼성家 이부진 사장, 서울대 합격한 아들과 NBA 직관…“1700만원짜리 데이트”

[The Numbers] 삼성전자·SK하이닉스, 2026년 영업이익 200조원 '역대 최대' 예고…반도체 슈퍼사이클 폭발

[The Numbers] 2026년, 진정한 암호화폐 강세장이 온다고?…유동성·PMI·기관자금 3가지 '시그널'

[빅테크칼럼] AI가 가장 먼저 먹어치울 일자리 3選…오픈AI "제약·고객서비스·개발자, AI에 가장 취약"

[The Numbers] 삼성·SK하이닉스, 7년 만에 TSMC 마진 첫 역전 눈앞…‘HBM 황금기’

[우주칼럼] 몸값 1.5조 달러 스페이스X IPO소식에 K-우주 밸류체인 '점화'…우주항공 수혜주 '솔깃'

Hoka's domestic distributor, Joyworks & Co. CEO Cho, summoned subcontractors to an abandoned building and indiscriminately assaulted them. Concerns are growing that this could have a direct impact on the company's stock price

[랭킹연구소] 조미김, 미국서 관세 면제로 수출 날개 달다…시장점유율 순위, 동원F&B·CJ제일제당·성경식품·광천김·대천김 順

[랭킹연구소] 한국인의 손이 가장 많이 간 과자 순위…새우깡>포카칩>초코파이>빼빼로>프링글스>꼬깔콘>홈런볼>페레로 로쉐>가나>오징어땅콩 順

[빅테크칼럼] 네이버, 한국 주권 AI 모델에 중국 AI 기술 사용 인정…네이버 소버린 모델, 기술주권 논란 정면돌파?

[The Numbers] 왜 SK하이닉스는 미국 상장을 추진할까…"마이크론·TSMC와 어깨 나란히" 퀀텀점프 시동

[이슈&논란] 트럼프·클린턴·게이츠·베넌 등 엡스타인 저택 사진 공개에 美 정치권 '발칵'…"판도라의 상자 열렸다"

[The Numbers] 노무라증권, 삼성전자 16만·SK하이닉스 88만 전망…“메모리 슈퍼사이클, 2027년까지”

[빅테크칼럼] TSMC 생산 능력 부족으로 빅테크 기업들 삼성으로 이동… 2026년 "대만 탈출의 해" 규정

[이슈&논란] CJ 오너家 '이재환 리스크' 또 터졌다…'금고지기' 앞세운 사기로 피소

[이슈&논란] 女교사 딥페이크 성범죄, 10대에 징역 3년 중형 선고…AI 범죄 ‘강력 처벌’ 신호탄

[공간사회학] "강남권~수도권 ‘경부축’ GS건설 수성 이상무"…집값 상승세 속 역삼·분당·수지 분양 '눈길'

[The Numbers] SK하이닉스·한화에어로, 투자경고 종목 29일부터 완전 해제…"시총 100위 대형주는 제외"

[빅테크칼럼] 구글 제미나이 3, 실시간 번역 기능까지 "한국 AI 시장서 입지 확대"…챗GPT·퍼플렉시티·클로드와의 4강전쟁

[The Numbers] 삼성전자, '주가 폭등'에 임직원도 '황금 알'…2.5조 자사주 매입으로 보상 강화

[The Numbers] 배당맛집, 26년 배당소득세 개편 앞두고 배당확대하는 속사정…'삼성전자·현대차·KB금융·SK가스·BNK금융지주', 배당금 확대 '잰걸음'

[The Numbers] 미래에셋벤처투자, 스페이스X 효과로 3일 새 78% 폭등…상장 기대감·증시 활성화 정책 겹치며 매수세