[뉴스스페이스=이종화 기자]
<편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다.
도입 32년째를 맞은 대학수학능력시험(수능)에 인공지능(AI) 기반 자동 문항 생성 시스템을 도입하기 위한 정부의 사전 작업이 본격화됐다.
수능 출제기관인 한국교육과정평가원(이하 평가원)은 최근 ‘AI 기반 수능 자동 문항 생성 기능 개발을 위한 정보화전략계획(ISP)’ 입찰 공고를 내고, 12월 초 제안서 평가를 마무리한 뒤 이달 중 사업자를 선정해 계약에 들어갈 예정이다. 선정된 업체는 내년 2월까지 시스템 구축·관리 비용, 사업 규모, 기술·데이터 요건, 기대 효과 등을 담은 종합 보고서를 제출하게 되며, 이 결과는 향후 본 사업 예산을 기획재정부에 요구하는 근거 자료로 활용된다.
이번 ISP 사업의 추정가격은 약 2억2727만원, 배정 예산은 2억5000만원으로 책정돼 있다. 평가원은 조선일보 등과의 인터뷰에서 “그간 축적된 수능·모의고사 데이터를 활용해 AI 기반 문항 출제를 추진할 경우 소요 예산과 시스템 구성, 데이터·보안 요건 등을 사전에 분석하는 ‘탐색 단계’ 성격”이라고 밝혔다. 평가원은 ISP 결과를 토대로 AI 기반 자동 문항 생성(본 사업) 추진 여부와 범위를 최종 결정한다는 입장이다.
왜 수능에 AI를 들여오나
평가원이 AI 출제를 검토하는 가장 직접적인 이유는 ‘사람 중심 합숙 출제 구조’의 피로감과 한계다. 현재 수능은 매년 출제·검토위원 수백명을 선발해 30~40일가량 보안 시설에 합숙시키는 방식으로 문항을 만든다. 이 기간 외출은 물론 휴대전화 사용도 금지되며, 출제위원 상당수가 극심한 심리·체력 부담을 호소해왔다. 동시에 출제 인력 섭외, 합숙 시설 확보, 보안 유지 등 운영비용과 관리 부담도 해마다 커지고 있다.
올해 수능(2026학년도) 영어 영역에서 난이도 조절 실패와 이른바 ‘불수능’ 논란이 재점화된 것도 AI 도입 논의에 기름을 부었다. 영어 1등급 비율이 절대평가임에도 최근 몇 년 중 최저 수준으로 떨어지며, 교육부는 출제·검토 과정 전반에 대한 조사에 착수했다.
결국 오승걸 평가원장은 영어 난이도 조절 실패 책임을 지고 사퇴했다. 평가원 내부에서는 “기존 출제 방식만으로는 난이도 안정성 확보와 운영 효율성을 동시에 달성하기 어렵다”는 위기 인식이 빠르게 확산된 것으로 전해진다.
AI가 바꿀 난이도·문항은행
AI 도입이 현실화될 경우 가장 먼저 기대되는 영역은 대규모 문제은행 구축과 난이도 정교화다.
김우승 전 한양대 총장은 조선일보 인터뷰에서 “과거 수능·모의고사 데이터를 바탕으로 다양한 난이도의 문항을 AI가 대량으로 생성·축적하고, 이를 통계적으로 배치하면 매년 유사 난이도의 시험지를 안정적으로 만들 수 있다”고 평가했다. 실제로 미국 대학입학시험(SAT), 대학원 입학시험(GRE·GMAT) 등은 이미 컴퓨터 기반 적응형 시험(CAT) 알고리즘을 활용해 응시자의 실력에 맞춰 문항 난이도를 동적으로 조절하며, 문항은행 규모가 수만~수십만 문항 단위로 운용되는 것으로 보고돼 있다.
머신러닝 관점에서 보면, CAT는 응시자의 이전 응답 데이터를 바탕으로 실력을 추정하고, 정보량을 최대로 끌어올릴 수 있는 다음 문제를 선택하는 구조다. 최근 연구에 따르면 딥러닝 기반 인지 진단 모델과 강화학습을 결합한 적응형 시험 시스템은 기존 통계모형 대비 적은 문항 수로도 비슷한 수준의 측정 정확도를 확보할 수 있는 것으로 분석된다.
한국에서도 이미 민간 온라인 시험 플랫폼에서 AI 자동 출제·채점 시스템을 도입해 교사 업무 시간을 30~50% 단축하고, 학생 수준별 맞춤 출제를 제공하는 사례가 늘고 있다. 평가원이 겨냥하는 ‘AI 수능’ 역시 방대한 기출·모의고사 데이터와 문항 특성 분석(난이도·변별도·내용 영역)을 결합한 고도화된 문항은행 구축이 1차 목표가 될 가능성이 크다.
ISP 입찰 내용과 시스템 구상
나라장터 등 공공입찰 시스템에 게시된 평가원 ‘AI 기반 수능 자동 문항 생성 ISP’ 공고를 보면, 사업은 용역 형태로 진행되며 전자입찰·협상계약 방식으로 추진된다. 입찰공고일은 2025년 11월 13일, 제안서 제출 마감은 12월 3일로 설정됐고, 개찰은 12월 4일 국가종합전자조달시스템에서 이뤄졌다. 지역 제한은 없으며, 소프트웨어사업자(컴퓨터관련서비스사업) 등록 업체만 투찰할 수 있도록 해 국내 주요 AI·에듀테크 기업과 컨설팅사가 경쟁하는 구도를 만든 것으로 파악된다.
ISP가 다루는 핵심 과제는 ▲AI 자동 문항 생성 모형 설계 방향 ▲수능·모의고사 데이터 수집·정제·가명처리 방안 ▲문항은행 구조 설계 및 난이도·변별도 추정 모델 ▲품질 검증·윤리·보안·편향 관리 체계 ▲예산·인력·시행 일정 등이다.
교육계 관계자는 "평가원이 ISP 최종 결과를 토대로 본 사업(실제 AI 문항 생성 시스템 개발) 예산을 기재부에 요청할 계획이며, 본 사업 규모는 수십억~수백억 단위로 확대될 수 있다"고 전했다. 다만 이는 향후 정책 결정과 예산 심의에 따라 달라질 수 있어, 현재로서는 ‘추측한 내용’에 가깝다는 점에서 구체 금액을 단정하긴 어렵다.
‘불수능’ 후폭풍과 AI 도입 명분
2026학년도 수능 영어 영역 난이도 논란은 AI 기반 출제 검토의 정치·사회적 명분을 강화하는 계기가 됐다. 교육부는 영어 영역의 1·2등급 비율이 직전 3개년 평균보다 크게 하락한 점, 특정 문항에서 고난도 어휘·추론이 중첩된 점 등을 문제 삼아 출제·검토 전 과정을 조사하겠다고 밝혔다. 오
승걸 평가원장은 “난이도 조절 실패에 책임을 통감한다”며 사퇴 의사를 표명해, 수능 난이도 논란이 기관장의 거취 문제로까지 번졌다.
이 과정에서 교육계 일각에서는 “사람 출제위원의 직관에 과도하게 의존하는 구조에서 벗어나, 대규모 데이터를 활용한 난이도 예측 모델을 도입해야 한다”는 주장이 힘을 얻었다.
평가원의 연구원들은 "AI 기반 자동 문항 생성 시스템을 통해 출제 시간·비용을 절감하는 동시에, 과거 응답 데이터를 활용해 문항별 난이도·변별도를 사전에 추정함으로써 ‘불수능’과 ‘물수능’의 진폭을 줄이는 것"이라고 기대감을 피력했다. 다만, 이는 어디까지나 정책당국과 평가원이 제시한 ‘목표’ 수준이며, 실제 구현 가능성과 성과는 향후 시범 적용과 검증 절차에 따라 달라질 수 있다는 점에서 “근거가 부족” 수준의 전망도 병존한다.
국제 시험·민간 교육에서 본 AI 출제 사례는 어디?
수능과 같은 고부담(high-stakes) 시험에서 AI가 문항 출제에 개입하는 사례는 아직 많지 않지만, 해외 대형 시험기관과 민간 에듀테크 분야에서는 이미 다양한 시도가 진행 중이다.
미국 교육시험서비스(ETS)는 GRE·TOEFL 등에서 컴퓨터 적응형 시험과 자동 채점 시스템을 오래전부터 도입해 문항 선정과 서술형 평가에 통계·머신러닝 모델을 활용하고 있다. 미국 대학입학시험 SAT 영역 중 일부 도형·수학 문항은 AI 시스템으로 풀어도 평균 미국 11학년 상위권 수험생과 유사한 500~800점대 점수를 얻는 연구 결과가 소개되기도 했다.
민간 교육 현장에서는 AI 자동 출제·채점 솔루션이 이미 상용화 단계에 들어섰다. 국내 한 에듀테크 기업은 교과서·기출문제·학습 데이터 수십만 건을 학습한 자연어처리(NLP) 모델을 이용해, 특정 학년·단원·난이도를 입력하면 선택형·서술형 문제를 자동 생성하는 서비스를 제공 중이다.
또 다른 사례에서는 학생 개인의 정답·오답 패턴을 분석해 취약 영역 중심의 맞춤형 시험을 구성하고, 채점과 해설까지 자동 제공해 교사의 출제·채점 시간을 절반 이상 줄였다고 소개했다. 다만 이런 시스템은 주로 진단·보충학습 목적의 중·저부담 시험에 활용되고 있으며, 수능처럼 입시와 직결되는 국가 단위 표준화 시험에 그대로 전이하기에는 법·제도·윤리·신뢰도 측면의 검토가 필요하다는 지적이 많다.
기대효과와 위험, 어디까지 보나
교육계와 AI 전문가들은 “분별력 있는 도입은 가능하지만, 인간 전문가의 강력한 통제가 전제돼야 한다”며 신중론을 제기한다. 첫째, 수능은 단순 지식 암기뿐 아니라 추론·융합 사고를 평가해야 하는데, 현재 AI가 생성한 문항이 얼마나 창의성·변별력을 안정적으로 담보할 수 있는지에 대해서는 여전히 검증이 부족하다.
둘째, 학습 데이터 편향과 저작권·윤리 문제도 쟁점이다. 실제 올해 수능 영어 24번 지문 출제 과정에서도 원저자가 “출제에 부적절했다”고 문제를 제기해 논란이 된 바 있어, AI가 기존 텍스트를 참고해 문항을 생성하는 과정에서 유사한 저작권·표현 논쟁이 재연될 수 있다는 우려가 나온다.
셋째, 수험생 입장에서는 “AI가 출제한 문제를 AI로 푸는” 새로운 부정행위·사교육 패턴이 등장할 가능성도 거론된다. 이미 국내 대학에서 생성형 AI를 활용한 온라인 시험 부정행위가 집단 적발된 사례가 있는 만큼, AI 기반 출제가 오히려 AI 기반 대비·커닝 시장을 키울 수 있다는 비판도 제기된다.
‘첫 단추’ 이후 평가원의 향후 시나리오
평가원은 이번 ISP 사업을 “AI 자동 문항 생성 가능성을 탐색하는 첫 단추”라고 규정하며, 당장 수능 전면 AI 출제로 가는 것은 아니라는 점을 분명히 하고 있다. ISP 결과에 따라 향후 2~3년간은 ▲AI 기반 문항 자동 생성 연구·시제품 개발 ▲모의평가·학력평가 등에서의 제한적 시범 적용 ▲문항은행·난이도 예측 모델 고도화 ▲법·제도·윤리·보안 가이드라인 정비 등을 거치는 ‘점진적 도입’ 시나리오가 유력하다.
이후 실제 수능 본시험에 어떤 범위로 적용할지는 교육부·국회·전문가·수험생·학부모 등 사회적 합의를 통해 단계적으로 결정될 가능성이 크다.
교육계에서는 수능 AI 도입 논의가 단순히 “출제 방식을 기계로 바꾸는 기술 프로젝트”가 아니라, 고교 교육과정·평가 체제 전반의 재설계를 요구하는 신호로 보고 있다. 수능이 여전히 대학 입시의 ‘절대 축’으로 자리잡고 있는 상황에서, AI 출제 도입은 고교 수업 내용·사교육 시장·학교 내 평가 방식을 연쇄적으로 바꿀 수밖에 없기 때문이다.
따라서 AI 수능 논의는 기술·예산 논쟁을 넘어, “어떤 능력을 어떤 방식으로 평가할 것인가”라는 교육 철학의 문제와 맞물려 더 뜨거운 사회적 논쟁을 예고하고 있다.























































