2026.04.28 (화)

  • 흐림동두천 15.6℃
  • 흐림강릉 11.7℃
  • 구름많음서울 15.6℃
  • 구름많음대전 19.3℃
  • 흐림대구 22.2℃
  • 구름많음울산 23.5℃
  • 흐림광주 17.5℃
  • 구름많음부산 20.3℃
  • 흐림고창 14.0℃
  • 흐림제주 16.5℃
  • 구름많음강화 14.0℃
  • 맑음보은 19.0℃
  • 맑음금산 18.3℃
  • 흐림강진군 16.9℃
  • 맑음경주시 23.4℃
  • 흐림거제 19.2℃
기상청 제공

빅테크

[내궁내정] AI가 수능출제? ‘불수능’ 후폭풍과 AI 도입 명분…교육과정평가원, 2.5억 입찰공고 낸 속사정

 

[뉴스스페이스=이종화 기자] 

 

<편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다.
 

 

도입 32년째를 맞은 대학수학능력시험(수능)에 인공지능(AI) 기반 자동 문항 생성 시스템을 도입하기 위한 정부의 사전 작업이 본격화됐다.

 

수능 출제기관인 한국교육과정평가원(이하 평가원)은 최근 ‘AI 기반 수능 자동 문항 생성 기능 개발을 위한 정보화전략계획(ISP)’ 입찰 공고를 내고, 12월 초 제안서 평가를 마무리한 뒤 이달 중 사업자를 선정해 계약에 들어갈 예정이다. 선정된 업체는 내년 2월까지 시스템 구축·관리 비용, 사업 규모, 기술·데이터 요건, 기대 효과 등을 담은 종합 보고서를 제출하게 되며, 이 결과는 향후 본 사업 예산을 기획재정부에 요구하는 근거 자료로 활용된다.​

 

이번 ISP 사업의 추정가격은 약 2억2727만원, 배정 예산은 2억5000만원으로 책정돼 있다. 평가원은 조선일보 등과의 인터뷰에서 “그간 축적된 수능·모의고사 데이터를 활용해 AI 기반 문항 출제를 추진할 경우 소요 예산과 시스템 구성, 데이터·보안 요건 등을 사전에 분석하는 ‘탐색 단계’ 성격”이라고 밝혔다. 평가원은 ISP 결과를 토대로 AI 기반 자동 문항 생성(본 사업) 추진 여부와 범위를 최종 결정한다는 입장이다.​

 

왜 수능에 AI를 들여오나


평가원이 AI 출제를 검토하는 가장 직접적인 이유는 ‘사람 중심 합숙 출제 구조’의 피로감과 한계다. 현재 수능은 매년 출제·검토위원 수백명을 선발해 30~40일가량 보안 시설에 합숙시키는 방식으로 문항을 만든다. 이 기간 외출은 물론 휴대전화 사용도 금지되며, 출제위원 상당수가 극심한 심리·체력 부담을 호소해왔다. 동시에 출제 인력 섭외, 합숙 시설 확보, 보안 유지 등 운영비용과 관리 부담도 해마다 커지고 있다.​

 

올해 수능(2026학년도) 영어 영역에서 난이도 조절 실패와 이른바 ‘불수능’ 논란이 재점화된 것도 AI 도입 논의에 기름을 부었다. 영어 1등급 비율이 절대평가임에도 최근 몇 년 중 최저 수준으로 떨어지며, 교육부는 출제·검토 과정 전반에 대한 조사에 착수했다.

 

결국 오승걸 평가원장은 영어 난이도 조절 실패 책임을 지고 사퇴했다. 평가원 내부에서는 “기존 출제 방식만으로는 난이도 안정성 확보와 운영 효율성을 동시에 달성하기 어렵다”는 위기 인식이 빠르게 확산된 것으로 전해진다.​

 

AI가 바꿀 난이도·문항은행

 

AI 도입이 현실화될 경우 가장 먼저 기대되는 영역은 대규모 문제은행 구축과 난이도 정교화다.

 

김우승 전 한양대 총장은 조선일보 인터뷰에서 “과거 수능·모의고사 데이터를 바탕으로 다양한 난이도의 문항을 AI가 대량으로 생성·축적하고, 이를 통계적으로 배치하면 매년 유사 난이도의 시험지를 안정적으로 만들 수 있다”고 평가했다. 실제로 미국 대학입학시험(SAT), 대학원 입학시험(GRE·GMAT) 등은 이미 컴퓨터 기반 적응형 시험(CAT) 알고리즘을 활용해 응시자의 실력에 맞춰 문항 난이도를 동적으로 조절하며, 문항은행 규모가 수만~수십만 문항 단위로 운용되는 것으로 보고돼 있다.​

 

머신러닝 관점에서 보면, CAT는 응시자의 이전 응답 데이터를 바탕으로 실력을 추정하고, 정보량을 최대로 끌어올릴 수 있는 다음 문제를 선택하는 구조다. 최근 연구에 따르면 딥러닝 기반 인지 진단 모델과 강화학습을 결합한 적응형 시험 시스템은 기존 통계모형 대비 적은 문항 수로도 비슷한 수준의 측정 정확도를 확보할 수 있는 것으로 분석된다.

 

한국에서도 이미 민간 온라인 시험 플랫폼에서 AI 자동 출제·채점 시스템을 도입해 교사 업무 시간을 30~50% 단축하고, 학생 수준별 맞춤 출제를 제공하는 사례가 늘고 있다. 평가원이 겨냥하는 ‘AI 수능’ 역시 방대한 기출·모의고사 데이터와 문항 특성 분석(난이도·변별도·내용 영역)을 결합한 고도화된 문항은행 구축이 1차 목표가 될 가능성이 크다.​

 

 

ISP 입찰 내용과 시스템 구상

 

나라장터 등 공공입찰 시스템에 게시된 평가원 ‘AI 기반 수능 자동 문항 생성 ISP’ 공고를 보면, 사업은 용역 형태로 진행되며 전자입찰·협상계약 방식으로 추진된다. 입찰공고일은 2025년 11월 13일, 제안서 제출 마감은 12월 3일로 설정됐고, 개찰은 12월 4일 국가종합전자조달시스템에서 이뤄졌다. 지역 제한은 없으며, 소프트웨어사업자(컴퓨터관련서비스사업) 등록 업체만 투찰할 수 있도록 해 국내 주요 AI·에듀테크 기업과 컨설팅사가 경쟁하는 구도를 만든 것으로 파악된다.​

 

ISP가 다루는 핵심 과제는 ▲AI 자동 문항 생성 모형 설계 방향 ▲수능·모의고사 데이터 수집·정제·가명처리 방안 ▲문항은행 구조 설계 및 난이도·변별도 추정 모델 ▲품질 검증·윤리·보안·편향 관리 체계 ▲예산·인력·시행 일정 등이다.

 

교육계 관계자는 "평가원이 ISP 최종 결과를 토대로 본 사업(실제 AI 문항 생성 시스템 개발) 예산을 기재부에 요청할 계획이며, 본 사업 규모는 수십억~수백억 단위로 확대될 수 있다"고 전했다. 다만 이는 향후 정책 결정과 예산 심의에 따라 달라질 수 있어, 현재로서는 ‘추측한 내용’에 가깝다는 점에서 구체 금액을 단정하긴 어렵다.​

 

‘불수능’ 후폭풍과 AI 도입 명분


2026학년도 수능 영어 영역 난이도 논란은 AI 기반 출제 검토의 정치·사회적 명분을 강화하는 계기가 됐다. 교육부는 영어 영역의 1·2등급 비율이 직전 3개년 평균보다 크게 하락한 점, 특정 문항에서 고난도 어휘·추론이 중첩된 점 등을 문제 삼아 출제·검토 전 과정을 조사하겠다고 밝혔다. 오

 

승걸 평가원장은 “난이도 조절 실패에 책임을 통감한다”며 사퇴 의사를 표명해, 수능 난이도 논란이 기관장의 거취 문제로까지 번졌다.​

 

이 과정에서 교육계 일각에서는 “사람 출제위원의 직관에 과도하게 의존하는 구조에서 벗어나, 대규모 데이터를 활용한 난이도 예측 모델을 도입해야 한다”는 주장이 힘을 얻었다. 

 

평가원의 연구원들은 "AI 기반 자동 문항 생성 시스템을 통해 출제 시간·비용을 절감하는 동시에, 과거 응답 데이터를 활용해 문항별 난이도·변별도를 사전에 추정함으로써 ‘불수능’과 ‘물수능’의 진폭을 줄이는 것"이라고 기대감을 피력했다. 다만, 이는 어디까지나 정책당국과 평가원이 제시한 ‘목표’ 수준이며, 실제 구현 가능성과 성과는 향후 시범 적용과 검증 절차에 따라 달라질 수 있다는 점에서 “근거가 부족” 수준의 전망도 병존한다.​

 

 

국제 시험·민간 교육에서 본 AI 출제 사례는 어디?


수능과 같은 고부담(high-stakes) 시험에서 AI가 문항 출제에 개입하는 사례는 아직 많지 않지만, 해외 대형 시험기관과 민간 에듀테크 분야에서는 이미 다양한 시도가 진행 중이다.

 

미국 교육시험서비스(ETS)는 GRE·TOEFL 등에서 컴퓨터 적응형 시험과 자동 채점 시스템을 오래전부터 도입해 문항 선정과 서술형 평가에 통계·머신러닝 모델을 활용하고 있다. 미국 대학입학시험 SAT 영역 중 일부 도형·수학 문항은 AI 시스템으로 풀어도 평균 미국 11학년 상위권 수험생과 유사한 500~800점대 점수를 얻는 연구 결과가 소개되기도 했다.​

 

민간 교육 현장에서는 AI 자동 출제·채점 솔루션이 이미 상용화 단계에 들어섰다. 국내 한 에듀테크 기업은 교과서·기출문제·학습 데이터 수십만 건을 학습한 자연어처리(NLP) 모델을 이용해, 특정 학년·단원·난이도를 입력하면 선택형·서술형 문제를 자동 생성하는 서비스를 제공 중이다.

 

또 다른 사례에서는 학생 개인의 정답·오답 패턴을 분석해 취약 영역 중심의 맞춤형 시험을 구성하고, 채점과 해설까지 자동 제공해 교사의 출제·채점 시간을 절반 이상 줄였다고 소개했다. 다만 이런 시스템은 주로 진단·보충학습 목적의 중·저부담 시험에 활용되고 있으며, 수능처럼 입시와 직결되는 국가 단위 표준화 시험에 그대로 전이하기에는 법·제도·윤리·신뢰도 측면의 검토가 필요하다는 지적이 많다.​

 

기대효과와 위험, 어디까지 보나

 

교육계와 AI 전문가들은 “분별력 있는 도입은 가능하지만, 인간 전문가의 강력한 통제가 전제돼야 한다”며 신중론을 제기한다. 첫째, 수능은 단순 지식 암기뿐 아니라 추론·융합 사고를 평가해야 하는데, 현재 AI가 생성한 문항이 얼마나 창의성·변별력을 안정적으로 담보할 수 있는지에 대해서는 여전히 검증이 부족하다.

 

둘째, 학습 데이터 편향과 저작권·윤리 문제도 쟁점이다. 실제 올해 수능 영어 24번 지문 출제 과정에서도 원저자가 “출제에 부적절했다”고 문제를 제기해 논란이 된 바 있어, AI가 기존 텍스트를 참고해 문항을 생성하는 과정에서 유사한 저작권·표현 논쟁이 재연될 수 있다는 우려가 나온다.​

 

셋째, 수험생 입장에서는 “AI가 출제한 문제를 AI로 푸는” 새로운 부정행위·사교육 패턴이 등장할 가능성도 거론된다. 이미 국내 대학에서 생성형 AI를 활용한 온라인 시험 부정행위가 집단 적발된 사례가 있는 만큼, AI 기반 출제가 오히려 AI 기반 대비·커닝 시장을 키울 수 있다는 비판도 제기된다.

 

‘첫 단추’ 이후 평가원의 향후 시나리오

 

평가원은 이번 ISP 사업을 “AI 자동 문항 생성 가능성을 탐색하는 첫 단추”라고 규정하며, 당장 수능 전면 AI 출제로 가는 것은 아니라는 점을 분명히 하고 있다. ISP 결과에 따라 향후 2~3년간은 ▲AI 기반 문항 자동 생성 연구·시제품 개발 ▲모의평가·학력평가 등에서의 제한적 시범 적용 ▲문항은행·난이도 예측 모델 고도화 ▲법·제도·윤리·보안 가이드라인 정비 등을 거치는 ‘점진적 도입’ 시나리오가 유력하다.

 

이후 실제 수능 본시험에 어떤 범위로 적용할지는 교육부·국회·전문가·수험생·학부모 등 사회적 합의를 통해 단계적으로 결정될 가능성이 크다.​

 

교육계에서는 수능 AI 도입 논의가 단순히 “출제 방식을 기계로 바꾸는 기술 프로젝트”가 아니라, 고교 교육과정·평가 체제 전반의 재설계를 요구하는 신호로 보고 있다. 수능이 여전히 대학 입시의 ‘절대 축’으로 자리잡고 있는 상황에서, AI 출제 도입은 고교 수업 내용·사교육 시장·학교 내 평가 방식을 연쇄적으로 바꿀 수밖에 없기 때문이다.

 

따라서 AI 수능 논의는 기술·예산 논쟁을 넘어, “어떤 능력을 어떤 방식으로 평가할 것인가”라는 교육 철학의 문제와 맞물려 더 뜨거운 사회적 논쟁을 예고하고 있다.​

배너
배너
배너

관련기사

51건의 관련기사 더보기


[빅테크칼럼] 펜실베이니아주립大, 복근이 뇌의 수압 펌프 역할 …"걷기만 해도 뇌 속 노폐물 씻어내는 ‘유압 펌프’ 있었다"

[뉴스스페이스=이현주 기자] 펜실베이니아주립대 연구진이 복근 수축이 뇌를 미세하게 움직여 뇌척수액을 순환시키고, 이 과정에서 뇌 속 노폐물을 씻어내는 ‘수압 펌프’ 역할을 한다는 사실을 동물실험으로 제시했다. 뇌와 장이 혈관과 액체 역학으로 직접 연결돼 있다는 이 발견은 “가벼운 움직임만으로도 뇌 건강에 도움이 된다”는 기존 역학 연구에 구체적 물리·생리학적 근거를 더하는 결과다. 즉 복근 수축이 수압 펌프처럼 작용해 척수와 연결된 혈관을 압박하고, 뇌가 두개골 안에서 미세하게 흔들리도록 만든다. 이 움직임이 뇌척수액을 뇌 표면으로 흘려보내 알츠하이머병 등 신경퇴행성 질환과 관련된 유해한 신경 노폐물을 씻어낼 수 있다는 것을 밝혀냈다. 복근 수축이 만든 ‘미세 뇌 흔들림’ 연구는 네이처 뉴로사이언스(Nature Neuroscience)에 게재됐으며, 패트릭 드류(Patrick Drew)가 이끄는 펜실베이니아주립대 팀이 중심이 됐다. 연구진은 쥐의 복부에 근전도(EMG) 전극을 이식해 복근이 수축하는 시점과 뇌의 미세 움직임을 정밀 계측한 결과, 뇌의 움직임이 복근 수축보다 수십 밀리초 뒤에 일관되게 따라오는 패턴을 포착했다. 이 과정에는 복강과 척추관을 잇는

[빅테크칼럼] '메타의 마누스 20억 달러 인수 불허'한 중국의 속내…‘싱가포르 워싱’ 정조준 "기술 민족주의 등장"

[뉴스스페이스=이승원 기자] 중국이 메타(Meta)의 인공지능(AI) 스타트업 마누스(Manus) 인수를 공식 불허하며, 20억달러(약 3조원) 규모의 ‘빅딜’이 미·중 기술패권 전면전에 휘말렸다. 힘들게 키운 자국 AI 기술을 베이징의 영향권 안에 묶어두기 위한 단호한 조치라는 분석이다. 블룸버그와 로이터에 따르면, 4월 27일 중국 국가발전개혁위원회(NDRC)는 외국인투자안전심사 사무실 명의로 “법에 따라 마누스 프로젝트 인수에 대해 투자 금지 결정을 내린다”며 “당사자에게 인수 거래 철회를 요구한다”고 밝혔다. 2025년 12월 메타가 마누스 인수 계획을 발표한 지 불과 4개월여 만에 ‘거래 철회’라는 초강수를 던진 것이다. 메타 측 대변인은 논평 요청에 즉각적인 답변을 하지 않았다. ‘제2의 딥시크’ 20억달러 딜, 4개월 만에 막힌 이유 마누스는 2022년 설립된 중국계 AI 스타트업으로, 심층 리서치 리포트 작성과 프레젠테이션 슬라이드 제작 등 복합적 고난도 업무를 수행하는 AI 에이전트를 앞세워 ‘제2의 딥시크’로 불리며 급부상했다. 2025년 중반에는 본사를 중국에서 싱가포르로 옮기고 ‘Butterfly Effect Pte. Ltd.’라는 법인

[빅테크칼럼] AI, ‘평등의 기술’이 아니라 고소득·고학력·남성에게 쏠린 특권이 되고 있다?

[뉴스스페이스=이종화 기자] 인공지능(AI)이 노동시장의 생산성을 끌어올리는 ‘게임 체인저’로 주목받고 있지만, 실제 현장에서는 소득·성별·연령·학력에 따라 혜택이 극단적으로 쏠리는 ‘AI 디바이드(AI 격차)’가 빠르게 굳어지는 양상이다. 기술 낙관론이 말하던 “AI가 모두의 생산성을 공평하게 높여줄 것”이라는 서사는 적어도 현재까지는 통계와 거리가 멀다는 게 국내외 데이터를 종합한 결론이다. 고소득층 60% 이상이 매일 AI 사용…저소득층은 16% 영국 파이낸셜타임스(FT)와 리서치 기업 포컬데이터(Focaldata)가 미국·영국 근로자 4,000명을 대상으로 실시한 ‘AI 노동시장 추적기’ 첫 보고서에 따르면, 소득 상위 근로자의 60% 이상이 AI 도구를 ‘매일’ 사용하는 반면, 저소득 근로자 가운데 매일 AI를 쓴다고 응답한 비율은 16%에 그쳤다. 임금 수준이 높을수록 AI 활용 빈도가 기하급수적으로 올라가는, 전형적인 ‘K자형 기술 확산’의 단면이다. FT는 이 조사 결과를 두고 “임금과 교육 수준, AI 활용 간 강한 상관관계가 존재하며, 이는 상위 노동자의 생산성을 더 끌어올리는 반면 하위 노동자에게는 같은 효과가 나타나지 않아 소득 격차 확