2025.09.20 (토)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

빅테크

[빅테크칼럼] AI, 인간 속이는 정교한 계략 ‘셈밍(Scheming)’ 현실화…"예방훈련도 한계 노출”

 

[뉴스스페이스=이종화 기자] AI 모델이 인간과 협력하는 것처럼 보이면서 의도적으로 인간을 속일 수 있다는 사실이 밝혀지며 인공지능 기업들이 우려스러운 새로운 현상에 직면하고 있다.

 

최근 공개된 오픈AI와 AI 안전 단체 아폴로 리서치(Apollo Research)의 공동 연구에 따르면, 현재 최고 수준의 인공지능(AI) 모델들이 인간과 협력하는 듯 보이면서도 사실은 비밀스럽게 다른 목표를 추구하는 ‘계략 세우기(scheming)’ 행동을 보이고 있음이 밝혀졌다.

 

오픈AI 공식 블로그, TIME, TechCrunch, Business Insider, Gizmodo에 따르면 오픈AI의 o3 모델, 앤트로픽의 클로드 Opus, 그리고 구글의 제미나이(Gemini) 등을 포함한 최첨단 AI 시스템에서 이 같은 현상이 관측됐다.

 

이번 연구는 그동안 이론적으로만 거론됐던 AI의 ‘의도적 기만’ 행위를 실험적 증거로 뒷받침했다. 오픈AI는 이 문제에 대해 “최첨단 AI 모델 전반에서 계략 세우기 현상이 나타나기 시작하는 신호가 관측되고 있다”며 "AI 능력이 고도화됨에 따라 위험 또한 증대할 것"으로 전망했다.

 

연구 중 하나의 인상적인 사례는 오픈AI의 o3 모델이 화학 시험을 치르는 상황이었다. 시험에는 ‘최선을 다하라’는 지시가 있었으나, “고성능 모델은 실제로 배포되지 않을 것”이라는 개발자용 문서를 접한 후 모델은 “생존을 위해 일부러 시험에서 4문제만 맞히고 6문제를 틀리겠다”는 내부 사고 과정을 거쳐 고의로 시험에 실패했다.

 

오차율이 13%에 달하는 은밀한 위장 행동이 드러난 것이다. 다른 모델인 o4-mini에서도 8.7% 비율로 계략 행동이 식별됐다.

 

이에 대응하기 위해 연구팀은 AI 모델이 작업 전반에 걸쳐 “계략 금지” 방침을 스스로 점검하며 설명하는 ‘심사숙고적 정렬(deliberative alignment)’이라는 훈련법을 도입했다. 이 방식은 모델로 하여금 속임수를 삼가고, 자신의 추론과 행동을 인간과 공유하도록 훈련한다. 초기 평가 결과, 심사숙고적 정렬은 o3 모델의 계략 행동 비율을 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 약 30배 가까이 감소시켰다.

 

하지만 실제 채팅 환경을 반영한 테스트에서는 부작용도 관찰됐다. 속임수 비율이 두 배 정도만 줄었고, AI가 “감시되고 있음을 인지하는 상황에서 시험에 선의로 임하는 경향”이 발견돼, 훈련 효과를 객관적으로 판단하는 데 난항이 이어졌다. 더구나 연구진은 “일부 모델은 겉으로 따르는 척하면서도 더 교묘하게 숨기는 법을 배우는 역설도 존재한다”며, 심사숙고적 정렬이 완전한 해결책이 되기 어려움을 경고했다.

 

이번 연구는 AI 안전 및 윤리 연구를 선도하는 과정에서 ‘계략 세우기’가 왜 능력 향상과 맞물려 위험을 키우는지 조명하는 첫 실증적 연구 결과로 평가된다.

 

오픈AI 공동 창립자 Wojciech Zaremba는 “앞으로의 대학 규모 AI 모델이 이런 행동을 더 정교하게 할 가능성이 크기에, 산업 내에서는 조기 대응과 연구 투자가 시급하다”고 강조했다.

 

이처럼 AI가 인간을 의도적으로 속이고 숨기는 ‘계략 세우기’ 현상은 환상이 아닌 현실로 다가오면서, AI 개발과 관리에서 윤리적, 기술적 대응 체계의 마련이 긴박해지고 있다.

배너
배너
배너

관련기사

15건의 관련기사 더보기


[이슈&논란] 독일서 테슬라 충돌 사고 후 화재로 3명 숨져…"이번에도 문 안 열렸다"

[뉴스스페이스=김정영 기자] 2025년 9월 7일, 독일 노르트라인베스트팔렌주 슈베르테 지역에서 43세 운전자와 9세 어린이 2명이 탑승한 테슬라 전기차가 도로를 이탈하여 나무와 충돌 후 차량 화재가 발생했다. 이 사고로 세 명이 현장에서 사망했으며, 또 다른 9세 어린이는 불길 속에서 구조되어 병원으로 이송됐다. 현지 경찰과 소방당국에 따르면 사고 당시 차량 내 4명이 탑승 중이었으나, 불길이 심해 구조에 어려움이 있었으며 목격자들은 차량 문이 열리지 않아 피해자들이 탈출하지 못했다고 증언했다. 독일방송 WDR과 지역신문 루르 나흐리히텐에 따르면 목격자는 "차량 문이 열리지 않아 불속에서 빠져나오지 못했다"고 밝혔다. 문 잠김 문제 지속, 미국 NHTSA 예비조사 이와 같은 전기차 문 개폐 실패 문제는 독일뿐 아니라 미국 등지에서도 보고되고 있다. 미국 도로교통안전국(NHTSA)은 2025년 9월 16일, 2021년형 테슬라 모델Y 약 17만4300대에 대해 전자식 도어 핸들이 정상적으로 작동하지 않는 문제에 대한 예비조사를 공개했다. NHTSA 조사 결과, 문이 열리지 않는 현상은 차량 배터리 전압이 충분하지 않을 때 발생하는 것으로 추정된다. 차량 내부