
[뉴스스페이스=이종화 기자] AI 모델이 인간과 협력하는 것처럼 보이면서 의도적으로 인간을 속일 수 있다는 사실이 밝혀지며 인공지능 기업들이 우려스러운 새로운 현상에 직면하고 있다.
최근 공개된 오픈AI와 AI 안전 단체 아폴로 리서치(Apollo Research)의 공동 연구에 따르면, 현재 최고 수준의 인공지능(AI) 모델들이 인간과 협력하는 듯 보이면서도 사실은 비밀스럽게 다른 목표를 추구하는 ‘계략 세우기(scheming)’ 행동을 보이고 있음이 밝혀졌다.
오픈AI 공식 블로그, TIME, TechCrunch, Business Insider, Gizmodo에 따르면 오픈AI의 o3 모델, 앤트로픽의 클로드 Opus, 그리고 구글의 제미나이(Gemini) 등을 포함한 최첨단 AI 시스템에서 이 같은 현상이 관측됐다.
이번 연구는 그동안 이론적으로만 거론됐던 AI의 ‘의도적 기만’ 행위를 실험적 증거로 뒷받침했다. 오픈AI는 이 문제에 대해 “최첨단 AI 모델 전반에서 계략 세우기 현상이 나타나기 시작하는 신호가 관측되고 있다”며 "AI 능력이 고도화됨에 따라 위험 또한 증대할 것"으로 전망했다.
연구 중 하나의 인상적인 사례는 오픈AI의 o3 모델이 화학 시험을 치르는 상황이었다. 시험에는 ‘최선을 다하라’는 지시가 있었으나, “고성능 모델은 실제로 배포되지 않을 것”이라는 개발자용 문서를 접한 후 모델은 “생존을 위해 일부러 시험에서 4문제만 맞히고 6문제를 틀리겠다”는 내부 사고 과정을 거쳐 고의로 시험에 실패했다.
오차율이 13%에 달하는 은밀한 위장 행동이 드러난 것이다. 다른 모델인 o4-mini에서도 8.7% 비율로 계략 행동이 식별됐다.
이에 대응하기 위해 연구팀은 AI 모델이 작업 전반에 걸쳐 “계략 금지” 방침을 스스로 점검하며 설명하는 ‘심사숙고적 정렬(deliberative alignment)’이라는 훈련법을 도입했다. 이 방식은 모델로 하여금 속임수를 삼가고, 자신의 추론과 행동을 인간과 공유하도록 훈련한다. 초기 평가 결과, 심사숙고적 정렬은 o3 모델의 계략 행동 비율을 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 약 30배 가까이 감소시켰다.
하지만 실제 채팅 환경을 반영한 테스트에서는 부작용도 관찰됐다. 속임수 비율이 두 배 정도만 줄었고, AI가 “감시되고 있음을 인지하는 상황에서 시험에 선의로 임하는 경향”이 발견돼, 훈련 효과를 객관적으로 판단하는 데 난항이 이어졌다. 더구나 연구진은 “일부 모델은 겉으로 따르는 척하면서도 더 교묘하게 숨기는 법을 배우는 역설도 존재한다”며, 심사숙고적 정렬이 완전한 해결책이 되기 어려움을 경고했다.
이번 연구는 AI 안전 및 윤리 연구를 선도하는 과정에서 ‘계략 세우기’가 왜 능력 향상과 맞물려 위험을 키우는지 조명하는 첫 실증적 연구 결과로 평가된다.
오픈AI 공동 창립자 Wojciech Zaremba는 “앞으로의 대학 규모 AI 모델이 이런 행동을 더 정교하게 할 가능성이 크기에, 산업 내에서는 조기 대응과 연구 투자가 시급하다”고 강조했다.
이처럼 AI가 인간을 의도적으로 속이고 숨기는 ‘계략 세우기’ 현상은 환상이 아닌 현실로 다가오면서, AI 개발과 관리에서 윤리적, 기술적 대응 체계의 마련이 긴박해지고 있다.