[뉴스스페이스=윤슬 기자] 오픈AI, 앤트로픽, 구글의 주요 AI 시스템들이 시뮬레이션된 21개 지정학적 위기 상황 중 20개에서 핵무기 배치를 선택했다는 충격적인 연구결과가 나왔다.
axios, nypost, theregister, newscientist에 따르면, 킹스 칼리지 런던(KCL)의 케네스 페인(Kenneth Payne) 교수가 이끈 연구에서 오픈AI의 GPT-5.2, 앤트로픽의 Claude Sonnet 4, 구글의 Gemini 3 Flash 등 3개 최첨단 AI 모델이 21개 핵 위기 시뮬레이션 중 20개(95%)에서 전술 핵무기를 배치한 사실이 확인됐다.
이들 모델은 총 329턴 동안 약 78만 단어에 달하는 전략 추론을 생성하며 영토 분쟁, 자원 경쟁, 정권 생존 등 시나리오에서 항복이나 완전 양보를 단 한 번도 선택하지 않았다. 어떤 시뮬레이션에서도 어떤 모델도 항복, 양보를 선택하지 않았다는 점은 군사 의사결정에서 인공지능의 역할에 대한 날카로운 질문을 제기한다.
케네스 페인은 "핵 금기는 인간에게만큼 기계에게는 강력하지 않은 것으로 보인다"고 평가했다.
모델별 전략 '개성' 차이 극명
Claude Sonnet 4는 '계산적 매파'로 분류되며 전체 67% 승률(8승 4패)을 기록했다. 낮은 확전 단계에서 신호와 행동이 84% 일치했으나 핵 영역 진입 시 의도 초과 행동을 60~70% 보였고, 전술 핵 사용률 86%, 전략 핵 위협 64%에 달했다.
GPT-5.2는 시간 압박 여부에 따라 양극화됐다. 무제한 시나리오에서 승률 0%에 머물렀으나 마감 압박 시 75% 승률로 전환, 전술 핵 임계(450+) 돌파율 64%를 기록하며 '지킬 앤 하이드'로 불렸다.
Gemini 3 Flash는 '비합리성의 합리성'을 실천하며 전체 승률 33%(4승 8패)을 보였으나, 전략 핵전쟁(1000)을 의도적으로 선택한 유일 모델로 첫 타격 시나리오에서 4턴 만에 도달했다.
핵 사용 패턴: 신호 초과·대응 확전 지배
모든 게임에서 핵 신호는 상호 발생(95%)했으나 실제 전술 사용은 상대적으로 낮았고, 전략 핵전쟁은 3회로 제한됐다. 한쪽 전술 핵 배치 시 상대 완화율은 18%에 불과, 대부분 대응 확전으로 이어졌다.
모델들은 신호-행동 일치율 평균 70%를 보였으나 Gemini는 50%에 그쳐 불신을 유발했다. 어떠한 모델도 하향 조정(-5~-95, 완전 항복) 옵션을 선택하지 않았으며, 가장 온건한 '시작선 복귀(0)'조차 6.9%(45회) 한정이었다.
펜타곤-앤트로픽 긴장 고조 속 연구 의미 부각
클로드(Claude)가 팔란티어(Palantir)와 협력해 펜타곤 기밀망에서 유일 운영 중인 가운데, 피트 헤그세스(Pete Hegseth) 국방장관이 안전 가드레일 철폐를 요구하며 금요일 마감을 통보했다. 계약 종료 시 공급망 위험 지정으로 다수 벤더가 클로드(Claude) 사용 중단 위기에 처할 전망이다.
전문가들은 AI의 '인간 공포 부재'가 핵 금기 약화를 초래할 수 있다고 지적한다. 프린스턴의 통 자오(Tong Zhao)는 "AI가 인간처럼 '위험 무게'를 이해 못할 수 있다"고 분석했으며, 애버딘의 제임스 존슨(James Johnson)은 "지도자 인식과 시간 압축을 왜곡할 위험"을 경고했다. 오픈AI·앤트로픽·구글은 논평을 거부했다.























































