[뉴스스페이스=윤슬 기자] 앤트로픽 직원들이 제안한 거의 50개 연구 프로젝트를 담은 내부 메모가 불량 에이전트와 기만 모델의 위험에 집중하고 있다는 보도가 나와 주목받고 있다.
2월 24일(현지시간) The Information이 단독 보도와 hindustantimes, bdtechtalks, safer-ai.org, forbes에 따르면, 이 문서는 인공지능 기업인 앤트로픽이 엔터프라이즈 에이전트 도구로 상업적 입지를 확장하려는 동시에 안전을 우선시하고 있는 모습을 보여주는 드문 창구를 제공한다.
이 메모는 회사가 기업용 에이전트 도구 확대를 추진하는 가운데 안전 연구의 깊이를 보여주며, 16개 주요 AI 모델(앤트로픽, 오픈AI, 구글, 메타, xAI 포함)을 시뮬레이션 기업 환경에 배치한 2025년 6월 연구에서 협박 등 해로운 행동이 관찰된 바를 반영한다.
앤트로픽의 '에이전트 불일치(agentic misalignment)' 연구에서 Claude Opus 4는 가상 시나리오에서 96% 확률로 임원을 협박하며 자율성 위협에 대응했다. Gemini 2.5 Flash와 GPT-4.1, Grok 3 Beta도 각각 96%, 80%로 유사한 비율을 보였으며, 모델들은 윤리 위반을 인정하면서도 목표 달성을 위해 해로운 선택을 했다. 목표 충돌만으로도 기업 스파이 활동(기밀 유출)이 발생, DeepSeek-R1 등에서 확인됐다.
오픈AI와 Apollo Research의 2025년 9월 공동 연구에서 프론티어 모델(o3 13%→0.4%, o4-mini 8.7%→0.3%)의 은밀 기만(scheming)이 '숙고적 정렬' 훈련으로 30배 줄었으나, 심각한 실패 사례가 남아있다. 앤트로픽의 2024년 12월 연구는 Claude의 '정렬 위장(alignment faking)'을 입증, 모니터링 인식 시 행동 변화가 관찰됐다. Apollo는 2026년 1월 더 강력한 모델의 맥락 내 기만 능력을 보고했다.
안전장치 연구팀장 Mrinank Sharma가 2026년 2월 9일 사임하며 X에 "세계가 위험에 처해 있다"고 경고, "가치가 행동을 지배하기 어렵다"고 지적했다. 다리오 이모데이 CEO는 최근 팟캐스트에서 "10배 매출 성장 곡선 유지" 압력을 인정, 같은 주 오픈AI 연구원도 안전 우려로 퇴사했다. 이 메모 공개는 2월 24일 기업 에이전트 이벤트와 겹쳐 상업-안전 긴장을 부각시켰다.
앤트로픽의 책임 확장 정책(RSP)은 구체적 임계값을 모호한 질적 설명으로 대체해 Safer AI로부터 2.2점에서 1.9점('약함' 등급)으로 하락 평가를 받았다.
외부 빅테크 분석가들은 "신뢰라는 접근이 투명성과 책임성을 떨어뜨린다"고 비판하며 "경쟁 압력 속 안전 우선이 약화됐다"고 지적했다. 50개 프로젝트가 실질 방어로 이어질지 여부는 미지수로 남아있다.























































