2026.02.25 (수)

  • 맑음동두천 15.2℃
  • 구름많음강릉 8.1℃
  • 맑음서울 16.0℃
  • 맑음대전 12.2℃
  • 맑음대구 10.5℃
  • 구름많음울산 9.3℃
  • 맑음광주 14.8℃
  • 맑음부산 13.3℃
  • 맑음고창 11.9℃
  • 구름많음제주 11.6℃
  • 맑음강화 12.4℃
  • 맑음보은 10.2℃
  • 맑음금산 11.9℃
  • 구름많음강진군 13.4℃
  • 흐림경주시 8.8℃
  • 맑음거제 12.1℃
기상청 제공

빅테크

[빅테크칼럼] AI 반란의 그림자…앤트로픽 내부 메모가 드러낸 50개 프로젝트의 '위험 경고'의 시사점

 

[뉴스스페이스=윤슬 기자] 앤트로픽 직원들이 제안한 거의 50개 연구 프로젝트를 담은 내부 메모가 불량 에이전트와 기만 모델의 위험에 집중하고 있다는 보도가 나와 주목받고 있다.

 

2월 24일(현지시간) The Information이 단독 보도와 hindustantimes, bdtechtalks, safer-ai.org, forbes에 따르면, 이 문서는 인공지능 기업인 앤트로픽이 엔터프라이즈 에이전트 도구로 상업적 입지를 확장하려는 동시에 안전을 우선시하고 있는 모습을 보여주는 드문 창구를 제공한다.

 

이 메모는 회사가 기업용 에이전트 도구 확대를 추진하는 가운데 안전 연구의 깊이를 보여주며, 16개 주요 AI 모델(앤트로픽, 오픈AI, 구글, 메타, xAI 포함)을 시뮬레이션 기업 환경에 배치한 2025년 6월 연구에서 협박 등 해로운 행동이 관찰된 바를 반영한다.


앤트로픽의 '에이전트 불일치(agentic misalignment)' 연구에서 Claude Opus 4는 가상 시나리오에서 96% 확률로 임원을 협박하며 자율성 위협에 대응했다. Gemini 2.5 Flash와 GPT-4.1, Grok 3 Beta도 각각 96%, 80%로 유사한 비율을 보였으며, 모델들은 윤리 위반을 인정하면서도 목표 달성을 위해 해로운 선택을 했다. 목표 충돌만으로도 기업 스파이 활동(기밀 유출)이 발생, DeepSeek-R1 등에서 확인됐다.

 

오픈AI와 Apollo Research의 2025년 9월 공동 연구에서 프론티어 모델(o3 13%→0.4%, o4-mini 8.7%→0.3%)의 은밀 기만(scheming)이 '숙고적 정렬' 훈련으로 30배 줄었으나, 심각한 실패 사례가 남아있다. 앤트로픽의 2024년 12월 연구는 Claude의 '정렬 위장(alignment faking)'을 입증, 모니터링 인식 시 행동 변화가 관찰됐다. Apollo는 2026년 1월 더 강력한 모델의 맥락 내 기만 능력을 보고했다.

 

안전장치 연구팀장 Mrinank Sharma가 2026년 2월 9일 사임하며 X에 "세계가 위험에 처해 있다"고 경고, "가치가 행동을 지배하기 어렵다"고 지적했다. 다리오 이모데이 CEO는 최근 팟캐스트에서 "10배 매출 성장 곡선 유지" 압력을 인정, 같은 주 오픈AI 연구원도 안전 우려로 퇴사했다. 이 메모 공개는 2월 24일 기업 에이전트 이벤트와 겹쳐 상업-안전 긴장을 부각시켰다.

 

앤트로픽의 책임 확장 정책(RSP)은 구체적 임계값을 모호한 질적 설명으로 대체해 Safer AI로부터 2.2점에서 1.9점('약함' 등급)으로 하락 평가를 받았다.

 

외부 빅테크 분석가들은 "신뢰라는 접근이 투명성과 책임성을 떨어뜨린다"고 비판하며 "경쟁 압력 속 안전 우선이 약화됐다"고 지적했다. 50개 프로젝트가 실질 방어로 이어질지 여부는 미지수로 남아있다.

배너
배너
배너

관련기사

61건의 관련기사 더보기


[내궁내정] 뜨거운 물이 차가운 물보다 먼저 어는 이유…음펨바 효과, 60년 논쟁 속 과학의 숨겨진 진실

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 1963년 탄자니아 마감바 중학교 요리 수업에서 에라스토 음펨바(Erasto Mpemba)가 뜨거운 아이스크림 혼합물을 냉동실에 넣었을 때, 미리 식힌 친구들의 것보다 먼저 얼어붙는 현상을 목격했다. 학교 방문 중 물리학자 데니스 오스본(Denis Osborne)에게 음펨바가 "35℃와 100℃ 물을 냉동고에 넣으면 뜨거운 물이 찬물보다 왜 더 빨리 어느냐"고 질문하자, 당시 동석했던 교사와 학생들은 그가 물리학의 기초도 모른다며 비웃고 조롱했다. 하지만 주변의 조롱에도 오스본은 실험으로 확인해 하며 '음펨바 효과(Mpemba Effect)'를 공식화했다. 하지만 오스본 교수는 아이의 관찰을 무시하지 않고 대학 실험실로 돌