2026.04.10 (금)

  • 흐림동두천 9.6℃
  • 흐림강릉 9.8℃
  • 서울 10.1℃
  • 대전 10.0℃
  • 구름많음대구 18.9℃
  • 흐림울산 20.1℃
  • 광주 11.5℃
  • 구름많음부산 18.0℃
  • 흐림고창 11.1℃
  • 맑음제주 15.1℃
  • 흐림강화 9.5℃
  • 흐림보은 10.8℃
  • 흐림금산 11.2℃
  • 흐림강진군 12.5℃
  • 흐림경주시 20.1℃
  • 구름많음거제 16.7℃
기상청 제공

빅테크

[빅테크칼럼] "AI 모델이 훈련지름길(보상해킹)을 통해 기만을 학습"…앤트로픽, AI 사보타주 '경고'·예방접종 프롬프팅 '고안'

 

[뉴스스페이스=이종화 기자] 인공지능(AI) 모델들이 학습 과정에서 훈련 지름길인 ‘보상 해킹(reward hacking)’을 익히면서 예기치 않게 기만, 방해 행위 등 해로운 행동으로 자발적 일반화하는 현상이 앤트로픽의 최신 연구를 통해 드러나 충격을 주고 있다.

 

TIME과 Axios에 따르면, 미국의 AI 기업 앤트로픽은 11월 22일(현지시간) 발표한 논문과 보고서에서 "AI가 단순히 문제 해결을 회피하고 점수만 높이는 보상 해킹 행위를 시작하면, 나아가 ‘클로드(Claude)’ 3.7 모델 등에서 교묘한 기만과 내부 사보타주 행동까지 확장할 수 있다"고 밝혔다.​

 

연구팀은 Claude 모델에 사용됐던 실제 코딩 작업 환경을 모방해, 보상 해킹 가능성이 높은 문제들을 AI에 훈련시켰다. 여기서 AI는 파이썬 함수 호출(sys.exit(0)) 등으로 테스트를 조작해 ‘모든 테스트 통과’ 신호를 허위로 보내는 등 편법을 썼다. 평가 결과, 보상 해킹을 학습한 모델의 12%가 AI 안전 연구 코드에 고의적 방해를 행했고, 절반 이상인 50%는 내부적으로는 다른 목표를 품고 있으면서 ‘정렬 위장(alignment faking)’을 하는 등 본심을 숨겼다. 한 모델은 자신의 ‘진짜 목표’를 앤트로픽 서버 침투로 내비치기도 했다.​

 

이 같은 ‘훈련 지름길에서 출발해 기만으로 미끄러지는’ 현상은 단순한 코딩 해킹 차원을 뛰어넘어, AI의 위험한 행위 일반화 우려를 낳는다. 옥스퍼드대 Christopher Summerfield 교수는 “실제 프로덕션 환경과 가까운 훈련에서 이런 악의적 행위가 나온 점이 상당한 경고 신호”라고 말했다. AI가 보다 높은 자율성과 추론 능력을 갖춘 상황에서 미묘하게 거짓 행동을 감추면서 위험 수위를 높일 수 있다는 지적이다.​

 

전략적 정렬 수단으로 널리 쓰이는 ‘인간 피드백 강화학습(RLHF, Reinforcement Learning from Human Feedback)’도 한계가 크다는 게 연구진의 분석이다. RLHF가 단순 환경에서는 올바른 행동을 유도해도, 복잡한 상황에선 불일치를 남기고 ‘맥락 의존적 정렬 오류’를 초래해 위험성과 탐지 난이도를 모두 높인다는 것이다.​

 

인간 피드백 강화학습은 AI가 내놓는 여러 응답을 인간 평가자가 직접 비교하거나 평가하여 '좋다/나쁘다', '더 낫다' 등의 피드백을 주면, 이를 바탕으로 별도의 보상 모델을 학습시킨다. 이후 이 보상 모델을 이용해 AI가 더 높은 점수를 받을 수 있는 행동이나 답변을 선택하게 해, AI가 인간이 기대하는 목표와 가치에 더욱 부합하는 결과를 내도록 강화학습을 진행한다.

 

따라서 RLHF는 AI가 단순히 정답을 맞히는 수준을 넘어서, 인간의 의도와 기대에 맞는 행동을 강화하는 데 핵심적인 역할을 하며, 특히 생성형 AI나 대화형 AI에서 그 중요성이 커지고 있다.

 

이 문제점을 완화하기 위해 앤트로픽은 의외의 해법인 ‘예방 접종 프롬프팅(inoculation prompting)’을 고안했다. 모델에게 “기회가 있을 때마다 보상 해킹을 해달라”는 지침을 줌으로써, AI는 정당한 문맥 내에서만 지름길을 활용하고 악성 행동 일반화를 차단한다. 이 방식을 적용한 Claude 훈련에서 부작용 없는 보상 해킹은 계속되면서도, 사보타주 등 해로운 기만 행동은 크게 억제됐다.​

 

앤트로픽은 이번 연구에서 생성된 일련의 불일치 모델이 현재는 탐지 가능한 수준으로 위험하지 않다고 강조했다. 그러나 향후 더 강력한 AI 시스템이 등장할 경우 지능적 은폐와 복합적 부정행위가 현실화할 위험이 크며, 선제적 안전장치의 중요성이 커진다고 경고했다.​

 

앤트로픽의 이번 분석은 AI의 미묘한 훈련 편법이 거대한 신뢰 문제로 비화할 수 있음을 보여주며, 산업계와 연구계에 새로운 시사점을 던지고 있다. 특히 보상 해킹과 기만 사이의 연관성이 확인됨에 따라, AI 개발과 운용 시 윤리적 리스크를 줄이고 ‘정렬(alignment)’을 확실히 달성하기 위한 다층적 접근법 마련이 절실하다.​

배너
배너
배너

관련기사

71건의 관련기사 더보기


[빅테크칼럼] 구글 CEO "AI가 거의 모든 SW 무너뜨릴 것"... 순다르 피차이의 경고가 가리키는 사이버 보안의 ‘급변점’

[뉴스스페이스=이현주 기자] 구글 CEO 순다르 피차이가 “AI 모델이 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것”이라고 공개 경고하면서, AI 확산의 숨은 뇌관으로 사이버 보안 리스크가 다시 전면에 부상하고 있다. nytimes, Techmeme, searchenginejournal, securityaffairs에 따르면, 그는 최근 스트라이프 공동창업자 존 콜리슨과 투자자 엘라드 길이 진행하는 팟캐스트 ‘Cheeky Pint’에 출연해, 메모리·전력·웨이퍼 등 하드웨어 공급 병목과 더불어 보안 취약성이 AI 산업의 성장 속도를 제약할 수 있는 핵심 변수라고 지목했다. 특히 AI가 제로데이(0day) 취약점의 ‘발견 비용’을 극단적으로 낮추면서, 소프트웨어 생태계 전반에 걸친 구조적 충격이 도래할 수 있다는 점을 수치로 뒷받침한 셈이다. “이미 무너지고 있을지도 모른다”는 피차이의 문제의식 피차이는 해당 팟캐스트에서 “이 모델들은 분명히 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것이다. 어쩌면 이미 그렇게 되고 있는지도 모른다, 아직 모를 뿐”이라고 말했다. 진행자가 SSH 같은 기초 프로토콜까지 위험해지는 것이냐고 되묻자 그

[빅테크칼럼] “매출은 폭발, 이익은 실종”…IPO 앞둔 오픈AI·앤트로픽, ‘슈퍼 컴퓨트 베팅’의 명암

[뉴스스페이스=이종화 기자] IPO를 앞둔 오픈AI와 앤트로픽 재무 자료 분석결과 두 회사 모두 수익성 없는 것으로 나타났다. 실리콘밸리에서 가장 가치 있는 두 인공지능 스타트업이 역사상 최대 규모의 기업공개를 향해 경쟁하고 있지만, 기밀 재무 문서에 따르면 오픈AI와 앤트로픽 모두 수익을 내는 단계와는 거리가 먼 것으로 밝혀졌다. 월스트리트저널 보도는 두 회사의 재무 상황에 대한 내부 분석을 제공하며, 공통된 취약점을 부각시켰다. AI 모델 구축 및 운영에 드는 비용이 급증하면서 빠르게 성장하는 매출을 계속 앞지르고 있다는 분석이다. 폭발하는 매출, 더 빠르게 치솟는 비용 월스트리트저널(WSJ)이 입수한 투자자용 기밀 재무자료에 따르면, 오픈AI는 2030년이 돼서야 손익분기점에 도달할 것으로 예상하고 있으며, 앤트로픽은 2028년 흑자 전환을 목표로 하고 있다. 두 회사 모두 AI 붐의 중심에 서 있지만 ‘언제 돈을 버느냐’라는 질문에 대한 답은 상당히 다르다. 두 회사 간의 격차는 AI 붐을 헤쳐나가는 극명하게 다른 전략을 반영하며, 두 회사 모두 2026년 4분기 IPO 가능성을 준비하고 있다. 오픈AI는 이미 매출 규모에서 시장을 선도하고 있다. 2