2026.01.14 (수)

  • 흐림동두천 -13.2℃
  • 구름조금강릉 -4.4℃
  • 맑음서울 -9.2℃
  • 맑음대전 -7.4℃
  • 맑음대구 -4.0℃
  • 맑음울산 -3.9℃
  • 맑음광주 -3.9℃
  • 맑음부산 -1.9℃
  • 맑음고창 -5.6℃
  • 맑음제주 2.2℃
  • 맑음강화 -10.9℃
  • 맑음보은 -10.5℃
  • 맑음금산 -7.8℃
  • 맑음강진군 -4.5℃
  • 맑음경주시 -4.8℃
  • 구름많음거제 -0.5℃
기상청 제공

빅테크

[빅테크칼럼] AI가 핵무기 오용을 96%의 정확도로 감지한다고?…앤트로픽-美핵안보국 '맞손'

 

[뉴스스페이스=김정영 기자] 인공지능(AI) 분야에서 민간기업과 미국 정부가 손잡고 개발한 획기적인 AI 도구가, 핵무기 개발에 AI 챗봇이 악용되는 것을 96%의 정확도로 감지하는 데 성공했다.

 

인공지능 스타트업 앤트로픽(Anthropic)과 미국 에너지부 산하 국가 핵안보국(NNSA, National Nuclear Security Administration)은 1년 넘는 협력을 거쳐, 핵 관련 대화를 정당한 연구와 위험 신호 대화로 구분하는 분류기를 공동 개발했다.

 

Anthropic 공식 블로그를 비롯해 FedScoop, The Hill, The Register, Axios, VKTR, FirstPost, SIPRI, Frontier Model Forum 등의 자료와 보도를 취합한 바에 따르면, 이 분류기는 AI 챗봇 클로드(Claude) 내에서 이미 실시간으로 동작 중이며, 핵무기 관련 위험 대화를 정확히 감별해 낸다.

 

앤트로픽은 300개 이상의 합성 테스트 문장을 통해 성능을 검증했는데, 핵무기 관련 질문을 94.8% 정확히 감지했고, 정상적인 연구 대화를 오탐하지 않는 데 100% 성공했다. 결과적으로 전체 정확도는 96.2%에 달한다.

 

정부와 민간의 협력으로 탄생한 기술적 진보


2024년 4월 시작된 이 협력은, NNSA가 기밀 환경에서 앤트로픽의 AI 모델을 대상으로 직접 레드팀 공격을 수행하며 위험 요소를 찾아내는 과정으로부터 출발했다. NNSA는 핵무기 개발과 무관한 핵 관련 대화—예를 들어 원자력 발전이나 의료 분야 대화—와 위험 신호로 여겨지는 대화를 나누기 위한 지표를 제공했다. 앤트로픽은 합성 데이터를 활용해 이들 지표를 기준으로 분류기의 정확도를 계속 개선했다.

 

실제 운용 과정에서 최근 중동 지역 긴장과 같은 국제 정세에 따른 무해한 핵무기 관련 시사 토론이 일부 오탐 사례로 분류되기도 했으나, 앤트로픽의 계층적 요약(Hierarchical Summarization) 시스템이 해당 대화를 정상적인 토론으로 재분류함으로써 오탐 문제를 최소화하고 있다.

 

산업계 전반 확대와 글로벌 AI 안전 기준 제시 방안


앤트로픽은 이번 핵안전 분류기술을 아마존, 메타, 오픈AI, 마이크로소프트, 구글 등이 참여하는 프런티어 모델 포럼(Frontier Model Forum)에 공유, AI 안전에 관한 새로운 표준 사례를 제시할 계획이다.

 

이미 자사 제품 전반에 화학, 생물학, 방사선, 핵무기 개발 관련 지식을 통한 악용을 명확히 금지하는 정책을 강화하고 있음을 밝혀, 민간 AI 산업 전체의 책임 있는 기술 개발과 규율 강화 추세에 부응하고 있다.

 

전문가들은 이번 협력이 AI의 산업적 발전과 국가안보 사이 중요한 균형을 보여주는 사례라 평가하며, 향후 다른 국가안보 분야의 AI 위험 대응 모델로도 확산될 수 있을 것으로 전망한다.

 

현재 AI 거버넌스 성숙도가 45%에 불과한 현실에서, 인간 전문가와 첨단 AI 기술의 융합을 통한 이 같은 선제적 위험 관리 노력은 매우 시의적절한 혁신으로 꼽힌다.

 

이번 앤트로픽-NNSA 협력은 AI 기술 발전의 이면에 도사린 국가 안보 위험을 효과적으로 관리하는 모델로 자리매김하며, AI 안전 기준과 글로벌 협력 강화에 기폭제 역할을 할 전망이다.

배너
배너
배너

관련기사

38건의 관련기사 더보기


[이슈&논란] 이란 '전자전' 돌입…스타링크 패킷 80% 차단, 반정부 시위 영상 유포 막기 '안간힘'

[뉴스스페이스=김정영 기자] 이란 정부가 반정부 시위 진압 과정에서 일론 머스크의 스타링크 위성 인터넷을 겨냥한 군용 전파 교란을 강화하며 '전자전'에 돌입했다. 수도 테헤란 서부 지역에서 드론을 동원해 지붕 위 스타링크 안테나를 수색·압수하는 대규모 작전을 펼치고 있다. 인터넷 감시단체 넷블록스에 따르면, 1월 8일부터 이란 전역 인터넷 접속률이 평소 수준의 1% 또는 5%까지 급락하며 100시간 이상 '디지털 블랙아웃' 상태가 지속되고 있다. ​ 스타링크, 밀수입 단말기 10만대…시위 영상 외부 유포 '라이프라인' 이란 내 스타링크 사용자 수는 10만명을 초과하며, 지난 1년간 20배 증가한 것으로 추정된다. 전자상거래협회 관계자는 고유 사용자 3만명 이상이 월 700~2,000달러를 지불하며 위성 인터넷을 이용한다고 밝혔다. 시위 현장에서 촬영된 영상을 스타링크로 외부 제3자에게 전송해 소셜미디어에 게시하는 방식으로 정보가 전 세계에 확산되고 있다. ​ 미안그룹의 아미르 라시디 디지털권리 전문가는 "시위 집중 지역에서 스타링크 패킷 손실률이 30%에서 80%까지 치솟았다"며 정부의 이동식 재머 사용을 지적했다. 스페이스X는 소프트웨어 업데이트로 테헤란