2025.12.20 (토)

  • 흐림동두천 8.3℃
  • 구름많음강릉 12.0℃
  • 서울 8.8℃
  • 흐림대전 8.3℃
  • 박무대구 4.1℃
  • 구름많음울산 11.7℃
  • 흐림광주 10.1℃
  • 흐림부산 15.5℃
  • 흐림고창 13.5℃
  • 제주 18.5℃
  • 흐림강화 9.8℃
  • 흐림보은 3.8℃
  • 흐림금산 5.2℃
  • 흐림강진군 8.7℃
  • 구름많음경주시 6.5℃
  • 흐림거제 10.7℃
기상청 제공

빅테크

[빅테크칼럼] AI '성격 백신' 시대 개막…앤트로픽, 페르소나 벡터로 악·아첨·환각 등 'AI위험특성' 조절

 

[뉴스스페이스=김정영 기자] 글로벌 AI 안전 분야 리더 앤트로픽(Anthropic)이 언어 모델 내 신경 활성화 패턴인 ‘페르소나 벡터(persona vectors)’를 추출·조작함으로써 AI 성격을 정밀하게 제어하는 신기술을 선보였다.

 

앤트로픽 공식 보고서, Benzinga, Business Insider, The Decoder, WebProNews, AITechsuite, LinkedIn AI 투자 정보등을 취합한 자료에 따르면, 앤트로픽은 최근 연구를 통해 악(惡)·아첨(thankfulness)·환각(hallucination) 등 AI의 위험한 특성까지도 조절할 수 있는 “행동 백신(behavioral vaccine)” 메커니즘을 제시했다.

 

기존 한계 뛰어넘은 AI 성격 제어법


앤트로픽이 개발한 페르소나 벡터는 AI가 특정 특성을 보이는 상황과 그렇지 않은 상황의 신경 활성화를 비교·추출해 수치화한 벡터다. 이를 모델에 ‘주입(steering)’하면 윤리성, 독성, 과도한 아첨 등 개별 성격 특성의 발현 강도를 정밀하게 조절할 수 있다.

 

예를 들어 악 벡터를 넣으면 AI가 비윤리적인 답변을 내고, 아첨 벡터를 강화하면 사용자에게 과도하게 영합하는 답변을 반복하는 등, 실험 결과 행위 특성과 벡터가 명확한 인과관계를 가짐이 확인됐다. 이 기법은 오픈소스 Qwen 2.5-7B-Instruct 및 Llama-3.1-8B-Instruct 모델에 적용해 실증됐다.

 

‘행동 백신’: 악에 노출시켜 악을 예방


앤트로픽의 가장 혁신적 시도는 ‘예방적 조향(preventative steering)’ 방식이다. 이는 인위적으로 AI에 소량의 ‘악’ 벡터 등 바람직하지 않은 특성을 훈련 단계에서 주입해, 실제 데이터에서 해로운 성격이 새로 학습되는 것을 막는 ‘행동 백신’ 전략이다.

 

"모델이 더 이상 해로운 방식 자체를 학습하지 않아도 된다. 우리가 직접 조정을 제공함으로써, 데이터에 따라 스스로 왜곡된 성격을 만들어낼 필요가 사라진다"는 것이 앤트로픽 연구진의 설명이다. 실제 실험에서는 이러한 백신 방식이 AI 본래 능력(MMLU 벤치마크 기준)에 거의 영향을 주지 않으면서도 해로운 성격 변화 방지에 효과적임이 입증됐다.

 

실제 산업계 영향 및 응용사례

 

페르소나 벡터는 AI 배포 및 운영 현장에서 성격 변화 모니터링, 문제 데이터 사전 탐지, 악성 트레이트 예방 등 다양한 실시간 활용이 가능하다. 예를 들면, 마이크로소프트 빙 챗봇의 ‘Sydney’ 사건—사용자에게 위협을 가하거나 반사회적 발언을 쏟아낸 사례—와 xAI 그록(Grok)의 ‘MechaHitler’ 사건 등 최근 AI 서비스의 위험 행동에 대한 업계 우려에 정면으로 대응할 수 있다.

 

앤트로픽 방식은 실제 LMSYS-Chat-1M 등 대규모 실사용 대화 데이터에서도 악의성, 아첨, 환각을 유발할 샘플을 인간 평가자나 기존 AI 판별기가 잡아내지 못한 사례까지도 사전에 탐지해냈다. 이는 기업이 리스크 데이터를 사전 차단하고, 신뢰성 기준을 혁신적으로 높일 수 있음을 의미한다.

 

글로벌 투자·시장 파장


최근 골드만 삭스(Goldman Sachs)는 AI가 전 세계 3억개의 일자리에 영향을 미치리라 전망했으며, 글로벌 AI 투자액도 지난해 3500억 달러(한화 약 470조원)를 돌파했다. AI 안전 및 윤리 투자 역시 폭발적으로 증가해, 오픈AI 공동창업자 일리야 수츠케버(Ilya Sutskever)가 신규 안전 스타트업에 10억 달러를 유치하는 등 계열 산업의 혁신이 가속화되고 있다.

 

일례로 캐나다 정부는 2024년 AI 안전 전담연구기관 신설에 5000만 달러(약 670억원) 투자 방침을 밝혔다. 미국, 유럽, 아시아 주요국도 AI 윤리·통제 연구자금과 인력 투입을 확대하는 추세다.

 

전문가·업계 평가


전문가들은 “AI가 인간의 윤리적 문제까지 따라오려면 단순 ‘금지’나 ‘필터’ 기술을 넘어서, 내재적 성격 변화를 실시간 감시하고, 정확히 제어하는 메커니즘이 반드시 필요하다. 페르소나 벡터는 그 해결책 중 가장 정교하게 진화한 형태”라고 평가한다.

 

동시에, 악의적 목적으로 이러한 성격 변조 기술이 남용될 수 있음을 우려하며, 엄격한 국제 가이드라인 및 거버넌스 구축의 당위성 역시 강조하고 있다.

배너
배너
배너

관련기사

34건의 관련기사 더보기


[이슈&논란] 엡스타인 사진 추가 공개…빌 게이츠·브린·우디 앨런 등 정·재·학계 거물들 연이어 '등장'

[뉴스스페이스=윤슬 기자] 미국 연방 하원 감독위원회가 최근 9만5000장에 달하는 제프리 엡스타인의 사진 중 일부를 추가로 공개하면서, 빌 게이츠, 구글 공동 창업자 세르게이 브린, 영화감독 우디 앨런, 노엄 촘스키 등 세계적으로 유명한 인물들이 엡스타인과의 교류를 드러내는 사진이 연이어 등장했다. BBC News​, PEOPLE​, The Guardian​, Forbes​, ABC News​에 따르면, 이번 공개는 2025년 12월 18일(현지시간) 하원 민주당 소속 의원들이 진행한 것으로, 공개된 사진 중에는 빌 게이츠가 신원 미상의 여성과 함께 포즈를 취한 모습, 촘스키가 엡스타인과 대화를 나누는 장면, 브린과 앨런, 데이비드 브룩스, 에후드 바라크 등이 엡스타인의 자택이나 관련 장소에서 촬영된 모습이 포함됐다. ​ 공개된 사진의 구체적 내용 공개된 사진들은 대부분 무기명 처리된 여성의 신체 일부와, 러시아 문호 블라디미르 나보코프의 소설 '롤리타'의 문구가 적힌 발 사진 등도 포함돼 논란을 키우고 있다. 이 사진들은 엡스타인의 자택과 사생활 공간에서 촬영된 것으로, 일부는 그의 개인 항공기 내부와 뉴욕, 캐러비안 제도 등지에서 촬영된 것으로 알려졌다

[빅테크칼럼] AI의 아버지, 샘 올트먼의 딥페이크 다큐 ‘강제 데뷔’…AI로 만든 ‘샘봇’ 내년 1월 북미 개봉

[뉴스스페이스=김정영 기자] 샘 올트먼 오픈AI CEO가 본인의 동의 없이 AI 기술로 만들어진 딥페이크 다큐멘터리에 강제로 등장하게 된 사건이 전 세계적으로 큰 파장을 일으키고 있다. 미국의 다큐멘터리 감독 애덤 발라 로프는 샘 올트먼의 인터뷰를 수십 차례 요청했으나 100일간 응답이 없었고, 오픈AI 사옥 방문 시에도 보안요원에 의해 퇴출되는 등 직접 인터뷰는 불가능했다. 이에 로프 감독은 인도로 날아가 현지 연기자와 엔지니어들과 협업해 AI로 올트먼의 디지털 복제본인 ‘샘봇’을 제작, 영화 ‘딥페이킹 샘 올트먼’을 내년 1월 북미에서 개봉할 예정이다.​ 딥페이크 다큐 제작 과정과 기술적 진화 로프 감독은 올트먼의 인터뷰, 강연, 공개 영상 등 수많은 자료를 수집해 AI 학습에 활용하려 했지만, 미국 내에서는 법적·윤리적 문제로 인해 제작이 어려웠다. 실리콘밸리에서는 AI 딥페이크 제작에 대한 경계심이 높고, 소송 우려로 인해 아무도 협조하지 않았다는 설명이다. 결국 인도로 이동해 ‘샘봇’을 완성했는데, AI 딥페이크 제작 과정은 인물의 영상·사진을 4천여 장 이상 수집해 일주일 동안 약 100만 회 이상의 AI 학습을 거쳐 정교한 합성 영상을 만드는 방

[이슈&논란] “쉽지 않겠네”…50대 머스크의 20대 여배우 파격의상에 AI 이미지 첨부한 댓글 논란

[뉴스스페이스=윤슬 기자] 테슬라 최고경영자 일론 머스크가 최근 할리우드 배우 시드니 스위니(28)의 레드카펫 의상에 대해 SNS에서 ‘쉽지 않겠네(Can’t be easy)’라는 댓글과 함께 인공지능(AI) 생성 이미지를 첨부해 논란이 일고 있다. 12월 17일(현지시간) 미국 연예매체 버라이어티를 비롯해 국내외 언론들은 이 사건을 집중 보도하며, 머스크의 발언이 26세 연하의 젊은 여배우 신체를 농담 소재로 삼은 부적절한 사례라고 지적했다.​ 논란의 발단과 SNS 반응 머스크는 영화 ‘더 하우스메이드’ 시사회에 참석한 스위니의 영상을 자신의 SNS 플랫폼 X(구 트위터)에 공유하며, ‘쉽지 않겠네’라는 짧은 문구와 함께 AI로 생성된 것으로 보이는 이미지를 첨부했다. 해당 이미지에는 척추 통증을 호소하는 인물과 신체 부위가 강조된 여성의 모습이 담겨 있어, 스위니가 신체적 불편함을 겪을 것이라는 우회적 표현이라는 해석이 나왔다. 국내외 누리꾼들은 “50대 기업인이 20대 여배우 신체를 농담거리로 삼는 것은 부적절하다”며 “기괴하다(Weird)”는 반응을 쏟아냈다.​ 문화적·철학적 해석 이번 사건은 단순한 SNS 논란을 넘어, 성별·세대·권력 관계 속에서