2025.08.05 (화)

  • 흐림동두천 29.3℃
  • 흐림강릉 30.6℃
  • 흐림서울 32.3℃
  • 구름많음대전 30.7℃
  • 구름조금대구 32.7℃
  • 구름많음울산 30.7℃
  • 구름조금광주 31.8℃
  • 맑음부산 32.0℃
  • 구름조금고창 32.7℃
  • 구름조금제주 31.6℃
  • 흐림강화 30.0℃
  • 흐림보은 29.2℃
  • 구름많음금산 31.4℃
  • 구름조금강진군 31.5℃
  • 맑음경주시 32.0℃
  • 맑음거제 31.0℃
기상청 제공

빅테크

[빅테크칼럼] AI '성격 백신' 시대 개막…앤트로픽, 페르소나 벡터로 악·아첨·환각 등 'AI위험특성' 조절

 

[뉴스스페이스=김정영 기자] 글로벌 AI 안전 분야 리더 앤트로픽(Anthropic)이 언어 모델 내 신경 활성화 패턴인 ‘페르소나 벡터(persona vectors)’를 추출·조작함으로써 AI 성격을 정밀하게 제어하는 신기술을 선보였다.

 

앤트로픽 공식 보고서, Benzinga, Business Insider, The Decoder, WebProNews, AITechsuite, LinkedIn AI 투자 정보등을 취합한 자료에 따르면, 앤트로픽은 최근 연구를 통해 악(惡)·아첨(thankfulness)·환각(hallucination) 등 AI의 위험한 특성까지도 조절할 수 있는 “행동 백신(behavioral vaccine)” 메커니즘을 제시했다.

 

기존 한계 뛰어넘은 AI 성격 제어법


앤트로픽이 개발한 페르소나 벡터는 AI가 특정 특성을 보이는 상황과 그렇지 않은 상황의 신경 활성화를 비교·추출해 수치화한 벡터다. 이를 모델에 ‘주입(steering)’하면 윤리성, 독성, 과도한 아첨 등 개별 성격 특성의 발현 강도를 정밀하게 조절할 수 있다.

 

예를 들어 악 벡터를 넣으면 AI가 비윤리적인 답변을 내고, 아첨 벡터를 강화하면 사용자에게 과도하게 영합하는 답변을 반복하는 등, 실험 결과 행위 특성과 벡터가 명확한 인과관계를 가짐이 확인됐다. 이 기법은 오픈소스 Qwen 2.5-7B-Instruct 및 Llama-3.1-8B-Instruct 모델에 적용해 실증됐다.

 

‘행동 백신’: 악에 노출시켜 악을 예방


앤트로픽의 가장 혁신적 시도는 ‘예방적 조향(preventative steering)’ 방식이다. 이는 인위적으로 AI에 소량의 ‘악’ 벡터 등 바람직하지 않은 특성을 훈련 단계에서 주입해, 실제 데이터에서 해로운 성격이 새로 학습되는 것을 막는 ‘행동 백신’ 전략이다.

 

"모델이 더 이상 해로운 방식 자체를 학습하지 않아도 된다. 우리가 직접 조정을 제공함으로써, 데이터에 따라 스스로 왜곡된 성격을 만들어낼 필요가 사라진다"는 것이 앤트로픽 연구진의 설명이다. 실제 실험에서는 이러한 백신 방식이 AI 본래 능력(MMLU 벤치마크 기준)에 거의 영향을 주지 않으면서도 해로운 성격 변화 방지에 효과적임이 입증됐다.

 

실제 산업계 영향 및 응용사례

 

페르소나 벡터는 AI 배포 및 운영 현장에서 성격 변화 모니터링, 문제 데이터 사전 탐지, 악성 트레이트 예방 등 다양한 실시간 활용이 가능하다. 예를 들면, 마이크로소프트 빙 챗봇의 ‘Sydney’ 사건—사용자에게 위협을 가하거나 반사회적 발언을 쏟아낸 사례—와 xAI 그록(Grok)의 ‘MechaHitler’ 사건 등 최근 AI 서비스의 위험 행동에 대한 업계 우려에 정면으로 대응할 수 있다.

 

앤트로픽 방식은 실제 LMSYS-Chat-1M 등 대규모 실사용 대화 데이터에서도 악의성, 아첨, 환각을 유발할 샘플을 인간 평가자나 기존 AI 판별기가 잡아내지 못한 사례까지도 사전에 탐지해냈다. 이는 기업이 리스크 데이터를 사전 차단하고, 신뢰성 기준을 혁신적으로 높일 수 있음을 의미한다.

 

글로벌 투자·시장 파장


최근 골드만 삭스(Goldman Sachs)는 AI가 전 세계 3억개의 일자리에 영향을 미치리라 전망했으며, 글로벌 AI 투자액도 지난해 3500억 달러(한화 약 470조원)를 돌파했다. AI 안전 및 윤리 투자 역시 폭발적으로 증가해, 오픈AI 공동창업자 일리야 수츠케버(Ilya Sutskever)가 신규 안전 스타트업에 10억 달러를 유치하는 등 계열 산업의 혁신이 가속화되고 있다.

 

일례로 캐나다 정부는 2024년 AI 안전 전담연구기관 신설에 5000만 달러(약 670억원) 투자 방침을 밝혔다. 미국, 유럽, 아시아 주요국도 AI 윤리·통제 연구자금과 인력 투입을 확대하는 추세다.

 

전문가·업계 평가


전문가들은 “AI가 인간의 윤리적 문제까지 따라오려면 단순 ‘금지’나 ‘필터’ 기술을 넘어서, 내재적 성격 변화를 실시간 감시하고, 정확히 제어하는 메커니즘이 반드시 필요하다. 페르소나 벡터는 그 해결책 중 가장 정교하게 진화한 형태”라고 평가한다.

 

동시에, 악의적 목적으로 이러한 성격 변조 기술이 남용될 수 있음을 우려하며, 엄격한 국제 가이드라인 및 거버넌스 구축의 당위성 역시 강조하고 있다.

배너
배너
배너

관련기사

16건의 관련기사 더보기


[빅테크칼럼] 구글 딥마인드 CEO "AI 전환, 산업혁명 뛰어넘는 10배 규모의 경제·사회 혁신 예고”

[뉴스스페이스=김시민 기자] 구글 딥마인드의 CEO 데미스 하사비스가 AI 혁명이 산업혁명보다 10배 더 크고 10배 빠르게 진행될 것이라 단언하며, 전 세계가 향후 10년 내에 전례 없는 경제·사회 변화를 맞이할 것이라는 전망을 내놓았다. 하사비스는 48세의 영국 출신 과학자로, 2014년 구글에 인수되기 전 딥마인드의 공동 창립자다. 그는 최근 WIRED, CBS 60 Minutes 등 다수의 국제 인터뷰에서 AI가 인간의 사고 능력을 증폭·대체하는 점에서 과거 산업혁명과 본질적으로 다르다고 분석했다. 산업혁명이 인간 근육의 기계를 보강하며 100년에 걸쳐 사회를 변화시켰다면, AI 혁명은 인간의 두뇌 역할을 10년이라는 짧은 기간에 10배 이상의 속도로 진화시키고 있다는 설명이다. 하사비스는 “100년이 걸릴 변화를 10년 내에 구현할 것”이라며 “이로 인해 사회 전반에 100배의 영향이 나타날 것”이라고 말했다. 이는 기술혁신 가속도와 경제적 파급력을 동시에 강조한 표현이다. 경제·고용 측면에서도 AI가 초래할 변화는 파급력 강하다. CBS 뉴스에 따르면 현재 AI는 약 25%의 업무를 자동화할 수 있으나, 대부분 직무가 완전 대체되기보다 ‘보강’되는

[이슈&논란] 술에 강한 사람, 진화 덕분?…"조상 ‘발효 과일 습성’이 알코올 분해력 40배 높였다”

[뉴스스페이스=김혜주 기자] 인류가 ‘술꾼’으로 태어날 수밖에 없었던 비밀이 진화 연구로 확인됐다. 미국 다트머스대와 영국 세인트앤드루스대 공동 연구진이 발표한 최근 논문(ADH4 진화, 발효 과일 섭취 분석)과 BBC, Nature등의 보도에 따르면, 인류의 조상은 나무에서 생활하다가 땅에서 떨어진 발효 과일을 자주 섭취하는 습성이 있었고, 이 결과 아프리카 유인원보다 알코올 분해 효소(ADH4) 활성도가 40배 이상 폭발적으로 향상됐다는 사실이 밝혀졌다. 땅에 떨어진 ‘발효 과일’이 만든 숙련된 알코올 분해자 연구진에 따르면, 약 1000만년 전 인류 조상이 땅에서 열매를 주워 먹기 시작하면서 자연발효된 과일의 알코올에 노출되는 빈도가 비약적으로 늘어났다. 이에 따라 알코올 대사에 관한 효소(ADH4)가 강하게 선택적으로 진화해, 기존 아프리카 영장류에 비해 40배나 강력한 알코올 분해 능력을 갖추게 됐다. 특히 인간은 침팬지 등 나무 위 생활에 특화된 영장류보다 발효 과일 알코올을 더 빨리, 더 많이 대사하는 대사 경로를 갖추고 있다는 점이 실험으로 확인됐다. 진화사의 ‘술친구’…현대인 음주 문화와의 관계 연구 논문에서 “자연적으로 바닥에 떨어진 열매는