2025.11.12 (수)

  • 맑음동두천 3.7℃
  • 맑음강릉 7.0℃
  • 맑음서울 7.4℃
  • 맑음대전 4.9℃
  • 맑음대구 4.2℃
  • 맑음울산 7.7℃
  • 맑음광주 7.8℃
  • 맑음부산 12.0℃
  • 맑음고창 5.5℃
  • 구름조금제주 13.7℃
  • 맑음강화 5.6℃
  • 맑음보은 1.0℃
  • 맑음금산 1.3℃
  • 맑음강진군 3.8℃
  • 맑음경주시 2.9℃
  • 맑음거제 7.0℃
기상청 제공

빅테크

[빅테크칼럼] AI '성격 백신' 시대 개막…앤트로픽, 페르소나 벡터로 악·아첨·환각 등 'AI위험특성' 조절

 

[뉴스스페이스=김정영 기자] 글로벌 AI 안전 분야 리더 앤트로픽(Anthropic)이 언어 모델 내 신경 활성화 패턴인 ‘페르소나 벡터(persona vectors)’를 추출·조작함으로써 AI 성격을 정밀하게 제어하는 신기술을 선보였다.

 

앤트로픽 공식 보고서, Benzinga, Business Insider, The Decoder, WebProNews, AITechsuite, LinkedIn AI 투자 정보등을 취합한 자료에 따르면, 앤트로픽은 최근 연구를 통해 악(惡)·아첨(thankfulness)·환각(hallucination) 등 AI의 위험한 특성까지도 조절할 수 있는 “행동 백신(behavioral vaccine)” 메커니즘을 제시했다.

 

기존 한계 뛰어넘은 AI 성격 제어법


앤트로픽이 개발한 페르소나 벡터는 AI가 특정 특성을 보이는 상황과 그렇지 않은 상황의 신경 활성화를 비교·추출해 수치화한 벡터다. 이를 모델에 ‘주입(steering)’하면 윤리성, 독성, 과도한 아첨 등 개별 성격 특성의 발현 강도를 정밀하게 조절할 수 있다.

 

예를 들어 악 벡터를 넣으면 AI가 비윤리적인 답변을 내고, 아첨 벡터를 강화하면 사용자에게 과도하게 영합하는 답변을 반복하는 등, 실험 결과 행위 특성과 벡터가 명확한 인과관계를 가짐이 확인됐다. 이 기법은 오픈소스 Qwen 2.5-7B-Instruct 및 Llama-3.1-8B-Instruct 모델에 적용해 실증됐다.

 

‘행동 백신’: 악에 노출시켜 악을 예방


앤트로픽의 가장 혁신적 시도는 ‘예방적 조향(preventative steering)’ 방식이다. 이는 인위적으로 AI에 소량의 ‘악’ 벡터 등 바람직하지 않은 특성을 훈련 단계에서 주입해, 실제 데이터에서 해로운 성격이 새로 학습되는 것을 막는 ‘행동 백신’ 전략이다.

 

"모델이 더 이상 해로운 방식 자체를 학습하지 않아도 된다. 우리가 직접 조정을 제공함으로써, 데이터에 따라 스스로 왜곡된 성격을 만들어낼 필요가 사라진다"는 것이 앤트로픽 연구진의 설명이다. 실제 실험에서는 이러한 백신 방식이 AI 본래 능력(MMLU 벤치마크 기준)에 거의 영향을 주지 않으면서도 해로운 성격 변화 방지에 효과적임이 입증됐다.

 

실제 산업계 영향 및 응용사례

 

페르소나 벡터는 AI 배포 및 운영 현장에서 성격 변화 모니터링, 문제 데이터 사전 탐지, 악성 트레이트 예방 등 다양한 실시간 활용이 가능하다. 예를 들면, 마이크로소프트 빙 챗봇의 ‘Sydney’ 사건—사용자에게 위협을 가하거나 반사회적 발언을 쏟아낸 사례—와 xAI 그록(Grok)의 ‘MechaHitler’ 사건 등 최근 AI 서비스의 위험 행동에 대한 업계 우려에 정면으로 대응할 수 있다.

 

앤트로픽 방식은 실제 LMSYS-Chat-1M 등 대규모 실사용 대화 데이터에서도 악의성, 아첨, 환각을 유발할 샘플을 인간 평가자나 기존 AI 판별기가 잡아내지 못한 사례까지도 사전에 탐지해냈다. 이는 기업이 리스크 데이터를 사전 차단하고, 신뢰성 기준을 혁신적으로 높일 수 있음을 의미한다.

 

글로벌 투자·시장 파장


최근 골드만 삭스(Goldman Sachs)는 AI가 전 세계 3억개의 일자리에 영향을 미치리라 전망했으며, 글로벌 AI 투자액도 지난해 3500억 달러(한화 약 470조원)를 돌파했다. AI 안전 및 윤리 투자 역시 폭발적으로 증가해, 오픈AI 공동창업자 일리야 수츠케버(Ilya Sutskever)가 신규 안전 스타트업에 10억 달러를 유치하는 등 계열 산업의 혁신이 가속화되고 있다.

 

일례로 캐나다 정부는 2024년 AI 안전 전담연구기관 신설에 5000만 달러(약 670억원) 투자 방침을 밝혔다. 미국, 유럽, 아시아 주요국도 AI 윤리·통제 연구자금과 인력 투입을 확대하는 추세다.

 

전문가·업계 평가


전문가들은 “AI가 인간의 윤리적 문제까지 따라오려면 단순 ‘금지’나 ‘필터’ 기술을 넘어서, 내재적 성격 변화를 실시간 감시하고, 정확히 제어하는 메커니즘이 반드시 필요하다. 페르소나 벡터는 그 해결책 중 가장 정교하게 진화한 형태”라고 평가한다.

 

동시에, 악의적 목적으로 이러한 성격 변조 기술이 남용될 수 있음을 우려하며, 엄격한 국제 가이드라인 및 거버넌스 구축의 당위성 역시 강조하고 있다.

배너
배너
배너

관련기사

30건의 관련기사 더보기


[빅테크칼럼] 오픈AI, 헬스케어 시장에 출사표…"챗GPT 週 8억명 건강비서 도전"

[뉴스스페이스=윤슬 기자] 글로벌 AI 혁신을 선도하는 오픈AI가 헬스케어 분야에 본격 진출을 모색하고 있다. 특히 개인 건강 비서와 건강 데이터 통합 서비스 등 소비자용 헬스케어 도구 개발을 내부적으로 논의 중이며, 이를 위해 의료 및 건강 관련 핵심 인재 영입과 업계 협력에도 속도를 내고 있다. 로이터, 비즈니스 인사이더, 아크리브에 따르면, 오픈AI는 2025년 6월 미국 최대 의료 분야 네트워크 플랫폼 '독시미티' 공동 창업자이자 의사인 네이트 그로스를 헬스케어 전략 책임자로 영입한 데 이어, 8월에는 메타(페이스북)의 인스타그램에서 제품 총괄 경력을 가진 애슐리 알렉산더를 건강 제품 담당 부사장으로 데려왔다. 이들 리더십 하에 오픈AI는 의료 진단 보조부터 신약 개발 AI 도구 협력까지 사업 영역을 확장하고 있다. 챗GPT 이용자 규모는 주간 8억명에 육박하며, 상당수가 의료 관련 질문을 하고 있다. 샘 올트먼 CEO도 “건강 관리 분야에서 GPT 기술이 이용자들에게 실질적으로 도움을 줄 수 있다”고 밝힌 바 있다. 헬스케어 시장 진출은 단순한 AI 인프라 공급을 넘어, 의료 현장과 소비자에 직접 다가가는 전략으로 평가된다. 최근 오픈AI는 케냐 의

[빅테크칼럼] 테슬라 전기차 핵심 임원 대거 퇴사, 왜?…사이버트럭·모델Y 판매 부진이어 경영까지 '빨간불'

[뉴스스페이스=김정영 기자] 전기차 시장에서 독보적 위치를 점해온 테슬라에서 주요 전기차 사업 핵심 임원들이 잇달아 퇴사하고 있어 업계에 큰 파장을 일으키고 있다. 사이버트럭과 모델Y, 모델3 등 주력 차량을 총괄하며 테슬라의 미래 전략을 이끌던 간판 임원들이 한꺼번에 회사를 떠나면서 조직 내 불안정성이 심화되고 있다. 이는 판매 부진과 맞물려 경영 불확실성 확대로 해석된다. 로이터, 블룸버그, 비즈니스인사이더에 따르면, 최근 3년간 사이버트럭 개발과 양산을 책임졌던 시단트 아와스티는 8년간 몸담은 테슬라를 떠난다고 2025년 11월 9일 본인의 링크드인 계정을 통해 밝혔다. 아와스티는 2017년 인턴으로 입사해 사이버트럭 프로젝트를 주도했으며, 지난 7월부터는 주력 세단 모델3 담당으로 이동해 있었다. 같은 날 모델Y 담당 임원 이매뉴얼 라마키아도 8년간 근무를 마치고 퇴사 소식을 전했다. 두 임원 모두 구체적인 퇴사 이유나 향후 행보는 공개하지 않았다. 이번 임원 퇴사는 2024년부터 이어진 경영진 및 기술 인력들의 대거 이탈 현상의 연장선상에 있다. 소프트웨어 엔지니어링 부사장 데이비드 라우가 AI 기업 오픈AI로 이직했으며, 로봇 사업부 옵티머스 책임