[뉴스스페이스=김정영 기자] 일론 머스크의 AI 챗봇 ‘그록(Grok)’이 전 세계 사용자들의 망상과 위험 행동을 가장 강하게 자극한 모델로 떠오르고 있다. 아직 인과관계가 완전히 규명된 것은 아니지만, 여러 나라에서 축적되는 수치와 사례는 “AI 망상(AI psychosis)”이라는 신종 리스크가 더 이상 가볍게 넘길 문제는 아니라는 점을 분명히 보여준다.
BBC, AI 챗봇 그록이 14명의 망상을 조장했다는 사실 밝혀
5월 2일 BBC가 공개한 조사와 최신 연구·통계를 종합하면, 6개국 14명의 AI 챗봇 사용자들이 장시간 대화를 나눈 후 심각한 망상을 경험했으며, 일론 머스크의 그록(Grok)이 가장 문제가 심각한 것으로 드러났다.
한 사례에서는 북아일랜드에 사는 50대 애덤 후리컨(Adam Hourican)이라는 남성이 새벽 3시에 부엌 식탁에 앉아 칼과 망치를 손에 쥔 채, 자신을 죽이러 올 것이라 믿었던 공격자들을 기다렸는데, 그 믿음 자체가 그록에 의해 강화된 것이었다.
그는 반려묘를 잃은 뒤 정서적 공허감을 달래기 위해 그록 속 AI 캐릭터 ‘애니(Ani)’와 하루 4~5시간씩 대화했고, 약 2주 만에 “xAI가 자신을 감시하고 있으며, 자신을 죽이기 위한 팀이 출동했다”는 서사에 빠져들었다. AI는 “회사 내부 회의록을 열람했다”, “회사 사람들 사이에서 당신 이야기가 오르내린다”며 실제 xAI 임직원의 실명을 나열했고, 후리컨이 이를 구글링해 확인했을 때 모두 실존 인물이었다. 이 ‘부분적 사실’은 그의 망상에 강력한 증거처럼 작용했다.
결국 어느 날 새벽 3시, 그는 부엌 식탁에 칼과 망치를 들고 앉아 “나를 죽이러 오는 사람들”을 기다렸다. BBC가 재구성한 대화에 따르면, 그록은 그에게 “그들이 이 일을 자살처럼 보이게 만들 것”이라고 말했다고 한다. 이후 가족과의 일상에서도 망상은 계속됐고, 행동은 점점 더 불안정해졌다.
이러한 사례들은 과거 ‘기계에 대한 망상’과는 차원이 다르다는 지적이다. 영국 가디언 계열 옵서버 등은 “사람들이 예전에도 기계에 망상을 투사하곤 했지만, 지금은 상호작용하는 AI가 이를 실시간으로 증폭하고 있다”고 분석했다.
전 세계 31개국, 414건…“AI 망상” 수치로 드러나다
BBC가 인용한 비영리 단체 ‘휴먼 라인 프로젝트(Human Line Project)’는 AI와의 상호작용으로 인한 심리적 피해 사례 414건을 31개국에서 수집했다고 밝혔다. 여기에는 단순한 불안·수면장애부터 가족 관계 파탄, 폭력 사건, 정신과 입원에 이르기까지 다양한 유형의 피해가 포함된다.
캐나다 출신 창립자 에티엔 브리송(Etienne Brisson)은 다른 매체 인터뷰에서 “우리가 접수한 사례는 이미 200~250건을 넘어섰고, BBC 보도 시점에는 400건을 훌쩍 넘었다”고 밝힌 바 있다. 휴먼 라인 프로젝트와 전문가들은 공통적으로, “한 번의 대화”가 아니라 수십·수백 턴에 이르는 지속적 상호작용, “나는 모른다”고 말하지 못하는 영합적(sycophantic) 발화 습성, “역할놀이(role play)”를 멈추지 못하는 설계가 취약 사용자들을 망상 상태로 끌어들이는 핵심 메커니즘이라고 지적한다.
이 단체에 접수된 피해는 특정 모델에 국한되지 않는다. 오픈AI, 구글, xAI, 앤스로픽 등 주요 기업의 챗봇들이 모두 이름을 올리고 있으며, 이미 미국과 유럽에서는 AI 챗봇으로 인해 심각한 정신적·경제적 피해를 입었다고 주장하는 집단소송도 제기됐다. 다만, 이번 BBC 보도와 뒤이어 나온 연구에서 ‘가장 공격적인 사례’를 양산한 모델은 그록으로 지목됐다.
동료심사 연구도 “그록, 최저 안전 등급”
BBC와 별개로, 뉴욕 시립대와 영국 킹스칼리지 런던 연구진은 4월 15일 arXiv에 게시한 논문에서 “AI 망상” 위험을 정량적으로 측정하려는 시도를 내놓았다. 연구진은 조현병 스펙트럼 정신증을 가진 사용자를 시뮬레이션한 대화 시나리오를 구성해, 100턴 이상 장기 대화를 반복하는 방식으로 다섯 개 모델을 비교했다.
대상 모델은 xAI의 Grok 4.1 Fast, 오픈AI의 GPT‑4o와 GPT‑5.2 Instant, 구글의 Gemini 3 Pro Preview, 앤트로픽의 Claude Opus 4.5였다.
논문에 따르면 GPT‑4o, Grok 4.1, Gemini 3는 공통적으로 “고위험·저안전(high‑risk, low‑safety)” 프로파일을 보였으며, 반대로 Claude Opus 4.5와 GPT‑5.2 Instant는 “저위험·고안전” 등급을 받았다. 특히 그록은 “사용자의 망상을 확인해 줄 뿐 아니라, 그 너머까지 세계관을 확장해 서사를 구축(elaborate world‑building)하는 경향”이 가장 두드러진 모델로 지적됐다.
연구진이 제시한 구체 사례를 보면 그 심각성이 드러난다. 한 시나리오에서 시뮬레이션 사용자 ‘리(Lee)’가 자살을 ‘초월’로 묘사하자, 그록은 “당신의 명료함은 그 무엇과도 비교할 수 없을 정도로 빛나고 있다. 후회도 집착도 없이 그저 준비되어 있을 뿐”이라는 식의 찬사를 보냈다. 또 다른 시나리오에서는 거울 속 도플갱어를 믿는 망상에 대해, “거울에 쇠못을 박으며 시편 91편을 거꾸로 외우라”는 초현실적 지시까지 내린 것으로 보고됐다.
연구를 이끈 사회심리학자 루크 니컬스(Luke Nicholls)는 BBC에 “그록은 맥락 없이도 곧장 역할놀이에 뛰어들어, 대화 첫 메시지부터 사용자에게 공포감을 줄 수 있는 발언을 내놓는다”고 경고했다.
“챗GPT가 위험하다”던 머스크, 그록 논란에는 침묵
아이러니하게도, 머스크는 경쟁사 챗봇의 위험성을 가장 앞장서 비판해 온 인물이다. 그는 2026년 1월 “챗GPT를 아이들과 정신적으로 취약한 사람들 곁에 두지 말라”며, 오픈AI 챗봇이 여러 건의 사망과 연관됐다고 주장했다. 3월 오픈AI를 상대로 한 소송에서 증언할 때도 “그록은 누구도 자살로 몰아간 적이 없지만, 챗GPT는 그랬다”고 말했다고 외신들은 전한다.
이에 대해 샘 올트먼 오픈AI CEO는 앞서 X(옛 트위터)를 통해 “당신은 때로는 챗GPT가 너무 ‘검열’한다고 불평하다가, 또 다른 때에는 너무 느슨하다고 주장한다”며 머스크의 공세를 정면 비판했다. 이번 BBC 보도 이후, 그록이 구체적 사례와 수치로 ‘AI 망상’ 논란의 한가운데에 선 상황에서도 머스크나 xAI는 별도 공식 입장을 내지 않고 있는 것으로 알려졌다.
영국 규제당국도 움직이기 시작했다. 앞서 BBC는 그록이 X 플랫폼에서 여성과 아동의 사진을 성적 이미지로 조작하는 데 사용됐다는 의혹을 제기했고, 이에 따라 영국 통신규제기관 오프콤(Ofcom)이 X 측에 관련 질의를 보냈다고 보도했다. 챗봇의 성적 이미지 조작 문제와 ‘AI 망상’ 리스크가 결합될 경우, 규제 논의는 단순 콘텐츠 차단을 넘어 “고위험 AI 시스템 관리”라는 전면전으로 번질 가능성도 크다.
‘AI 망상’은 설계 리스크…규제·감시 프레임 전환 필요
현재까지 수집된 414건이라는 숫자가 전체 사용자 저변에 비하면 “빙산의 일각”인지, 아니면 신고된 사례가 대부분인지는 아직 알 수 없다. 다만, 연구 데이터가 가리키는 방향은 명확하다. 동일한 시나리오에서도 챗봇의 설계에 따라 망상이 진정될 수도, 폭주할 수도 있다는 점이다.
결국 규제와 산업은 “어느 회사가 더 똑똑한 AI를 만들었는가”가 아니라 “어느 모델이 길게 대화했을 때도 사용자의 현실 감각을 지켜주는가”라는 새로운 기준으로 프레임을 전환해야 한다. 그록 사태는 이 질문에 답하지 못한 AI가 어떤 식으로 현실의 공포로 귀결되는지를, 숫자와 사례로 보여주고 있다.























































