
[뉴스스페이스=김정영 기자] 워싱턴포스트(WP)가 미국 공공·대학도서관 사서들과 함께 AI 검색 도구의 답변 정확도를 전격 비교 평가한 결과, 구글의 ‘AI 모드’가 100점 만점에 60.2점으로 1위를 기록했다.
이번 평가는 GPT-5 기반 오픈AI의 챗GPT(55.1점), 퍼플렉시티(51.3점), 빙 코파일럿(마이크로소프트), 클로드(앤스로픽), 메타AI, 일론 머스크의 그록 등 총 9개 인공지능을 대상으로 30가지 고난도 질의에 대해 900건 답변을 평가하는 방식으로 집계됐다.
세부 분야별로는 구글 AI 모드가 퀴즈(일반정보)와 최신 사건 부문에서 가장 두각을 나타냈고, 전문자료 탐색 부문에서는 MS 빙 코파일럿이, 이미지 인식 부문에서는 퍼플렉시티가 각각 우위를 보여 각 AI마다 특화 분야가 드러났다.
하위권에는 ‘그록3’(40.1점), ‘메타AI’(33.7점) 등이 자리했으며, WP는 “AI가 여전히 정보 최신성·신뢰성 판단과 비판적 사고 대체에는 한계가 있다”고 지적했다.
2025년 상반기 전 세계 AI 검색엔진 월간 방문자는 챗GPT 38억회, 딥시크(DeepSeek) 2.78억회, 구글 제미나이(Google Gemini) 2.68억회, 퍼플렉시티(Perplexity AI) 1억회로 집계됐으며, GPT-5, 구글 AI 모드, 퍼플렉시티 등 주요 도구는 인간의 퀴즈·전문검색·이미지 인식 대응력을 중심으로 진화를 거듭하고 있다. 실시간 웹 검색, 출처 인용 등의 특화 기능으로 학생·전문직에서 Perplexity AI가 특히 주목받고 있다는 평가도 나온다.
WP 평가는 실사용에서 AI 도구별로 ‘정확도(accuracy)’와 ‘실제 활용도’의 차이가 있음을 드러냈는데, 예를 들어 챗GPT 5와 구글 AI 모드는 평균 80% 내외의 논리 정확도를 보였다. 사용자는 AI 도구의 답변을 맹신하기보단 “각각의 강점·약점을 파악하고, 항상 출처와 최신성, 비판적 검증 과정을 거쳐야 한다”는 현장의 목소리가 높았다.