2026.04.29 (수)

  • 맑음동두천 18.9℃
  • 구름많음강릉 17.9℃
  • 구름많음서울 19.9℃
  • 흐림대전 17.4℃
  • 흐림대구 18.8℃
  • 흐림울산 15.7℃
  • 흐림광주 17.3℃
  • 흐림부산 19.0℃
  • 흐림고창 16.5℃
  • 흐림제주 15.8℃
  • 맑음강화 18.7℃
  • 흐림보은 16.3℃
  • 흐림금산 18.4℃
  • 흐림강진군 17.4℃
  • 흐림경주시 18.2℃
  • 흐림거제 17.8℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI

[뉴스스페이스=이승원 기자] 미국 시사주간지 TIME이 2026년판 ‘가장 영향력 있는 AI 기업 10곳’을 발표하면서 바이트댄스·알리바바·즈푸(Zhipu) AI 등 중국 기업 3곳을 서방 7개 빅테크와 같은 반열에 올려놓자, 글로벌 AI 패권 지형이 본격적인 다극 체제로 재편되고 있다는 평가가 힘을 얻고 있다. 단순 모델 벤치마크보다 폭넓은 사회적·기술적 영향력을 기준으로 선정된 이번 명단은, 중국 AI 산업에 대한 글로벌 인식이 달라지고 있음을 상징적으로 보여준다. 타임이 꼽은 ‘AI 빅10’…中 3곳, 美 6곳, EU 1곳 TIME이 새로 신설한 ‘TIME100 Companies: Industry Leaders – AI 부문’ 명단에는 오픈AI, 알파벳(구글), 아마존, 메타, 앤트로픽, 미스트랄 AI, 허깅페이스와 함께 바이트댄스, 알리바바, 즈푸 AI가 이름을 올렸다. 이 리스트는 모델 성능 점수보다는 산업 전반에 미치는 영향력, 기술 발전 방향, 사회·정치적 파급력 등을 종합적으로 반영한 것이 특징이다. 단순 벤치마크가 아니라 “AI로 무엇을 바꾸고 있는가”를 기준으로 삼으면서, 그동안 미국·유럽 중심 서사에 가려졌던 중국 AI 기업의 존재감을 전

[빅테크칼럼] 펜실베이니아주립大, 복근이 뇌의 수압 펌프 역할 …"걷기만 해도 뇌 속 노폐물 씻어내는 ‘유압 펌프’ 있었다"

[뉴스스페이스=이현주 기자] 펜실베이니아주립대 연구진이 복근 수축이 뇌를 미세하게 움직여 뇌척수액을 순환시키고, 이 과정에서 뇌 속 노폐물을 씻어내는 ‘수압 펌프’ 역할을 한다는 사실을 동물실험으로 제시했다. 뇌와 장이 혈관과 액체 역학으로 직접 연결돼 있다는 이 발견은 “가벼운 움직임만으로도 뇌 건강에 도움이 된다”는 기존 역학 연구에 구체적 물리·생리학적 근거를 더하는 결과다. 즉 복근 수축이 수압 펌프처럼 작용해 척수와 연결된 혈관을 압박하고, 뇌가 두개골 안에서 미세하게 흔들리도록 만든다. 이 움직임이 뇌척수액을 뇌 표면으로 흘려보내 알츠하이머병 등 신경퇴행성 질환과 관련된 유해한 신경 노폐물을 씻어낼 수 있다는 것을 밝혀냈다. 복근 수축이 만든 ‘미세 뇌 흔들림’ 연구는 네이처 뉴로사이언스(Nature Neuroscience)에 게재됐으며, 패트릭 드류(Patrick Drew)가 이끄는 펜실베이니아주립대 팀이 중심이 됐다. 연구진은 쥐의 복부에 근전도(EMG) 전극을 이식해 복근이 수축하는 시점과 뇌의 미세 움직임을 정밀 계측한 결과, 뇌의 움직임이 복근 수축보다 수십 밀리초 뒤에 일관되게 따라오는 패턴을 포착했다. 이 과정에는 복강과 척추관을 잇는

[빅테크칼럼] '메타의 마누스 20억 달러 인수 불허'한 중국의 속내…‘싱가포르 워싱’ 정조준 "기술 민족주의 등장"

[뉴스스페이스=이승원 기자] 중국이 메타(Meta)의 인공지능(AI) 스타트업 마누스(Manus) 인수를 공식 불허하며, 20억달러(약 3조원) 규모의 ‘빅딜’이 미·중 기술패권 전면전에 휘말렸다. 힘들게 키운 자국 AI 기술을 베이징의 영향권 안에 묶어두기 위한 단호한 조치라는 분석이다. 블룸버그와 로이터에 따르면, 4월 27일 중국 국가발전개혁위원회(NDRC)는 외국인투자안전심사 사무실 명의로 “법에 따라 마누스 프로젝트 인수에 대해 투자 금지 결정을 내린다”며 “당사자에게 인수 거래 철회를 요구한다”고 밝혔다. 2025년 12월 메타가 마누스 인수 계획을 발표한 지 불과 4개월여 만에 ‘거래 철회’라는 초강수를 던진 것이다. 메타 측 대변인은 논평 요청에 즉각적인 답변을 하지 않았다. ‘제2의 딥시크’ 20억달러 딜, 4개월 만에 막힌 이유 마누스는 2022년 설립된 중국계 AI 스타트업으로, 심층 리서치 리포트 작성과 프레젠테이션 슬라이드 제작 등 복합적 고난도 업무를 수행하는 AI 에이전트를 앞세워 ‘제2의 딥시크’로 불리며 급부상했다. 2025년 중반에는 본사를 중국에서 싱가포르로 옮기고 ‘Butterfly Effect Pte. Ltd.’라는 법인