2025.08.01 (금)

  • 흐림동두천 29.3℃
  • 흐림강릉 30.6℃
  • 흐림서울 32.3℃
  • 구름많음대전 30.7℃
  • 구름조금대구 32.7℃
  • 구름많음울산 30.7℃
  • 구름조금광주 31.8℃
  • 맑음부산 32.0℃
  • 구름조금고창 32.7℃
  • 구름조금제주 31.6℃
  • 흐림강화 30.0℃
  • 흐림보은 29.2℃
  • 구름많음금산 31.4℃
  • 구름조금강진군 31.5℃
  • 맑음경주시 32.0℃
  • 맑음거제 31.0℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

90건의 관련기사 더보기


[빅테크칼럼] MIT "양자역학에 관한 아인슈타인 예측 틀렸다" 확인…아인슈타인-보어 ‘빛의 이중성’ 논란, 100년 만에 마침표

[뉴스스페이스=이종화 기자] 미국 MIT(Massachusetts Institute of Technology) 물리학자들은 알베르트 아인슈타인과 닐스 보어 사이에서 거의 한 세기 동안 이어져 온 빛의 근본적 성질에 관한 논쟁을 해결했으며, 양자역학에 관한 아인슈타인의 예측이 잘못되었음을 확인했다. 2025년 7월, MIT 물리학자들이 발표한 역사적인 연구가 100년 가까이 이어진 ‘빛의 양자 이중성’ 논란에 종지부를 찍었다. 이 연구는 Physical Review Letters에 게재됐다. 또 빛의 파동성과 입자성에 관한 아인슈타인과 보어의 논쟁에 결정적인 해답을 제시했다. 1927년 아인슈타인은 “광자가 슬릿을 통과하며 나뭇가지를 스치는 새처럼 미세한 흔적을 남길 수 있다면, 우리는 빛의 입자성과 파동성을 동시에 측정할 수 있을 것”이라고 주장했다. 그러나 닐스 보어는 하이젠베르크 불확정성 원리에 근거해 “광자의 경로를 측정하려는 모든 시도는 파동 간섭 무늬 자체를 파괴한다”고 반박했다. MIT 연구진의 실험은 보어의 주장이 옳았음을 현대 양자역학의 가장 정밀한 방식으로 증명했다. MIT는 1만개 이상의 초저온 원자를(섭씨 -273.15도 바로 위인 마이크