대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’ 아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼 정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

관련기사

이 시각 추천뉴스

[빅테크칼럼] AI가 얼굴 노화 속도로 암 생존율 예측...2년 간격 사진 분석시 정확도 급상승

[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI

[빅테크칼럼] 오픈AI 악재로 기술주 급락…신흥시장 랠리 꺾은 두 개의 공포 “AI의 제동, 이란의 불씨”

[빅테크칼럼] 펜실베이니아주립大, 복근이 뇌의 수압 펌프 역할 …"걷기만 해도 뇌 속 노폐물 씻어내는 ‘유압 펌프’ 있었다"

[빅테크칼럼] 머스크의 '금융 슈퍼앱' X머니, 연 6% 금리 무기로 핀테크 판도 재편 시동

[빅테크칼럼] '메타의 마누스 20억 달러 인수 불허'한 중국의 속내…‘싱가포르 워싱’ 정조준 "기술 민족주의 등장"

[빅테크칼럼] 올트먼 "AGI 이후 일자리 사라지고 경제 붕괴" 경고…의제선점 넘어 '규제설계 플레이어' 전략

[빅테크칼럼] '예측 플랫폼' 폴리마켓·칼쉬를 브라질 정부는 왜 차단했을까…“도박이냐 금융이냐” 경계의 시험대

[빅테크칼럼] 구글의 대담한 베팅 "앤트로픽에 최대 400억 달러 투자"…빅테크들, 앤트로픽에 러브콜 보내는 이유

많이 본 뉴스

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[빅테크칼럼] AI, 인간 수학자의 ‘성역’ 넘봤나… GPT-5.4의 '에르되시 난제' 해결 주장의 실체

[랭킹연구소] 연령대별 한국인이 선호하는 모바일 앱?…1020 커뮤니티·콘텐츠, 3040 커리어·재테크, 50대이상 쇼핑·생활편의

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[The Numbers] 함샤우트글로벌, 매출 15% 감소·순이익 37% 급감 '어닝쇼크'… 9.8억 회계오류·특수관계자 대여금 4배 급증·부채비율 425% '리스크'

[The Numbers] 다이닝브랜즈그룹(BHC), 영업이익률 27%·당기순이익 40% 급증…1408억 배당잔치·7건(192억) 법적소송·종속사 손상차손 13억 '지배구조의 부끄러운 민낯'

[랭킹연구소] 옴디아 ‘삼성 1위' vs 카운터포인트 '애플 1위’…1분기 다른 스마트폰 세계지도, 진짜 1위는?

[지구칼럼] “지구는 25억 인구만 감당 가능”…세계 83억명 ‘생태 초과’로 경고등

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[랭킹연구소] 2025년 1000大기업 영업이익 189조·순익 1위 27년 만에 교체…SK하이닉스>삼성전자>한국전력>기아>KB금융>현대차>기업은행>SK이노베이션>신한지주>삼성화재 順

[The Numbers] 5조 매출 배민(우아한형제들)의 그늘…수익성 역주행·5700억 본사 송금·공정위 칼날 '삼중고'

[빅테크칼럼] AI 거인 앤트로픽, 클로드 코드 51만 줄 소스 대유출… 연속 보안 실책에 업계 충격

[The Numbers] 메가커피 운영 엠지씨글로벌, 매출 6469억이지만 '속빈 강정'…그 뒤엔 772억 '오너 배당잔치'·1057억 차입금 폭탄·해외법인 적자누적

[이슈&논란] NYT, 비트코인 창시자 사토시 나카모토로 아담 백 지목…증거는 쌓였지만 결론은 없다

[The Numbers] 라이나생명, 영업이익 26% 급감에도 美 본사에 3000억 '배당 잔치'… 자본유출 논란 '도마 위'·법적소송 29건

[The Numbers] 피알원, 매출 6.2% 급감에 영업이익 45% 곤두박질…오너 일가 연계 특수관계자 거래 580억원 '내부거래 그물망' 촘촘

[The Numbers] 테슬라코리아, 매출 3조원 돌파 2배급증에도 '한정의견' 낙인…배당성향 175%·세무추징 251억·이전가격 조정 645억의 민낯

[The Numbers] 야놀자 품 '놀유니버스', 매출 167% 급증에도 짙어진 '리스크'…부채비율 222%·유동성악화 등 재무 '빨간불'·3건 법적소송 53억

[The Numbers] 농심켈로그, 매출 정체·이익 급감에도 ‘순이익 90%’ 배당에 ‘기술료·수수료’까지 본사行…"한국 법인은 현금 인출기"

[랭킹연구소] 500대 기업 대표이사 거주지 순위, 디에이치퍼스티어아이파크>나인원한남>래미안퍼스티지>한남더힐>동양파라곤>레이크팰리스>반포자이>브라이튼여의도>LG한강자이>올림파크포레온>판교푸르지오그랑블 順

[The Numbers] 제주신화월드, 영업손실 지속·부채비율 악화 '흔들'…1.3조 결손금에 6건 소송·차입금 '부담'에 경영진 고액보상·본사로열티 '빈축'

[The Numbers] 케이피알(KPR), 매출 353억·영업이익률 0.9% '수익성 적신호'…쥐꼬리 이익·현금흐름 악화에 오너일가 '배당 논란'

[The Numbers] 귀뚜라미홀딩스, 순이익 70% 증발·3628억 '폭탄배당'의 민낯…재무성적 빨간불·579억 특수관계자 거래·69억 소송·종속기업 다수 적자 '첩첩산중'

[이슈&논란] ‘평균 7억→13억’ 하이닉스 성과급, K-칩스 세제와 사회공유 '논란'…"성과는 기업 몫, 리스크 헤지는 세제 몫, 불합리"

[The Numbers] 성원애드피아, 매출 1000억원대 방어·순이익 19% 급감…오너일가 배당 3배 ‘껑충’ 특수관계자 자금대여·소송 '리스크'

[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[The Numbers] 호반건설, 매출 35% 급감에 PF 부실·대손상각 2380억 '직격탄'…오너일가 245억 배당잔치·소송 99건 1600억·특수관계자 자금 '퍼주기'

[랭킹연구소] 1년새 임직원수 증가기업 순위, TOP20…SK하이닉스>한화오션>기아>삼양식품>LIG넥스원>한화손해보험>한화에어로>삼성중공업>네이버>CJ프레시 順

[이슈&논란] 비트코인 개발자들, 양자 컴퓨터 위협에 사토시 시대 코인 동결 제안…소유권과 보안 사이 '줄타기'

[빅테크칼럼] “가짜 오픈AI 앱도 진짜처럼”…북한發 Axios 공급망 공격, macOS 인증서까지 영향 미쳐

[The Numbers] 본아이에프, 매출 3000억 돌파·영업이익 20% 급감…오너 일가 '배당 잔치'·특수관계자 자금 지원에 '속빈 강정'

[The Numbers] 정용진·RM·홍라희 침대 '바이스프링(인퍼니스)', 매출 18% 급감에 영업이익 반토막…영업이익 62%, 대표에게 지급 '오너 사익'·주식단기 투기성 거래 '경고등'

[The Numbers] 배스킨라빈스·던킨도너츠(비알코리아), 영업적자 지속에 77억 로열티·7건 소송(82억) '삼중고'에도 오너 배당금 18% 올렸다

[The Numbers] '이차돌' 운영사 다름플러스, 감사인 의견거절·회생절차 속 '완전자본잠식'… 부채총계 192억에 현금은 1440만원·공정위 등 소송도 3건 '첩첩산중'

[랭킹연구소] 한국 그룹 총수 주식재산 순위…이재용>서정진>정의선>정몽준>김범수>방시혁>최태원>조현준>이동채>이재현 順

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가