[뉴스스페이스=김희선 기자] 아마존이 내부 AI 사용량 랭킹 대시보드 ‘키로랭크(KiroRank)’를 전격 폐지했다. 직원들이 순위를 끌어올리기 위해 인공지능(AI) 토큰 사용량을 의도적으로 부풀리는 ‘토큰맥싱(tokenmaxxing)’에 나서면서, AI 확산을 위한 인센티브 시스템이 오히려 비용 폭탄과 데이터 왜곡을 불러온 탓이다.
리더보드가 만든 ‘가짜 효율성’
파이낸셜 타임스에 따르면 아마존은 개발자용 AI 도구 ‘키로(Kiro)’의 도입을 독려하기 위해, 직원들의 AI 활동을 점수화해 순위를 매기는 내부 리더보드 ‘키로랭크’를 운영해왔다. 시스템은 직원별·팀별 토큰 사용량을 집계해 ‘AI 파워 유저’를 가시적으로 보여주는 구조였지만, 곧 목표와 수단이 뒤바뀌는 전형적인 ‘측정의 역설’을 드러냈다.
직원들은 코드 품질이나 실제 생산성과 무관한 사소한 업무에도 AI를 반복 호출하며 토큰을 태웠고, 필요 이상으로 긴 프롬프트와 컨텍스트를 억지로 붙여 넣는 방식으로 랭킹 점수를 끌어올린 것으로 전해졌다. 결국 ‘AI로 문제를 잘 푸는 사람’이 아니라 ‘AI를 많이 호출하는 사람’이 인정받는 구조가 되면서, 리더보드는 생산성 지표가 아닌 토큰 소각 순위표로 전락했다는 평가가 나왔다.
아마존 수석 부사장 데이브 트레드웰은 내부 공지를 통해 “AI를 ‘그냥 쓰기 위해’ 쓰지 말라”고 직원들에게 경고했고, 회사는 키로랭크를 “공식 승인 도구가 아닌 베타 실험”으로 규정하며 폐지 수순에 들어갔다. 대신 단순 토큰 사용량이 아닌 실제 배포·성과를 반영하는 ‘정규화된 배포(normalised deployments)’ 지표를 도입해, 양(量)이 아닌 질(質) 중심으로 AI 활용도를 측정하겠다는 방침을 밝혔다.
“토큰 던지기 경기”로 번진 실리콘밸리
이번 사례는 아마존만의 해프닝이 아니다. 포춘, 현지 테크 매체 보도를 종합하면 ‘토큰맥싱’은 이미 미국 빅테크 전반에 확산된 일종의 조직 문화로 자리 잡고 있다.
메타에서는 약 8만5000명의 직원을 토큰 사용량 기준으로 줄 세우는 내부 리더보드 ‘클로디노믹스(Claudeonomics)’가 만들어졌고, 한때 30일 기준 누적 사용량이 60조 토큰을 넘어서자 결국 서비스가 중단됐다는 보도가 나왔다. 메타의 한 엔지니어가 일주일 동안 2100억 개의 토큰을 소비했다는 사례까지 전해지며, “배포되지 않을 코드를 양산하고, 열 번 물어보면 될 것을 백 번 묻는 행태가 만연하다”고 지적한다.
심지어 아마존 내부에서 아예 토큰만 태우는 AI 에이전트 ‘메시클로(MeshClaw)’까지 등장했다. 해당 에이전트는 직원이 별다른 업무 없이도 AI 호출 로그를 쌓게 해주는 도구로, 비공식 개발자 30명 이상이 참여했고 수천 명이 매일 사용하고 있는 것으로 알려졌다. 디즈니 등 비(非)테크 기업과 스타트업에서도 비슷한 ‘토큰 경쟁’ 문화가 관찰된다는 분석도 함께 제시됐다.
이를 두고 D.A. 데이비슨의 기술 리서치 총괄 길 루리아는 “어떤 행동에 보상을 붙이면, 결국 그 행동 자체가 목표가 된다”며, 토큰맥싱을 “인센티브 설계 실패의 전형”이라고 평가했다. 이를 “생산성 연극(productivity theater)의 AI 버전”이라고 비판하며, 측정 지표가 곧 목표가 되는 굿하트의 법칙이 실리콘밸리에서 그대로 재현되고 있다고 꼬집는다.
7000억 달러 CAPEX 위에서 벌어지는 ‘낭비의 연극’
문제가 더 민감하게 받아들여지는 배경에는, 초거대 AI 투자를 둘러싼 비용 압박이 있다. 파이낸셜 타임스와 국내 경제지 보도를 종합하면 아마존, 마이크로소프트, 알파벳, 메타 등 미국 4대 빅테크의 2026년 합산 설비투자(CAPEX)는 7000억 달러에 육박할 것으로 추정되며, 일부 월가 리포트는 2027년에는 1조 달러를 넘어설 수 있다고 전망한다.
GPU·데이터센터 투자를 통해 막대한 고정비를 떠안은 상황에서, 토큰맥싱으로 인한 불필요한 추론(inference) 비용이 더해질 경우 기업은 이중의 비용 압박에 직면한다. 전문가들은 “추론 단가가 2~3년 새 최대 280배까지 떨어졌지만, 사용량 증가 속도가 그 이상으로 빨라져 총비용이 오히려 커지고 있다”며, "AI 토큰 경제에서 진짜 돈을 버는 쪽은 엔비디아·클라우드 인프라 사업자"라는 분석을 내놓기도 했다.
실제 아마존 내부에서도 “리더보드가 인사 평가에 반영되지 않는다”는 공식 입장과 달리, 직원들은 승진과 보너스를 의식하며 “AI를 최대한 많이 써야 한다는 엄청난 압박”을 느꼈다고 증언했다는 보도가 이어졌다. 워싱턴포스트·디인포메이션 등의 보도에 따르면 아마존은 ‘클래리티(Clarity)’라는 시스템을 통해 팀·직원별 AI 도구 사용량을 정교하게 추적하고 있으며, 이를 승진과 급여 인상에 활용하는 것으로 알려졌다.
메타 역시 올해 중순부터 도입할 ‘체크포인트(Checkpoint)’ 평가 시스템을 통해, AI를 활용해 생성한 코드의 양과 생산성 향상 정도를 수치화해 보상과 연동하겠다고 공언한 상태다. 마크 저커버그는 “AI 기반 성과를 입증하는 상위 20% 직원에게는 기본 보너스의 200%, 최상위 성과자에게는 300%를 지급하겠다”고 밝힌 바 있다. AI 사용량이 곧 인사 점수와 현금 보상으로 연결되는 구조가 만들어지면서, 토큰맥싱은 일탈이 아니라 구조적 유인에 의해 촉발된 합리적(?) 행동이라는 해석도 가능하다.
“양적 확산의 과도기” vs “측정 거버넌스 실패”
일각에서는 토큰맥싱을 “불가피한 과도기적 현상”으로 본다. 일부 매체는 “기업들이 단기 비용 증가를 감수하더라도, 일단 전 직원에게 AI를 많이 쓰게 해서 조직 학습과 업무 프로세스 변화를 이끌어내는 것이 장기적으로 유리하다는 판단”이라고 분석한다. 엔비디아 젠슨 황 CEO 또한 “직원들에게 AI 사용을 줄이라고 지시하는 것은 미친 짓”이라며, 내부에서 AI 사용 장려에 나설 것을 주문한 것으로 전해졌다.
반대로, 브런치 등 칼럼들은 “토큰맥싱은 AI 도입 초기의 ‘야근 문화’와 다르지 않다”며 비판 수위를 높였다. AI로 실제 비즈니스 가치를 창출하는 대신, 출력물과 토큰 사용량으로 ‘열심히 하는 척’만 하는 문화가 고착될 경우, AI는 생산성 향상 도구가 아니라 비용과 피로감을 키우는 또 다른 관리 수단으로 전락할 수 있다는 우려다.
아마존의 키로랭크 폐지는 이 두 가지 시각 사이에서 기업들이 어떤 선택을 해야 하는지 잘 보여준다. 사용량을 억제하자는 것이 아니라, “무엇을 어떻게 재느냐”를 다시 설계하겠다는 신호다. 토큰·호출 수 같은 단순 계량 지표 대신, 실제 서비스 배포, 코드 결함 감소율, 장애 복구 시간 단축, 매출·원가 개선 등 비즈니스 임팩트 중심의 정성·정량 지표를 결합해야 한다는 메시지다.
AWS는 이미 Bedrock·Converse API, 애플리케이션 인퍼런스 프로파일 등을 활용해 테넌트·부서·프로젝트별 모델 사용량과 비용을 정밀하게 태깅하고, 퀵사이트(QuickSight)를 통해 이를 시각화하는 비용 추적·거버넌스 아키텍처를 제시하고 있다. 아이러니하게도, 아마존은 외부 고객에게는 “정교한 AI 비용 관리·효율화 도구”를 팔면서, 내부에서는 그 반대 방향의 인센티브 시스템을 돌려온 셈이다.
이번 사건은 한국 기업들에게도 중요한 질문을 던진다. “직원들이 AI를 얼마나 많이 쓰고 있는가?”보다 먼저, “그 AI 사용이 실제로 어떤 성과를 내고 있는가?”, “우리가 만든 지표는 진짜 목표를 비추는가, 아니면 지표 자체가 목표가 되었는가?”라는 질문이다. 토큰맥싱의 유혹을 피해 가기 위해 필요한 것은 더 많은 AI 호출이 아니라, 더 정교한 측정과 인센티브 설계라는 점을, 아마존의 리더보드 폐지가 적나라하게 보여주고 있다.























































