[빅테크칼럼] 구글, 비공개 AI 모델 ‘볼트젬마(VaultGemma)’ 공개…프라이버시 보호와 AI 성능 '새 기준'

  • 등록 2025.09.14 13:01:32
크게보기

 

[뉴스스페이스=김시민 기자] 구글 AI 리서치와 딥마인드는 10억 매개변수 규모의 차등 프라이버시(Differential Privacy, DP)를 완전 적용해 처음부터 학습한 오픈소스 언어모델 ‘볼트젬마(VaultGemma)’를 9월 13일(현지시간) 공식 발표했다.

 

이는 지금까지 공개된 모델 중 가장 큰 규모의 DP 적용 LLM(대규모 언어 모델)으로, AI 민감 정보 보호·암기 공격 방지의 새로운 기준을 제시한다.

 

research.google, MarkTechPost AI Media Inc, VaultGemma: A Differentially Private Gemma Model, Huggingface, therift.ai, StartupHub.ai, Best AI Tools, Theme Bazar BD에 따르면, 볼트젬마는 Gemma 2 모델과 동일한 13조 토큰 규모 데이터셋을 활용했으며, 웹문서·코드·과학 논문 등 영어 텍스트를 주로 학습 대상으로 삼았다.

 

차등 프라이버시 기법의 핵심인 DP-SGD(확률적 경사 하강법에 노이즈 추가 및 그래디언트 클리핑 결합)를 활용해, 훈련 데이터 내 개별 레코드가 모델에 미치는 영향을 극소화하는 공식적인 시퀀스 수준 프라이버시 보장(ε ≤ 2.0, δ ≤ 1.1e-10)을 달성했다. 이 과정은 2048대의 TPUv6e 클러스터를 활용해 대규모 병렬처리로 진행됐다.

 

구글 연구팀은 최초로 차등 프라이버시 학습에 특화된 스케일링 법칙을 개발, 컴퓨팅 자원과 프라이버시 수준, 모델 성능 간의 균형을 과학적으로 예측하고 최적화했다. 이 덕분에 볼트젬마는 DP 기반 훈련에서 흔히 발생하는 학습 불안정성 문제를 완화하고, 효율적인 자원 배분과 훈련 시간 단축이 가능해졌다.

 

다만 성능 측면에서 볼트젬마는 비공개 모델 대비 어느 정도 격차가 있다. 대표적으로 학술 벤치마크 ARC-C 점수는 볼트젬마가 26.45점, Gemma-3 1B는 38.31점으로, 약 5년 전 비공개 GPT-2 수준의 성능을 보인다. PIQA, TriviaQA 등 여러 평가에서 성능 저하는 존재하나, 이는 강력한 프라이버시 보장과 맞바꾼 실용적 타협으로 분석된다. 특히 암기율 분석 실험에서는 훈련 데이터의 구체적 문장 재생산이 전혀 발견되지 않아 볼트젬마의 프라이버시 보호 효과가 실증됐다.

 

구글은 볼트젬마 모델 가중치와 기술 보고서, 연구 논문을 공개해 연구자와 개발자가 직접 접근하고 실험할 수 있도록 했다. 이는 민감 분야(의료, 금융, 정부 등)에서 AI 활용 시 개인정보 보호 문제를 해소하고, 글로벌 데이터 규제 강화에 대응하려는 전략적 의도로 풀이된다. 경쟁사들도 이와 같은 프라이버시 중심 AI 개발에 속도를 내고 있어, AI산업 전반에 의미 있는 파급 효과를 예고한다.

 

이번 볼트젬마 출시는 AI 학계와 산업계에서 프라이버시 보호를 필수로 요구하는 환경 변화 속에서도, 강력한 AI 능력과 보안성을 함께 달성할 수 있음을 입증한 중요한 이정표로 평가된다. 구글이 공개한 차등 프라이버시 스케일링 법칙은 후속 연구와 개발에 있어 핵심 가이드라인 역할을 할 전망이다.

김시민 기자 newsspace@naver.com
저작권자 © 뉴스스페이스(NewsSpace) 무단전재 및 재배포 금지

77건의 관련기사 더보기





서울시 서초구 사평대로 140 코웰빌딩 B1, 318호 | 대표전화 : 0505-546-0505 | 팩스 : 0505-548-0505 제호 : 뉴스스페이스(NewsSpace) | 등록번호 : 서울 아 54727 | 등록일 : 2023-03-07 | 발행일 : 2023-03-07 | 발행·편집인 : 이현주 | 청소년보호책임자 : 김정영 Copyright © 2024 뉴스스페이스(NewsSpace). All rights reserved.