Gemma 4 모델 개요

Gemma는 생성형 인공지능 모델 제품군으로, 질의 응답, 요약, 추론 등 다양한 생성 작업에 사용할 수 있습니다. Gemma 모델은 공개 가중치와 함께 제공되며 책임감 있는 상업적 사용을 허용하므로 자체 프로젝트와 애플리케이션에서 모델을 조정하고 배포할 수 있습니다.

Gemma 4 모델 제품군은 특정 하드웨어 요구사항에 맞게 조정된 4가지 고유한 아키텍처를 포함합니다.

  • 소형: 초소형 모바일, 에지, 브라우저 배포 (예: Pixel, Chrome)를 위해 빌드된 2B 및 4B 유효 매개변수 모델입니다.
  • Dense: 서버급 성능과 로컬 실행 간의 격차를 해소하는 강력한 310억 개의 매개변수 밀도 모델입니다.
  • Mixture-of-Experts: 높은 처리량과 고급 추론을 위해 설계된 매우 효율적인 26B MoE 모델입니다.
  • 통합: 멀티모달 작업을 위한 120억 개의 파라미터 인코더 무료 모델로, 비전 및 오디오 인코더를 입력의 직접 선형 투영으로 대체했습니다.

KaggleHugging Face에서 Gemma 4 모델을 다운로드할 수 있습니다. Gemma 4에 관한 자세한 기술 정보는 모델 카드를 참고하세요. 이전 버전의 Gemma 핵심 모델도 다운로드할 수 있습니다. 자세한 내용은 이전 Gemma 모델을 참고하세요.

Kaggle에서 다운로드 Hugging Face에서 다운로드

기능

  • 추론: 이 제품군의 모든 모델은 구성 가능한 사고 모드를 갖춘 고성능 추론기로 설계되었습니다.
  • 확장된 멀티모달: 다양한 가로세로 비율과 해상도 지원 (모든 모델), 이미지, 텍스트를 처리하고 동영상, 오디오 (E2B, E4B, 12B 모델에서 기본적으로 제공)를 처리합니다.
  • 컨텍스트 윈도우 증가: 소형 모델은 128,000개의 컨텍스트 윈도우를 지원하고 중형 모델은 256,000개를 지원합니다.
  • 향상된 코딩 및 에이전트 기능: 코딩 벤치마크가 크게 개선되었으며, 기본 제공되는 함수 호출 지원을 통해 매우 유능한 자율 에이전트를 지원합니다.
  • 네이티브 시스템 프롬프트 지원: Gemma 4는 시스템 역할에 대한 내장 지원을 도입하여 더 구조화되고 제어 가능한 대화를 지원합니다.
  • 멀티 토큰 예측: 모든 Gemma 4 모델(E2B, E4B, 12B, 31B, 26B A4B)에는 추측 디코딩을 위한 전용 초안 모델이 포함되어 있어 품질 손실 없이 추론 속도를 크게 높일 수 있습니다.

매개변수 크기 및 양자화

Gemma 4 모델은 E2B, E4B, 12B, 31B, 26B A4B의 5가지 파라미터 크기로 제공됩니다. 모델은 기본 정밀도 (16비트) 또는 양자화를 사용하여 더 낮은 정밀도로 사용할 수 있습니다. 다양한 크기와 정밀도는 AI 애플리케이션의 일련의 절충안을 나타냅니다. 파라미터와 비트 수가 높은 모델 (정밀도 높음)은 일반적으로 성능이 더 뛰어나지만 처리 주기, 메모리 비용, 전력 소비 측면에서 실행 비용이 더 많이 듭니다. 파라미터와 비트 수가 적은 모델 (정밀도가 낮음)은 기능이 적지만 AI 태스크에 충분할 수 있습니다.

Gemma 4 추론 메모리 요구사항

다음 표에는 각 크기의 Gemma 4 모델 버전으로 추론을 실행하는 데 필요한 대략적인 GPU 또는 TPU 메모리 요구사항이 자세히 나와 있습니다.

매개변수 BF16 (16비트) SFP8 (8비트) Q4_0 (4비트) 모바일 모바일 (텍스트 전용)
Gemma 4 E2B 11.4 GB 5.7 GB 2.9 GB 1.1 BG 0.84 GB
Gemma 4 E4B 17.9 GB 8.9 GB 4.5 GB 2.5 GB 2.2 GB
Gemma 4 12B 26.7 GB 13.4 GB 6.7 GB - -
Gemma 4 26B A4B 57.7 GB 28.8 GB 14.4 GB - -
Gemma 4 31B 69.9 GB 34.9 GB 17.5 GB - -

표 1. 매개변수 수, 양자화 수준, 추가 항목 로드의 20% 오버헤드를 기반으로 Gemma 4 모델을 로드하는 데 필요한 GPU 또는 TPU 메모리를 대략적으로 추정합니다. 모바일 버전은 LiteRT-LM을 사용합니다.

메모리 계획의 주요 고려사항

  • 효율적인 아키텍처 (E2B 및 E4B): 'E'는 '효과적인' 매개변수를 나타냅니다. 더 작은 모델은 기기 내 배포에서 파라미터 효율성을 극대화하기 위해 레이어별 삽입 (PLE)을 통합합니다. PLE는 모델에 레이어를 추가하는 대신 각 디코더 레이어에 모든 토큰에 대한 자체 소규모 임베딩을 제공합니다. 이러한 삽입 테이블은 크지만 빠른 조회를 위해서만 사용되므로 정적 가중치를 로드하는 데 필요한 총 메모리가 유효한 매개변수 수보다 높습니다.
  • MoE 아키텍처 (26B A4B): 26B는 전문가 혼합 모델입니다. 생성 중에 토큰당 40억 개의 파라미터만 활성화되지만 빠른 라우팅 및 추론 속도를 유지하려면 260억 개의 모든 파라미터를 메모리에 로드해야 합니다. 이러한 이유로 기준 메모리 요구사항이 4B 모델보다 밀도 26B 모델에 훨씬 더 가깝습니다.
  • 기본 가중치만 해당: 위의 표에 나온 추정치는 정적 모델 가중치를 로드하는 데 필요한 메모리만 고려합니다. 소프트웨어나 컨텍스트 윈도우를 지원하는 데 필요한 추가 VRAM은 포함되지 않습니다.
  • 컨텍스트 윈도우 (KV 캐시): 프롬프트의 총 토큰 수와 생성된 대답에 따라 메모리 소비가 동적으로 증가합니다. 컨텍스트 윈도우가 클수록 기본 모델 가중치 외에 훨씬 더 많은 VRAM이 필요합니다.
  • 파인 튜닝 오버헤드: Gemma 모델의 파인 튜닝에 필요한 메모리는 표준 추론에 필요한 메모리보다 훨씬 높습니다. 정확한 설치 공간은 개발 프레임워크, 배치 크기, 전체 정밀도 튜닝을 사용하는지 아니면 LoRA(Low-Rank Adaptation)와 같은 Parameter-Efficient Fine-Tuning (PEFT) 방법을 사용하는지에 따라 크게 달라집니다.

양자화 인식 학습 (QAT)

품질 저하를 최소화하면서 효율성을 극대화해야 하는 배포의 경우 Gemma는 공식 양자화 인식 학습 (QAT) 모델을 제공합니다.

완전히 학습된 모델을 압축하여 품질 저하를 초래할 수 있는 표준 학습 후 양자화 (PTQ)와 달리 QAT는 양자화 시뮬레이션을 학습 프로세스 자체에 통합합니다. 이를 통해 모델은 정밀도 손실을 보상하는 방법을 학습할 수 있으므로 고정밀도 기준과 거의 동일하게 작동하는 더 작은 모델이 생성됩니다.

빠른 라우팅 테이블

타겟 배포 엔진 접미사 다운로드 기본 사용 사례
llama.cpp / LM Studio (로컬) {model-name}-qat-q4_0-gguf CPU, Apple Silicon 또는 소비자 GPU에서 설정이 필요 없는 로컬 배포
vLLM / SGLang 서버: {model-name}-qat-w4a16-ct
모바일: {model-name}-qat-mobile-ct
16비트 활성화로 4비트 가중치를 활용하는 고처리량 추론
추측 디코딩 모델: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
토큰 생성을 대폭 가속화하기 위해 기본 모델을 일치하는 MTP 초안 모델과 함께 실행합니다. 모델은 양자화되어야 합니다.
기타 형식 {model-name}-qat-q4_0-unquantized 다른 형식 (예: MLX)으로 변환하기 위한 양자화되지 않은 가중치
모바일 배포 (트랜스포머) {model-name}-qat-mobile-transformers 모바일 사용 사례에 최적화된 에지 가중치입니다. 다른 형식의 참조 역할을 합니다.

Hugging Face의 공식 QAT 컬렉션

  • collections/google/gemma-4-qat-q4_0
    • 양자화되지 않은 QAT 체크포인트 (-unquantized / -assistant): QAT 파이프라인에서 직접 추출한 절반 정밀도 가중치입니다. 맞춤 다운스트림 컴파일, 연구 또는 어시스턴트 초안 모델을 사용한 추측 디코딩 실행에 적합합니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용할 수 있습니다.
    • GGUF (-gguf): 로컬 LLM 생태계 전반에서 즉시 드롭인 호환성을 지원하는 체크포인트입니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용할 수 있습니다.
    • 압축 텐서 (-w4a16-ct): 최적화된 동시성이 높은 클라우드 서비스를 위해 compressed-tensors 표준으로 기본적으로 직렬화됩니다. Gemma 4 E2B, E4B, 12B, 31B에서 사용할 수 있습니다.
  • collections/google/gemma-4-qat-mobile
    • 모바일 최적화 (-mobile-transformers / -mobile-ct): 모바일 하드웨어 제한을 위해 특별히 설계된 맞춤 wNa8o8 스키마를 기반으로 빌드됩니다. 타겟팅된 2비트 디코딩 레이어, 최적화된 KV 캐시, 정적 활성화를 활용하여 에지 프로세서를 차단하지 않고 온디바이스 RAM 절약을 극대화합니다. Gemma 4 E2B 및 E4B에서 사용할 수 있습니다.

모든 공식 Gemma 4 QAT 체크포인트는 Kaggle에서 직접 액세스할 수도 있습니다.

이전 Gemma 모델

KaggleHugging Face에서도 제공되는 이전 세대의 Gemma 모델을 사용할 수 있습니다. 이전 Gemma 모델에 관한 자세한 기술 정보는 다음 모델 카드 페이지를 참고하세요.

실무 경험을 쌓을 준비가 되셨나요? Gemma 모델을 시작해 보세요.