Gemma 4 모델 개요

Gemma는 생성형 인공지능 모델 제품군으로, 질의 응답, 요약, 추론을 비롯한 다양한 생성 작업에 사용할 수 있습니다. Gemma 모델은 공개 가중치와 함께 제공되며 책임감 있는 상업적 사용을 허용하므로 자체 프로젝트와 애플리케이션에서 모델을 조정하고 배포할 수 있습니다.

Gemma 4 모델 제품군은 특정 하드웨어 요구사항에 맞게 조정된 4개의 고유한 아키텍처로 구성됩니다.

  • 소형 크기: 초소형 모바일, 에지, 브라우저 배포 (예: Pixel, Chrome)를 위해 빌드된 2B 및 4B 유효 파라미터 모델입니다.
  • 밀도: 서버급 성능과 로컬 실행 간의 격차를 해소하는 강력한 31B 파라미터 밀도 모델입니다.
  • Mixture-of-Experts: 고처리량 고급 추론을 위해 설계된 매우 효율적인 26B MoE 모델입니다.
  • 통합: 멀티모달 작업을 위한 12B 파라미터 인코더 무료 모델로, 비전 및 오디오 인코더를 입력의 직접 선형 투영으로 대체했습니다.

KaggleHugging Face에서 Gemma 4 모델을 다운로드할 수 있습니다. Gemma 4에 관한 자세한 기술 정보는 모델 카드를 참고하세요. 이전 버전의 Gemma 코어 모델도 다운로드할 수 있습니다. 자세한 내용은 이전 Gemma 모델을 참고하세요.

Kaggle에서 다운로드 Hugging Face에서 다운로드

기능

파라미터 크기 및 양자화

Gemma 4 모델은 5가지 파라미터 크기(E2B, E4B, 12B, 31B, 26B A4B)로 제공됩니다. 모델은 기본 정밀도 (16비트) 또는 양자화를 사용하여 더 낮은 정밀도로 사용할 수 있습니다. 다양한 크기와 정밀도는 AI 애플리케이션의 일련의 절충안을 나타냅니다. 파라미터와 비트 수가 높은 모델 (정밀도 높음)은 일반적으로 성능이 더 우수하지만 처리 주기, 메모리 비용, 전력 소비 측면에서 실행 비용이 더 많이 듭니다. 파라미터와 비트 수가 낮은 모델 (정밀도 낮음)은 기능이 적지만 AI 태스크에 충분할 수 있습니다.

Gemma 4 추론 메모리 요구사항

다음 표에는 각 크기의 Gemma 4 모델 버전으로 추론을 실행하기 위한 대략적인 GPU 또는 TPU 메모리 요구사항이 나와 있습니다.

파라미터 BF16 (16비트) SFP8 (8비트) Q4_0 (4비트) 모바일 모바일 (텍스트 전용)
Gemma 4 E2B 11.4 GB 5.7 GB 2.9 GB 1.1 GB 0.84 GB
Gemma 4 E4B 17.9 GB 8.9 GB 4.5 GB 2.5 GB 2.2 GB
Gemma 4 12B 26.7 GB 13.4 GB 6.7 GB - -
Gemma 4 26B A4B 57.7 GB 28.8 GB 14.4 GB - -
Gemma 4 31B 69.9 GB 34.9 GB 17.5 GB - -

표 1. 파라미터 수, 양자화 수준, 추가 항목 로드 시 20% 오버헤드를 기준으로 Gemma 4 모델을 로드하는 데 필요한 대략적인 GPU 또는 TPU 메모리입니다. 모바일 버전은 LiteRT-LM을 사용합니다.

메모리 계획을 위한 주요 고려사항

  • 효율적인 아키텍처 (E2B 및 E4B): 'E'는 '유효' 파라미터를 나타냅니다. 소형 모델은 기기 내 배포에서 파라미터 효율성을 극대화하기 위해 레이어별 임베딩 (PLE)을 통합합니다. PLE는 모델에 레이어를 추가하는 대신 각 디코더 레이어에 모든 토큰에 대한 자체 소형 임베딩을 제공합니다. 이러한 임베딩 테이블은 크지만 빠른 조회에만 사용되므로 정적 가중치를 로드하는 데 필요한 총 메모리가 유효 파라미터 수보다 높습니다.
  • MoE 아키텍처 (26B A4B): 26B는 전문가 혼합 모델입니다. 생성 중에 토큰당 40억 개의 파라미터만 활성화하지만 빠른 라우팅 및 추론 속도를 유지하려면 260억 개의 파라미터 를 모두 메모리에 로드해야 합니다. 따라서 기준 메모리 요구사항은 4B 모델보다 밀도 26B 모델에 훨씬 더 가깝습니다.
  • 기본 가중치만 해당: 앞의 표에 있는 추정치는 정적 모델 가중치를 로드하는 데 필요한 메모리 고려합니다. 지원 소프트웨어 또는 컨텍스트 윈도우에 필요한 추가 VRAM은 포함되지 않습니다.
  • 컨텍스트 윈도우 (KV 캐시): 메모리 소비는 프롬프트와 생성된 응답의 총 토큰 수를 기준으로 동적으로 증가합니다. 컨텍스트 윈도우가 클수록 기본 모델 가중치 외에 훨씬 더 많은 VRAM이 필요합니다.
  • 미세 조정 오버헤드: Gemma 모델의 미세 조정 메모리 요구사항은 표준 추론보다 훨씬 높습니다. 정확한 공간은 개발 프레임워크, 배치 크기, 전체 정밀도 조정을 사용하는지 아니면 LoRA(Low-Rank Adaptation)와 같은 파라미터 효율적 미세 조정 (PEFT) 방법을 사용하는지에 따라 크게 달라집니다.

양자화 인식 학습 (QAT)

품질 저하를 최소화하면서 효율성을 극대화해야 하는 배포의 경우 Gemma는 공식 양자화 인식 학습 (QAT) 모델을 제공합니다.

완전히 학습된 모델을 압축하고 품질 저하를 초래할 수 있는 표준 학습 후 양자화 (PTQ)와 달리 QAT는 양자화 시뮬레이션을 학습 프로세스 자체에 통합합니다. 이를 통해 모델은 정밀도 손실을 보완하는 방법을 학습하여 고정밀도 기준선과 거의 동일하게 작동하는 더 작은 모델을 만들 수 있습니다.

빠른 라우팅 테이블

대상 배포 엔진 다운로드 접미사 주된 사용 사례
llama.cpp / LM Studio (로컬) {model-name}-qat-q4_0-gguf CPU, Apple Silicon 또는 소비자 GPU에서 설정이 필요 없는 로컬 배포입니다.
vLLM / SGLang 서버: {model-name}-qat-w4a16-ct
모바일: {model-name}-qat-mobile-ct
16비트 활성화로 4비트 가중치를 활용하는 고처리량 추론입니다.
추측 디코딩 모델: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
일치하는 MTP 초안 모델과 함께 기본 모델을 실행하여 토큰 생성을 크게 가속화합니다. 모델은 양자화되어야 합니다.
기타 형식 {model-name}-qat-q4_0-unquantized 다른 형식 (예: MLX)으로 변환하기 위한 양자화되지 않은 가중치입니다.
모바일 배포 (트랜스포머) {model-name}-qat-mobile-transformers 모바일 사용 사례에 최적화된 에지 가중치입니다. 다른 형식의 참조 역할을 합니다.

Hugging Face의 공식 QAT 컬렉션

  • collections/google/gemma-4-qat-q4-0
    • 양자화되지 않은 QAT 체크포인트 (-unquantized / -assistant): QAT 파이프라인에서 직접 추출한 반정밀도 가중치입니다. 이는 맞춤 다운스트림 컴파일, 연구 또는 어시스턴트 초안 모델을 사용하여 추측 디코딩을 실행하는 데 적합합니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용 가능합니다.
    • GGUF (-gguf): 로컬 LLM 생태계 전반에서 즉시 드롭인 호환성을 제공하는 체크포인트입니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용 가능합니다.
    • 압축된 텐서 (-w4a16-ct): 최적화된 고동시 클라우드 제공을 위해 compressed-tensors 표준으로 기본적으로 직렬화됩니다. Gemma 4 E2B, E4B, 12B, 31B에서 사용 가능합니다.
  • collections/google/gemma-4-qat-mobile
    • 모바일 최적화 (-mobile-transformers / -mobile-ct): 모바일 하드웨어 제한을 위해 특별히 설계된 맞춤 wNa8o8 스키마를 기반으로 빌드됩니다. 타겟 2비트 디코딩 레이어, 최적화된 KV 캐시, 정적 활성화를 활용하여 에지 프로세서를 차단하지 않고 기기 내 RAM 절감을 극대화합니다. Gemma 4 E2B 및 E4B에서 사용 가능합니다.

모든 공식 Gemma 4 QAT 체크포인트는 Kaggle에서 직접 액세스할 수도 있습니다.

이전 Gemma 모델

KaggleHugging Face에서 제공되는 이전 세대의 Gemma 모델을 사용할 수 있습니다. 이전 Gemma 모델에 관한 자세한 기술 정보는 다음 모델 카드 페이지를 참고하세요.

실무 경험을 쌓을 준비가 되셨나요? 시작하기 Gemma 모델