텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 모델 개요

Gemma는 생성형 인공지능 모델 제품군으로, 질의 응답, 요약, 추론을 비롯한 다양한 생성 작업에 사용할 수 있습니다. Gemma 모델은 공개 가중치와 함께 제공되며 책임감 있는 상업적 사용을 허용하므로 자체 프로젝트 및 애플리케이션에서 모델을 조정하고 배포할 수 있습니다.

Gemma 4 모델 제품군은 특정 하드웨어 요구사항에 맞게 조정된 4가지 고유한 아키텍처로 구성됩니다.

소형: 초소형 모바일, 에지, 브라우저 배포 (예: Pixel, Chrome)를 위해 빌드된 2B 및 4B 유효 파라미터 모델입니다.
밀도: 서버급 성능과 로컬 실행 간의 격차를 해소하는 강력한 31B 파라미터 밀도 모델입니다.
Mixture-of-Experts: 고처리량 고급 추론을 위해 설계된 매우 효율적인 26B MoE 모델입니다.
통합: 멀티모달 작업을 위한 12B 파라미터 인코더가 없는 모델로, 시각 및 오디오 인코더를 입력의 직접 선형 투영으로 대체했습니다.

Kaggle 및 Hugging Face에서 Gemma 4 모델을 다운로드할 수 있습니다. Gemma 4에 관한 자세한 기술 정보는 모델 카드 및 기술 보고서를 참고하세요. 이전 버전의 Gemma 코어 모델도 다운로드할 수 있습니다. 자세한 내용은 이전 Gemma 모델을 참고하세요.

Kaggle에서 다운로드 Hugging Face에서 다운로드

기능

추론: 제품군의 모든 모델은 구성 가능한 사고 모드를 갖춘 고성능 추론기로 설계되었습니다.
확장된 멀티모달: 다양한 가로세로 비율과 해상도 지원 (모든 모델), 동영상, 오디오 (E2B, E4B 및 12B 모델에서 기본적으로 제공)으로 텍스트, 이미지를 처리합니다.
컨텍스트 윈도우 증가: 소형 모델은 128,000개의 토큰이 포함될 수 있는 컨텍스트 윈도우를 제공하며, 중간 모델은 256,000개의 토큰이 포함될 수 있는 컨텍스트 윈도우를 지원합니다.
향상된 코딩 및 에이전트 기능: 기본 제공 함수 호출 지원과 함께 코딩 벤치마크에서 상당한 개선을 달성하여 고성능 자율 에이전트를 지원합니다.
네이티브 시스템 프롬프트 지원: Gemma 4는 시스템 역할에 대한 기본 제공 지원을 도입하여 더욱 구조화되고 제어 가능한 대화를 지원합니다.
멀티 토큰 예측: 모든 Gemma 4 모델 (E2B, E4B, 12B, 31B, 26B A4B)에는 추측 디코딩을 위한 전용 초안 모델이 포함되어 있어 품질 저하 없이 훨씬 빠른 추론이 가능합니다.

파라미터 크기 및 양자화

Gemma 4 모델은 E2B, E4B, 12B, 31B, 26B A4B의 5가지 파라미터 크기로 제공됩니다. 모델은 기본 정밀도 (16비트) 또는 양자화를 사용하여 더 낮은 정밀도로 사용할 수 있습니다. 다양한 크기와 정밀도는 AI 애플리케이션의 일련의 절충안을 나타냅니다. 파라미터와 비트 수가 더 많은 모델 (정밀도 높음)은 일반적으로 성능이 더 우수하지만 처리 주기, 메모리 비용, 전력 소비 측면에서 실행 비용이 더 많이 듭니다. 파라미터와 비트 수가 더 적은 모델 (정밀도 낮음)은 기능이 적지만 AI 작업에 충분할 수 있습니다.

Gemma 4 추론 메모리 요구사항

다음 표에는 각 크기의 Gemma 4 모델 버전으로 추론을 실행하기 위한 대략적인 GPU 또는 TPU 메모리 요구사항이 나와 있습니다.

파라미터	BF16 (16비트)	SFP8 (8비트)	Q4_0 (4비트)	모바일	모바일 (텍스트 전용)
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

표 1. 파라미터 수, 양자화 수준, 추가 항목 로드의 20% 오버헤드를 기준으로 Gemma 4 모델을 로드하는 데 필요한 대략적인 GPU 또는 TPU 메모리입니다. 모바일 버전은 LiteRT-LM을 사용합니다.

메모리 계획을 위한 주요 고려사항

효율적인 아키텍처 (E2B 및 E4B): 'E'는 '유효' 파라미터를 나타냅니다. 소형 모델은 기기 내 배포에서 파라미터 효율성을 극대화하기 위해 레이어별 임베딩 (PLE)을 통합합니다. PLE는 모델에 레이어를 추가하는 대신 각 디코더 레이어에 모든 토큰에 대한 자체 소형 임베딩을 제공합니다. 이러한 임베딩 테이블은 크지만 빠른 조회를 위해서만 사용되므로 정적 가중치를 로드하는 데 필요한 총 메모리가 유효 파라미터 수보다 높습니다.
MoE 아키텍처 (26B A4B): 26B는 전문가 망 모델입니다. 생성 중에 토큰당 40억 개의 파라미터만 활성화하지만 빠른 라우팅 및 추론 속도를 유지하려면 260억 개의 파라미터 를 모두 메모리에 로드해야 합니다. 따라서 기준 메모리 요구사항은 4B 모델보다 밀도 26B 모델에 훨씬 더 가깝습니다.
기본 가중치만 해당: 앞의 표에 있는 추정치는 정적 모델 가중치를 로드하는 데 필요한 메모리만 고려합니다. 지원 소프트웨어 또는 컨텍스트 윈도우에 필요한 추가 VRAM은 포함되지 않습니다.
컨텍스트 윈도우 (KV 캐시): 메모리 소비는 프롬프트의 총 토큰 수와 생성된 응답에 따라 동적으로 증가합니다. 컨텍스트 윈도우가 클수록 기본 모델 가중치 외에 훨씬 더 많은 VRAM이 필요합니다.
미세 조정 오버헤드: Gemma 모델의 미세 조정 을 위한 메모리 요구사항은 표준 추론보다 훨씬 높습니다. 정확한 공간은 개발 프레임워크, 배치 크기, 전체 정밀도 조정을 사용하는지 아니면 LoRA(Low-Rank Adaptation)와 같은 파라미터 효율적 미세 조정 (PEFT) 방법을 사용하는지에 따라 크게 달라집니다.

양자화 인식 학습 (QAT)

최소한의 품질 저하로 최대한의 효율성을 요구하는 배포를 위해 Gemma는 공식 양자화 인식 학습 (QAT) 모델을 제공합니다.

완전히 학습된 모델을 압축하고 품질 저하를 초래할 수 있는 표준 학습 후 양자화 (PTQ)와 달리 QAT는 양자화 시뮬레이션을 학습 프로세스 자체에 통합합니다. 이를 통해 모델은 정밀도 손실을 보완하는 방법을 학습하여 고정밀도 기준선과 거의 동일하게 작동하는 더 작은 모델을 만들 수 있습니다.

빠른 라우팅 테이블

대상 배포 엔진	접미사 다운로드	주된 사용 사례
llama.cpp / LM Studio (로컬)	`{model-name}-qat-q4_0-gguf`	CPU, Apple Silicon 또는 소비자 GPU에서 설정이 필요 없는 로컬 배포입니다.
vLLM / SGLang	서버: `{model-name}-qat-w4a16-ct` 모바일: `{model-name}-qat-mobile-ct`	16비트 활성화로 4비트 가중치를 활용하는 고처리량 추론입니다.
추측 디코딩	모델: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	기본 모델을 일치하는 MTP 초안 모델과 함께 실행하여 토큰 생성을 크게 가속화합니다. 모델은 양자화되어야 합니다.
기타 형식	`{model-name}-qat-q4_0-unquantized`	다른 형식 (예: MLX)으로 변환하기 위한 양자화되지 않은 가중치입니다.
모바일 배포 (트랜스포머)	`{model-name}-qat-mobile-transformers`	모바일 사용 사례에 최적화된 에지 가중치입니다. 다른 형식의 참조 역할을 합니다.

Hugging Face의 공식 QAT 컬렉션

collections/google/gemma-4-qat-q4-0
- 양자화되지 않은 QAT 체크포인트 (-unquantized / -assistant): QAT 파이프라인에서 직접 추출한 반정밀도 가중치입니다. 이는 맞춤 다운스트림 컴파일, 연구 또는 어시스턴트 초안 모델을 사용하여 추측 디코딩을 실행하는 데 적합합니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용 가능합니다.
- GGUF (-gguf): 로컬 LLM 생태계 전반에서 즉시 드롭인 호환성을 위해 사용할 수 있는 체크포인트입니다. Gemma 4 E2B, E4B, 12B, 26B A4B, 31B에서 사용 가능합니다.
- 압축된 텐서 (-w4a16-ct): 최적화된 고동시성 클라우드 제공을 위해 compressed-tensors 표준으로 기본적으로 직렬화됩니다. Gemma 4 E2B, E4B, 12B, 31B에서 사용 가능합니다.
collections/google/gemma-4-qat-mobile
- 모바일 최적화 (-mobile-transformers / -mobile-ct): 모바일 하드웨어 제한을 위해 특별히 설계된 맞춤 wNa8o8 스키마를 기반으로 빌드되었습니다. 타겟 2비트 디코딩 레이어, 최적화된 KV 캐시, 정적 활성화를 활용하여 에지 프로세서를 차단하지 않고 기기 내 RAM 절감을 극대화합니다. Gemma 4 E2B 및 E4B에서 사용 가능합니다.

모든 공식 Gemma 4 QAT 체크포인트는 Kaggle에서 직접 액세스할 수도 있습니다.

이전 Gemma 모델

Kaggle 및 Hugging Face에서 제공되는 이전 세대의 Gemma 모델을 사용할 수 있습니다. 이전 Gemma 모델에 관한 자세한 기술 정보는 다음 모델 카드 페이지를 참고하세요.

Gemma 3 모델 카드
Gemma 2 모델 카드
Gemma 1 모델 카드

실무 경험을 쌓을 준비가 되셨나요? 시작하기 Gemma 모델