텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 모델 개요

Gemma는 생성형 인공지능 모델 제품군으로, 질의 응답, 요약, 추론 등 다양한 생성 작업에 사용할 수 있습니다. Gemma 모델은 공개 가중치와 함께 제공되며 책임감 있는 상업적 사용을 허용하므로 자체 프로젝트와 애플리케이션에서 모델을 조정하고 배포할 수 있습니다.

Gemma 4 모델 제품군은 특정 하드웨어 요구사항에 맞게 조정된 세 가지 서로 다른 아키텍처를 포함합니다.

소형: 초소형 모바일, 에지, 브라우저 배포 (예: Pixel, Chrome)를 위해 빌드된 2B 및 4B 유효 매개변수 모델입니다.
Dense: 서버급 성능과 로컬 실행 간의 격차를 해소하는 강력한 310억 개의 파라미터가 있는 밀도 높은 모델입니다.
Mixture-of-Experts: 높은 처리량과 고급 추론을 위해 설계된 매우 효율적인 26B MoE 모델입니다.

Kaggle 및 Hugging Face에서 Gemma 4 모델을 다운로드할 수 있습니다. Gemma 4에 관한 자세한 기술 정보는 모델 카드를 참고하세요. 이전 버전의 Gemma 핵심 모델도 다운로드할 수 있습니다. 자세한 내용은 이전 Gemma 모델을 참고하세요.

Kaggle에서 다운로드 Hugging Face에서 다운로드

기능

이유: 이 제품군의 모든 모델은 구성 가능한 사고 모드를 갖춘 고성능 추론기로 설계되었습니다.
확장된 멀티모달: 다양한 종횡비와 해상도 지원 (모든 모델), 이미지, 텍스트를 처리하고 동영상, 오디오 (E2B 및 E4B 모델에서 기본적으로 제공)를 처리합니다.
컨텍스트 윈도우 증가: 소형 모델은 128,000개의 컨텍스트 윈도우를 지원하고 중형 모델은 256,000개를 지원합니다.
향상된 코딩 및 에이전트 기능: 코딩 벤치마크가 크게 개선되었으며, 내장된 함수 호출 지원을 통해 매우 유능한 자율 에이전트를 지원합니다.
네이티브 시스템 프롬프트 지원: Gemma 4는 시스템 역할에 대한 내장 지원을 도입하여 더 구조화되고 제어 가능한 대화를 지원합니다.
다중 토큰 예측: 모든 Gemma 4 모델(E2B, E4B, 31B, 26B A4B)에는 추측 디코딩을 위한 전용 초안 모델이 포함되어 있어 품질 저하 없이 추론 속도를 크게 높일 수 있습니다.

매개변수 크기 및 양자화

Gemma 4 모델은 E2B, E4B, 31B, 26B A4B의 4가지 파라미터 크기로 제공됩니다. 모델은 기본 정밀도 (16비트) 또는 양자화를 사용하여 더 낮은 정밀도로 사용할 수 있습니다. 다양한 크기와 정밀도는 AI 애플리케이션의 일련의 절충안을 나타냅니다. 파라미터와 비트 수가 높은 모델 (정밀도가 높음)은 일반적으로 성능이 더 뛰어나지만 처리 주기, 메모리 비용, 전력 소비 측면에서 실행 비용이 더 많이 듭니다. 파라미터와 비트 수가 적은 모델 (정밀도 낮음)은 기능이 적지만 AI 태스크에 충분할 수 있습니다.

Gemma 4 추론 메모리 요구사항

다음 표에는 각 크기의 Gemma 4 모델 버전으로 추론을 실행하는 데 필요한 대략적인 GPU 또는 TPU 메모리 요구사항이 자세히 나와 있습니다.

매개변수	BF16 (16비트)	SFP8 (8비트)	Q4_0 (4비트)
Gemma 4 E2B	9.6 GB	4.6 GB	3.2 GB
Gemma 4 E4B	15GB	7.5GB	5GB
Gemma 4 31B	58.3 GB	30.4 GB	17.4 GB
Gemma 4 26B A4B	48GB	25GB	15.6 GB

표 1. 매개변수 수와 양자화 수준을 기반으로 Gemma 4 모델을 로드하는 데 필요한 GPU 또는 TPU 메모리를 대략적으로 추정합니다.

메모리 계획의 주요 고려사항

효율적인 아키텍처 (E2B 및 E4B): 'E'는 '효과적인' 매개변수를 나타냅니다. 더 작은 모델은 기기 내 배포에서 파라미터 효율성을 극대화하기 위해 레이어별 삽입 (PLE)을 통합합니다. PLE는 모델에 레이어를 추가하는 대신 각 디코더 레이어에 모든 토큰에 대한 자체 소규모 삽입을 제공합니다. 이러한 임베딩 테이블은 크지만 빠른 조회를 위해서만 사용되므로 정적 가중치를 로드하는 데 필요한 총 메모리가 유효한 매개변수 수보다 높습니다.
MoE 아키텍처 (26B A4B): 26B는 전문가 혼합 모델입니다. 생성 중에 토큰당 40억 개의 파라미터만 활성화되지만 빠른 라우팅 및 추론 속도를 유지하려면 260억 개의 모든 파라미터를 메모리에 로드해야 합니다. 이러한 이유로 기준 메모리 요구사항이 4B 모델보다 밀도 높은 26B 모델에 훨씬 더 가깝습니다.
기본 가중치만 해당: 위의 표에 나온 추정치는 정적 모델 가중치를 로드하는 데 필요한 메모리만 고려한 것입니다. 소프트웨어 또는 컨텍스트 윈도우를 지원하는 데 필요한 추가 VRAM은 포함되지 않습니다.
컨텍스트 윈도우 (KV 캐시): 프롬프트의 총 토큰 수와 생성된 대답에 따라 메모리 소비가 동적으로 증가합니다. 컨텍스트 윈도우가 클수록 기본 모델 가중치 외에 훨씬 더 많은 VRAM이 필요합니다.
파인 튜닝 오버헤드: Gemma 모델의 파인 튜닝에 필요한 메모리는 표준 추론에 필요한 메모리보다 훨씬 높습니다. 정확한 설치 공간은 개발 프레임워크, 배치 크기, 전체 정밀도 튜닝을 사용하는지 아니면 LoRA(Low-Rank Adaptation)와 같은 Parameter-Efficient Fine-Tuning (PEFT) 방법을 사용하는지에 따라 크게 달라집니다.

이전 Gemma 모델

Kaggle 및 Hugging Face에서도 제공되는 이전 세대의 Gemma 모델을 사용할 수 있습니다. 이전 Gemma 모델에 관한 자세한 기술 정보는 다음 모델 카드 페이지를 참고하세요.

Gemma 3 모델 카드
Gemma 2 모델 카드
Gemma 1 모델 카드

실무 경험을 쌓을 준비가 되셨나요? Gemma 모델을 시작해 보세요.