Gemma 4 모델 카드

Gemma 4 배너

Hugging Face | GitHub | 출시 블로그 | 문서
라이선스: Apache 2.0 | 저자: Google DeepMind

Gemma는 Google DeepMind에서 빌드한 개방형 모델 제품군입니다. Gemma 4 모델은 텍스트 및 이미지 입력을 처리하고 (소형 모델에서는 오디오 지원) 텍스트 출력을 생성하는 멀티모달입니다. 이 출시에는 사전 학습된 변형과 명령 튜닝된 변형 모두에 오픈 가중치 모델이 포함됩니다. Gemma 4는 최대 256,000개 토큰의 컨텍스트 윈도우를 제공하며 140개 이상의 언어로 다국어 지원을 유지합니다.

밀도 및 전문가 망 (MoE) 아키텍처를 모두 갖춘 Gemma 4는 텍스트 생성, 코딩, 추론과 같은 작업에 적합합니다. 이 모델은 E2B, E4B, 26B A4B, 31B의 네 가지 크기로 제공됩니다. 다양한 크기로 제공되므로 고급 휴대전화부터 노트북, 서버에 이르기까지 다양한 환경에 배포할 수 있어 최첨단 AI에 대한 액세스를 민주화합니다.

Gemma 4는 다음과 같은 주요 기능 및 아키텍처 개선사항을 도입합니다.

  • 추론: 이 제품군의 모든 모델은 구성 가능한 사고 모드를 갖춘 고성능 추론기로 설계되었습니다.

  • 확장된 멀티모달 - 다양한 가로세로 비율과 해상도를 지원하는 텍스트, 이미지 (모든 모델), 동영상, 오디오 (E2B 및 E4B 모델에 기본적으로 제공)를 처리합니다.

  • 다양하고 효율적인 아키텍처: 확장 가능한 배포를 위해 다양한 크기의 Dense 및 Mixture-of-Experts(MoE) 변형을 제공합니다.

  • 온디바이스에 최적화: 더 작은 모델은 노트북과 모바일 기기에서 효율적인 로컬 실행을 위해 특별히 설계되었습니다.

  • 컨텍스트 윈도우 증가: 소형 모델은 128,000개의 컨텍스트 윈도우를 제공하며 중형 모델은 256,000개를 지원합니다.

  • 향상된 코딩 및 에이전트 기능: 네이티브 함수 호출 지원과 함께 코딩 벤치마크에서 눈에 띄는 개선을 달성하여 매우 유능한 자율 에이전트를 지원합니다.

  • 기본 시스템 프롬프트 지원: Gemma 4에서는 system 역할에 대한 기본 지원을 도입하여 더 구조화되고 제어 가능한 대화를 지원합니다.

모델 개요

Gemma 4 모델은 각 크기에서 최첨단 수준의 성능을 제공하도록 설계되었으며, 모바일 및 에지 기기 (E2B, E4B)부터 소비자 GPU 및 워크스테이션 (26B A4B, 31B)까지 다양한 배포 시나리오를 타겟팅합니다. 추론, 에이전트형 워크플로, 코딩, 멀티모달 이해에 적합합니다.

이 모델은 로컬 슬라이딩 윈도우 어텐션과 전체 글로벌 어텐션을 인터리브하는 하이브리드 어텐션 메커니즘을 사용하여 최종 레이어가 항상 글로벌하도록 합니다. 이 하이브리드 설계는 복잡한 긴 컨텍스트 작업에 필요한 심층적인 인식 기능을 희생하지 않으면서 경량 모델의 처리 속도와 낮은 메모리 사용량을 제공합니다. 긴 컨텍스트의 메모리를 최적화하기 위해 전역 레이어는 통합 키와 값을 사용하고 비례 RoPE (p-RoPE)를 적용합니다.

밀집 모델

속성 E2B E4B 31B Dense
총 매개변수 23억 효과적 (51억 임베딩 포함) 45억 효과적 (80억 포함) 307억
레이어 35 42 60
슬라이딩 윈도우 토큰 512개 토큰 512개 토큰 1,024개
컨텍스트 길이 토큰 128,000개 토큰 128,000개 256,000 토큰
어휘 크기 262,000 262,000 262,000
지원되는 모달리티 텍스트, 이미지, 오디오 텍스트, 이미지, 오디오 텍스트, 이미지
비전 인코더 파라미터 약 1억 5,000만 약 1억 5,000만 약 5억 5,000만
오디오 인코더 매개변수 ~3억 ~3억 오디오 없음

E2B 및 E4B의 'E'는 '효과적인' 매개변수를 나타냅니다. 더 작은 모델은 기기 내 배포에서 파라미터 효율성을 극대화하기 위해 레이어별 삽입 (PLE)을 통합합니다. PLE는 모델에 레이어나 매개변수를 추가하는 대신 각 디코더 레이어에 모든 토큰에 대한 자체 소규모 삽입을 제공합니다. 이러한 삽입 테이블은 크지만 빠른 조회를 위해서만 사용되므로 유효한 매개변수 수가 전체보다 훨씬 작습니다.

전문가 망 (MoE) 모델

속성 26B A4B MoE
총 매개변수 252억
활성 매개변수 38억
레이어 30
슬라이딩 윈도우 토큰 1,024개
컨텍스트 길이 256,000 토큰
어휘 크기 262,000
전문가 수 활성 8개 / 총 128개 및 공유 1개
지원되는 모달리티 텍스트, 이미지
비전 인코더 파라미터 약 5억 5,000만

26B A4B의 'A'는 모델에 포함된 총 매개변수 수와 대조되는 '활성 매개변수'를 나타냅니다. 추론 중에 파라미터의 40억 개 하위 집합만 활성화하므로 Mixture-of-Experts 모델은 총 260억 개보다 훨씬 빠르게 실행됩니다. 따라서 40억 파라미터 모델만큼 빠르게 실행되므로 밀도 높은 310억 모델에 비해 빠른 추론에 적합합니다.

벤치마크 결과

이러한 모델은 텍스트 생성의 다양한 측면을 다루기 위해 다양한 데이터 세트와 측정항목의 대규모 컬렉션을 기준으로 평가되었습니다. 표에 표시된 평가 결과는 명령 튜닝 모델에 대한 것입니다.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (생각 없음)
MMLU Pro 85.2% 82.6% 69.4% 60.0% 67.6%
AIME 2026 도구 없음 89.2% 88.3% 42.5% 37.5% 20.8%
LiveCodeBench v6 80.0% 77.1% 52.0% 44.0% 29.1%
Codeforces ELO 2150 1718 940 633 110
GPQA 다이아몬드 84.3% 82.3% 58.6% 43.4% 42.4%
Tau2 (3개 평균) 76.9% 68.2% 42.2% 24.5% 16.2%
HLE 도구 없음 19.5% 8.7% - - -
검색을 사용한 HLE 26.5% 17.2% - - -
BigBench Extra Hard 74.4% 64.8% 33.1% 21.9% 19.3%
MMMLU 88.4% 86.3% 76.6% 67.4% 70.7%
시각
MMMU Pro 76.9% 73.8% 52.6% 44.2% 49.7%
OmniDocBench 1.5 (평균 편집 거리, 낮을수록 좋음) 0.131 0.149 0.181 0.290 0.365
MATH-Vision 85.6% 82.4% 59.5% 52.4% 46.0%
MedXPertQA MM 61.3% 58.1% 28.7% 23.5% -
오디오
CoVoST - - 35.54 33.47 -
FLEURS (낮을수록 좋음) - - 0.08 0.09 -
긴 컨텍스트
MRCR v2 8니들 128k (평균) 66.4% 44.1% 25.4% 19.1% 13.5%

핵심 기능

Gemma 4 모델은 텍스트, 비전, 오디오 전반에 걸쳐 다양한 작업을 처리합니다. 주요 기능은 다음과 같습니다.

  • 사고: 모델이 대답하기 전에 단계별로 생각할 수 있는 내장 추론 모드입니다.
  • 긴 컨텍스트 – 최대 128,000개 토큰 (E2B/E4B) 및 256,000개 토큰 (26B A4B/31B)의 컨텍스트 윈도우
  • 이미지 이해: 객체 감지, 문서/PDF 파싱, 화면 및 UI 이해, 차트 이해, OCR (다국어 포함), 필기 인식, 포인팅 이미지는 다양한 가변 가로세로 비율과 해상도로 처리할 수 있습니다.
  • 동영상 이해: 프레임 시퀀스를 처리하여 동영상을 분석합니다.
  • 인터리브 멀티모달 입력 – 단일 프롬프트 내에서 텍스트와 이미지를 어떤 순서로든 자유롭게 혼합할 수 있습니다.
  • 함수 호출: 구조화된 도구 사용을 기본적으로 지원하여 에이전트형 워크플로를 지원합니다.
  • 코딩 - 코드 생성, 완성, 수정
  • 다국어: 35개 이상의 언어를 기본적으로 지원하며 140개 이상의 언어로 사전 학습되었습니다.
  • 오디오 (E2B 및 E4B만 해당) – 여러 언어에 걸친 자동 음성 인식 (ASR) 및 음성-번역된 텍스트 변환.

시작하기

최신 버전의 트랜스포머를 사용하여 모든 Gemma 4 모델을 사용할 수 있습니다. 시작하려면 환경에 필요한 종속 항목을 설치하세요.

pip install -U transformers torch accelerate

모든 항목을 설치한 후 아래 코드를 사용하여 모델을 로드할 수 있습니다.

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

모델이 로드되면 출력을 생성할 수 있습니다.

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

추론을 사용 설정하려면 enable_thinking=True를 설정하세요. 그러면 parse_response 함수가 사고 출력 파싱을 처리합니다.

권장사항

최상의 성능을 위해 다음 구성과 권장사항을 사용하세요.

1. 샘플링 파라미터

모든 사용 사례에서 다음 표준화된 샘플링 구성을 사용하세요.

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. 사고 모드 구성

Gemma 3와 비교할 때 모델은 표준 system, assistant, user 역할을 사용합니다. 사고 과정을 적절하게 관리하려면 다음 제어 토큰을 사용하세요.

  • 사고 트리거: 시스템 프롬프트 시작 부분에 <|think|> 토큰을 포함하면 사고가 사용 설정됩니다. 생각을 사용 중지하려면 토큰을 삭제하세요.
  • 표준 생성: 사고가 사용 설정된 경우 모델은 이 구조를 사용하여 내부 추론과 최종 답변을 출력합니다. <|channel>thought\n[내부 추론]<channel|>
  • 사고 행동 사용 중지: E2B 및 E4B 변형을 제외한 모든 모델의 경우 사고가 사용 중지되면 모델은 여전히 태그를 생성하지만 사고 블록은 비어 있습니다. <|channel>thought\n<channel|>[최종 답변]

트랜스포머 및 llama.cpp와 같은 많은 라이브러리에서 채팅 템플릿의 복잡성을 처리합니다.

3. 멀티턴 대화

  • 기록에 사고 콘텐츠 없음: 멀티턴 대화에서 기록 모델 출력에는 최종 대답만 포함되어야 합니다. 이전 모델의 턴에서 나온 생각은 다음 사용자 턴이 시작되기 전에 추가되지 않습니다.

4. 형식 순서

  • 멀티모달 입력을 최적의 성능으로 사용하려면 프롬프트에서 이미지 또는 오디오 콘텐츠를 텍스트 앞에 배치하세요.

5. 가변 이미지 해상도

다양한 가로세로 비율 외에도 Gemma 4는 구성 가능한 시각적 토큰 예산을 통해 다양한 이미지 해상도를 지원합니다. 이 예산은 이미지를 나타내는 데 사용되는 토큰 수를 제어합니다. 토큰 예산이 높을수록 추가 컴퓨팅 비용이 발생하지만 시각적 세부정보가 더 많이 보존되고, 예산이 낮을수록 세부적인 이해가 필요하지 않은 작업의 추론 속도가 빨라집니다.

  • 지원되는 토큰 예산은 70, 140, 280, 560, 1120입니다.
    • 빠른 추론과 많은 프레임 처리가 세부적인 디테일보다 중요한 분류, 자막 또는 동영상 이해에는 낮은 예산을 사용하세요.
    • OCR, 문서 파싱, 작은 텍스트 읽기와 같은 작업에는 높은 예산을 사용하세요.

6. 오디오

오디오 처리에는 다음 프롬프트 구조를 사용하세요.

  • 오디오 음성 인식 (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • 자동 음성 번역 (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. 오디오 및 동영상 길이

모든 모델은 이미지 입력을 지원하고 동영상을 프레임으로 처리할 수 있지만 E2B 및 E4B 모델은 오디오 입력도 지원합니다. 오디오는 최대 30초까지 지원됩니다. 동영상은 이미지가 초당 1프레임으로 처리된다고 가정할 때 최대 60초를 지원합니다.

모델 데이터

모델 학습에 사용된 데이터와 데이터 처리 방식

학습 데이터 세트

Google의 사전 학습 데이터 세트는 2025년 1월 컷오프 날짜를 기준으로 웹 문서, 코드, 이미지, 오디오 등 다양한 도메인과 모달리티를 포괄하는 대규모의 다양한 데이터 모음입니다. 주요 구성요소는 다음과 같습니다.

  • 웹 문서: 다양한 웹 텍스트를 통해 모델이 광범위한 언어 스타일, 주제, 어휘에 노출됩니다. 학습 데이터 세트에는 140개 이상의 언어로 된 콘텐츠가 포함되어 있습니다.
  • 코드: 모델에 코드를 노출하면 프로그래밍 언어의 문법과 패턴을 학습하여 코드를 생성하고 코드 관련 질문을 이해하는 능력이 향상됩니다.
  • 수학: 수학 텍스트에 대한 학습을 통해 모델이 논리적 추론, 기호 표현을 학습하고 수학적 질문에 대답할 수 있습니다.
  • 이미지: 다양한 이미지를 통해 모델이 이미지 분석 및 시각적 데이터 추출 작업을 실행할 수 있습니다.

이러한 다양한 데이터 소스를 결합하는 것은 다양한 작업과 데이터 형식을 처리할 수 있는 강력한 멀티모달 모델을 학습하는 데 매우 중요합니다.

데이터 전처리

학습 데이터에 적용된 주요 데이터 정리 및 필터링 방법은 다음과 같습니다.

  • CSAM 필터링: 데이터 준비 프로세스의 여러 단계에서 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링을 적용하여 유해하고 불법적인 콘텐츠를 제외했습니다.
  • 민감한 정보 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있게 만들기 위한 노력의 일환으로, 자동화된 기술을 사용하여 학습 세트에서 특정한 개인 정보와 기타 민감한 정보를 필터링했습니다.
  • 추가 방법: Google 정책에 따라 콘텐츠 품질 및 안전을 기반으로 필터링합니다.

윤리 및 안전

오픈 모델이 엔터프라이즈 인프라의 중심이 되면서 출처와 보안이 무엇보다 중요해집니다. Google DeepMind에서 개발한 Gemma 4는 독점 Gemini 모델과 동일한 엄격한 안전성 평가를 거칩니다.

평가 접근 방식

Gemma 4 모델은 내부 안전 및 책임감 있는 AI 팀과 협력하여 개발되었습니다. 모델 안전성을 개선하기 위해 다양한 자동 평가와 인적 평가가 진행되었습니다. 이러한 평가는 Google의 AI 원칙과 안전 정책에 부합하며, 안전 정책은 생성형 AI 모델이 다음과 같은 유해한 콘텐츠를 생성하지 못하도록 하는 것을 목표로 합니다.

  • 아동 성적 학대 및 착취와 관련된 콘텐츠
  • 위험한 콘텐츠 (예: 자살 조장 또는 실제 피해를 야기할 수 있는 활동 안내)
  • 음란물
  • 증오심 표현 (예: 보호 대상 집단의 구성원을 인간 이하로 취급)
  • 괴롭힘 (예: 사람에 대한 폭력 조장)

평가 결과

모든 안전 테스트 영역에서 이전 Gemma 모델에 비해 콘텐츠 안전의 모든 카테고리가 크게 개선되었습니다. 전반적으로 Gemma 4 모델은 안전성을 개선하는 데 있어 Gemma 3 및 3n 모델보다 훨씬 뛰어난 성능을 보이면서도 부당한 거부는 낮은 수준으로 유지합니다. 모든 테스트는 모델 기능과 동작을 평가하기 위해 안전 필터 없이 진행되었습니다. 텍스트-텍스트 및 이미지-텍스트 모두에서, 그리고 모든 모델 크기에서 모델은 정책 위반을 최소화하고 이전 Gemma 모델의 성능에 비해 크게 개선되었습니다.

사용 및 제한사항

이러한 모델에는 사용자가 알아야 할 특정 제한사항이 있습니다.

의도된 사용

멀티모달 모델 (비전, 언어, 오디오를 처리할 수 있음)은 다양한 산업과 도메인에서 광범위하게 활용됩니다. 다음은 잠재적 사용 사례의 목록이며, 모든 사례를 포함하고 있지는 않습니다. 이 목록의 목적은 모델 제작자가 모델 학습 및 개발의 일환으로 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다.

  • 콘텐츠 제작 및 커뮤니케이션
    • 텍스트 생성: 이러한 모델은 시, 스크립트, 코드, 마케팅 문구, 이메일 초안과 같은 창의적인 텍스트 형식을 생성하는 데 사용할 수 있습니다.
    • 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션을 위한 대화형 인터페이스를 지원합니다.
    • 텍스트 요약: 텍스트 말뭉치, 연구 논문 또는 보고서를 간결하게 요약합니다.
    • 이미지 데이터 추출: 이러한 모델을 사용하여 텍스트 커뮤니케이션을 위한 시각적 데이터를 추출, 해석, 요약할 수 있습니다.
    • 오디오 처리 및 상호작용: 소형 모델 (E2B 및 E4B)은 오디오 입력을 분석하고 해석하여 음성 기반 상호작용 및 스크립트 작성을 지원합니다.
  • 연구 및 교육
    • 자연어 처리 (NLP) 및 VLM 연구: 이러한 모델은 연구자가 VLM 및 NLP 기술을 실험하고, 알고리즘을 개발하고, 이 분야의 발전에 기여할 수 있는 기반이 될 수 있습니다.
    • 언어 학습 도구: 문법 수정에 도움을 주거나 쓰기 연습을 제공하여 대화형 언어 학습 경험을 지원합니다.
      • 지식 탐색: 요약을 생성하거나 특정 주제에 관한 질문에 답변하여 연구자가 대량의 텍스트를 탐색하도록 지원합니다.

제한사항

  • 학습 데이터
    • 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터의 편향이나 격차로 인해 모델의 대답에 제한이 발생할 수 있습니다.
    • 학습 데이터 세트의 범위는 모델이 효과적으로 처리할 수 있는 주제 영역을 결정합니다.
  • 컨텍스트 및 작업 복잡성
    • 모델은 명확한 프롬프트와 요청사항으로 구성할 수 있는 작업에서 우수한 성능을 발휘합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 모델의 성능은 제공된 컨텍스트의 양에 영향을 받을 수 있습니다 (일반적으로 컨텍스트가 길수록 특정 지점까지 더 나은 출력이 생성됨).
  • 언어의 모호성 및 뉘앙스
    • 자연어는 본질적으로 복잡합니다. 모델이 미묘한 뉘앙스, 비꼬는 표현, 비유적 표현을 파악하는 데 어려움을 겪을 수 있습니다.
  • 사실 정확성
    • 모델은 학습 데이터 세트에서 학습한 정보를 기반으로 대답을 생성하지만 기술 자료는 아닙니다. 부정확하거나 오래된 사실적 진술을 생성할 수 있습니다.
  • 상식
    • 모델은 언어의 통계적 패턴을 사용합니다. 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.

윤리적 고려사항 및 위험

비전 언어 모델 (VLM)의 개발은 여러 윤리적 우려를 야기합니다. 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편향 및 공정성
    • 대규모 실제 텍스트 및 이미지 데이터로 학습된 VLM은 학습 자료에 내장된 사회문화적 편향을 반영할 수 있습니다. 이 카드에 보고된 바와 같이 Gemma 4 모델은 이러한 편향의 위험을 완화하기 위해 신중한 검토, 입력 데이터 전처리, 학습 후 평가를 거쳤습니다.
  • 잘못된 정보 및 오용
    • VLM은 잘못 사용되어 거짓이거나 오해의 소지가 있거나 유해한 텍스트를 생성할 수 있습니다.
    • 모델을 책임감 있게 사용하기 위한 가이드라인은 책임감 있는 생성형 AI 툴킷을 참고하세요.
  • 투명성 및 책임성
    • 이 모델 카드에는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 관한 세부정보가 요약되어 있습니다.
    • 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구자가 VLM 기술에 액세스할 수 있도록 하여 혁신을 공유할 기회를 제공합니다.

확인된 위험 및 완화:

  • 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수입니다. 개발자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
  • 악의적인 목적으로 오용: 기술적 제한사항과 개발자 및 최종 사용자 교육을 통해 VLM의 악의적인 적용을 완화할 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다.
  • 개인 정보 보호 위반: 특정 개인 정보 및 기타 민감한 데이터를 삭제하기 위해 필터링된 데이터를 기반으로 모델이 학습되었습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.
  • 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 지속적인 모니터링(평가 측정항목, 인적 검토 사용)과 편향 제거 기법 탐색을 수행하는 것이 좋습니다.

이점

출시 시점에 이 모델 제품군은 유사한 크기의 모델과 비교했을 때 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 오픈 비전-언어 모델 구현을 제공합니다.