Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Gemma 4 模型資訊卡

Gemma 4 Banner

Hugging Face | GitHub | 發布網誌 | 說明文件
授權：Apache 2.0 | 作者：Google DeepMind

Gemma 是由 Google DeepMind 建構的開放式模型系列，Gemma 4 模型為多模態模型，可處理文字和圖像輸入內容 (小型模型支援音訊)，並生成文字輸出內容。這個版本包含預先訓練和指令微調變體的開放權重模型。Gemma 4 的脈絡窗口最多可達 25.6 萬個權杖，並支援超過 140 種語言。

Gemma 4 採用密集和混合專家模型 (MoE) 架構，非常適合用於文字生成、程式設計和推論等工作。這些型號有四種不同尺寸：E2B、E4B、26B A4B 和 31B。這些模型大小不一，因此可部署在各種環境中，從高階手機到筆電和伺服器皆適用，讓更多人能使用最先進的 AI 技術。

Gemma 4 導入了重要的功能和架構進展：

推論 – 這個系列的所有模型都具備強大的推論能力，並提供可設定的思考模式。
擴展多模態：處理文字、圖片 (支援不同長寬比和解析度，適用於所有模型)、影片和音訊 (E2B 和 E4B 模型原生支援)。
多元且有效率的架構：提供不同大小的密集和專家混合 (MoE) 變體，可供大規模部署。
專為裝置端最佳化：較小的模型專為在筆電和行動裝置上有效率地執行本機作業而設計。
擴大脈絡窗口：小型模型提供 12.8 萬個詞元的脈絡窗口，中型模型則支援 25.6 萬個詞元。
強化程式設計和代理功能：在程式設計基準方面有顯著進步，並支援原生函式呼叫，可驅動功能強大的自主代理。
原生系統提示支援 - Gemma 4 導入了對 system 角色的原生支援，可進行更結構化且可控的對話。

模型總覽

Gemma 4 模型旨在提供各尺寸的頂尖效能，適用於從行動裝置和邊緣裝置 (E2B、E4B) 到消費型 GPU 和工作站 (26B A4B、31B) 的部署情境。非常適合用於推理、代理功能工作流程、程式設計和多模態解讀。

這些模型採用混合式注意力機制，交錯使用局部滑動視窗注意力和完整全域注意力，確保最終層一律為全域。這種混合式設計可提供輕量型模型的處理速度和低記憶體用量，同時保留複雜長篇脈絡工作所需的深度感知能力。為針對長內容最佳化記憶體，全域層具有統一的鍵和值，並套用比例 RoPE (p-RoPE)。

密集模型

屬性	E2B	E4B	31B Dense
參數總數	23 億個有效權杖 (含嵌入為 51 億個)	45 億個有效參數 (含嵌入層為 80 億個)	307 億
圖層	35	42	60
滑動視窗	512 個權杖	512 個權杖	1024 個符記
脈絡長度	128,000 個符記	128,000 個符記	256,000 個權杖
詞彙大小	26.2 萬	26.2 萬	26.2 萬
支援的模態	文字、圖片、音訊	文字、圖片、音訊	文字、圖片
視覺編碼器參數	約 1.5 億	約 1.5 億	~5.5 億
音訊編碼器參數	~3 億	~3 億	沒有音訊

E2B 和 E4B 中的「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE)，盡可能提高裝置端部署的參數效率。PLE 不會在模型中加入更多層或參數，而是為每個權杖的每個解碼器層提供專屬的小型嵌入。這些嵌入資料表很大，但只用於快速查閱，因此有效參數計數遠小於總數。

專家混合 (MoE) 模型

屬性	26B A4B MoE
參數總數	252 億次
有效參數	38 億
圖層	30
滑動視窗	1024 個符記
脈絡長度	256,000 個權杖
詞彙大小	26.2 萬
專家人數	8 個有效 / 128 個總數和 1 個共用
支援的模態	文字、圖片
視覺編碼器參數	~5.5 億

26B A4B 中的「A」代表「有效參數」，與模型包含的參數總數不同。在推論期間，這款模型只會啟用 40 億個參數的子集，因此執行速度比 260 億個參數的總數所暗示的快得多。因此與密集 310 億參數模型相比，這款模型幾乎與 40 億參數模型一樣快，是快速推論的絕佳選擇。

基準測試結果

我們使用大量不同的資料集和指標評估這些模型，涵蓋文字生成的各個層面。表格中標示的評估結果適用於指令微調模型。

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (無思考)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (平均值，以 3 為基準)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	-	-	-
HLE with search	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
視覺輔助
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (平均編輯距離，越低越好)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
音訊
CoVoST	-	-	35.54	33.47	-
FLEURS (越低越好)	-	-	0.08	0.09	-
長篇脈絡資訊
MRCR v2 8 針 128k (平均)	66.4%	44.1%	25.4%	19.1%	13.5%

核心功能

Gemma 4 模型可處理文字、影像和音訊等各種工作。主要功能包括：

思考：內建推論模式，模型會在回答前逐步思考。
長脈絡：脈絡窗口最多可達 12.8 萬個詞元 (E2B/E4B) 和 25.6 萬個詞元 (26B A4B/31B)。
圖像理解：物件偵測、文件/PDF 剖析、螢幕和 UI 理解、圖表理解、光學字元辨識 (包括多種語言)、手寫辨識和指向。圖片可採用各種顯示比例和解析度處理。
影片理解：處理一連串的影格，藉此分析影片。
交錯式多模態輸入：在單一提示中，隨意混用文字和圖片，順序不限。
函式呼叫：原生支援結構化工具使用，可啟用代理工作流程。
程式設計：生成、完成及修正程式碼。
支援多種語言：開箱即支援超過 35 種語言，並預先訓練超過 140 種語言。
音訊 (僅限 E2B 和 E4B) - 自動語音辨識 (ASR) 和語音轉譯文字翻譯 (支援多種語言)。

開始使用

您可以使用最新版 Transformers 搭配所有 Gemma 4 模型。如要開始使用，請在環境中安裝必要的依附元件：

pip install -U transformers torch accelerate

安裝完所有項目後，即可使用下列程式碼載入模型：

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

模型載入完畢後，即可開始生成輸出內容：

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

如要啟用推論功能，請設定 enable_thinking=True，parse_response 函式會負責剖析思考輸出內容。

最佳做法

如要獲得最佳成效，請採用下列設定和最佳做法：

1. 取樣參數

在所有用途中，使用下列標準化取樣設定：

temperature=1.0
top_p=0.95
top_k=64

2. 思考模式設定

與 Gemma 3 相比，這些模型使用標準的 system、assistant 和 user 角色。如要妥善管理思考過程，請使用下列控制權杖：

觸發思考：在系統提示的開頭加入 <|think|> 符記，即可啟用思考功能。如要停用思考功能，請移除權杖。
標準生成：啟用思考功能後，模型會輸出內部推論，然後使用以下結構提供最終答案： <|channel>thought\n[內部推論]<channel|>
停用思考行為：除了 E2B 和 E4B 變體之外，如果停用思考行為，模型仍會產生標記，但思考區塊會空白：<|channel>thought\n<channel|>[Final answer]

請注意，許多程式庫 (例如 Transformers 和 llama.cpp) 會為您處理複雜的即時通訊範本。

3. 多輪對話

記錄中沒有思考內容：在多回合對話中，歷史模型輸出內容應只包含最終回覆。在下一個使用者回合開始前，不得加入先前模型回合的想法。

4. 模態順序

如要使用多模態輸入內容獲得最佳效能，請在提示中先加入圖片和/或音訊內容，再加入文字。

5. 可變圖片解析度

除了可變的長寬比，Gemma 4 也支援可變的圖片解析度，方法是透過可設定的視覺化權杖預算，控管用於表示圖片的權杖數量。詞元預算越高，保留的視覺細節就越多，但需要額外運算；預算越低，推論速度就越快，適用於不需要細緻理解的任務。

支援的權杖預算為：70、140、280、560 和 1120。
- 對於分類、字幕或影片理解等工作，可使用較低的預算，因為這類工作著重於快速推論和處理大量影格，而非細微的細節。
- 針對 OCR、文件剖析或讀取小字等工作，使用較高的預算。

6. 音訊

請使用下列提示結構進行音訊處理：

語音辨識 (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

自動語音翻譯 (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. 音訊和影片長度

所有模型都支援輸入圖片，並可將影片處理為影格，而 E2B 和 E4B 模型也支援輸入音訊。音訊長度上限為 30 秒。假設系統以每秒一格的速度處理圖片，影片長度最多為 60 秒。

模型資料

用於模型訓練的資料，以及資料的處理方式。

訓練資料集

我們的預先訓練資料集是涵蓋各種領域和模態的大規模多元資料集合，包括網頁文件、程式碼、圖片和音訊，資料截止日期為 2025 年 1 月。主要元件如下：

網路文件：多樣化的網路文字可確保模型接觸到各種語言風格、主題和詞彙。訓練資料集包含超過 140 種語言的內容。
程式碼：讓模型接觸程式碼，有助於學習程式設計語言的語法和模式，進而提升程式碼生成能力，並瞭解程式碼相關問題。
數學：訓練模型處理數學文字，有助於學習邏輯推論、符號表示法，以及解決數學查詢。
圖片：各種圖片可讓模型執行圖像分析和視覺資料擷取的工作。

結合這些多元資料來源，對於訓練強大的多模態模型至關重要，因為這類模型可處理各種不同的工作和資料格式。

資料預先處理

以下是套用至訓練資料的主要資料清理和篩選方法：

兒少性虐待內容篩選：在資料準備過程的多個階段，我們都嚴格篩選兒少性虐待內容，確保排除有害和違法內容。
機密資料篩選：為確保 Gemma 預先訓練模型安全可靠，我們使用自動化技術，從訓練集篩除特定個人資訊和其他機密資料。
其他方法：根據內容品質和安全性，按照我們的政策進行篩選。

倫理與安全

隨著開放模型成為企業基礎架構的核心，出處和安全性至關重要。Gemma 4 由 Google DeepMind 開發，與我們專有的 Gemini 模型一樣，經過嚴格的安全評估。

評估方法

Gemma 4 模型是與內部安全和負責任的 AI 技術團隊合作開發，我們進行了各種自動化和人工評估，以提升模型安全性。這些評估作業符合 Google 的 AI 開發原則和安全政策，旨在防止生成式 AI 模型生成有害內容，包括：

兒少性虐待內容和剝削
危險內容 (例如宣揚自殺，或指示可能造成實際危害的活動)
情色露骨內容
仇恨言論 (例如貶抑受保護團體的成員)
騷擾 (例如鼓吹對他人施暴)

評估結果

在所有安全測試領域中，相較於先前的 Gemma 模型，所有內容安全類別都有大幅進步。整體而言，Gemma 4 模型在提升安全性方面大幅優於 Gemma 3 和 3n 模型，同時可將不合理的拒絕次數維持在低點。所有測試都是在沒有安全篩選器的情況下進行，目的是評估模型功能和行為。無論是文字轉文字或圖片轉文字，以及所有模型大小，模型產生的違規內容都極少，且相較於先前的 Gemma 模型，成效有顯著提升。

使用方式和限制

這些模型有某些限制，使用者應留意。

預定用途

多模態模型 (可處理視覺、語言和/或音訊) 適用於各行各業和領域，以下列出的潛在用途僅為範例。這份清單的目的是提供模型建立者在模型訓練和開發期間考量的可能用途，以供您參考。

內容製作和溝通
- 文字生成：這類模型可用於生成各種創作文體，例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI：為客戶服務、虛擬助理或互動式應用程式提供對話式介面。
- 文字摘要：生成文字語料庫、研究論文或報告的精簡摘要。
- 圖片資料擷取：這些模型可用於擷取、解讀及摘要說明圖片資料，以供文字通訊使用。
- 音訊處理和互動：較小的模型 (E2B 和 E4B) 可以分析及解讀音訊輸入內容，實現語音驅動的互動和轉錄。
研究與教育
- 自然語言處理 (NLP) 和 VLM 研究：這些模型可做為研究人員的基礎，讓他們實驗 VLM 和 NLP 技術、開發演算法，並為這個領域的進展做出貢獻。
- 語言學習工具：支援互動式語言學習體驗，協助修正文法或提供寫作練習。
  - 知識探索：生成摘要或回答特定主題的問題，協助研究人員探索大量文字內容。

限制

訓練資料
- 訓練資料的品質和多樣性會大幅影響模型功能。訓練資料中的偏誤或缺漏可能會導致模型回覆內容受限。
- 訓練資料集的範圍決定了模型可有效處理的主題領域。
背景資訊和工作複雜度
- 只要提示和指令明確，模型就能順利執行工作。開放式或高度複雜的任務可能較難完成。
- 模型效能可能會受到提供的背景資訊量影響 (背景資訊越長，通常輸出內容越好，但有上限)。
語言的模糊和細微之處
- 自然語言本質上就相當複雜，模型可能難以掌握細微的語氣、諷刺或比喻。
事實準確度
- 模型會根據從訓練資料集學到的資訊生成回覆，但並非知識庫。可能會生成不正確或過時的事實陳述。
常識
- 模型會根據語言的統計模式，在某些情況下，AI 可能無法運用常識推理。

倫理考量和風險

在開發視覺語言模型 (VLM) 時，會引發多項倫理疑慮。在建立開放模型時，我們仔細考量了以下事項：

偏誤和公平性
- 以大規模真實世界文字和圖片資料訓練的 VLM，可能會反映訓練資料中內含的社會文化偏誤。如本資訊卡所述，Gemma 4 模型經過仔細審查、輸入資料預先處理和訓練後評估，有助於降低這些偏見的風險。
不實資訊和濫用行為
- VLMs 可能遭到濫用，生成不實、誤導或有害的文字。
- 我們提供模型負責任使用指南，詳情請參閱「負責任的生成式 AI 工具包」。
資訊公開及當責
- 這張模型資訊卡摘要說明模型的架構、功能、限制和評估程序。
- 以負責任的方式開發開放模型，可讓 AI 生態系統的開發人員和研究人員使用 VLM 技術，進而分享創新成果。

已識別的風險和因應措施：

生成有害內容：內容安全機制和規範至關重要。建議開發人員根據特定產品政策和應用程式用途，謹慎實施適當的內容安全防護措施。
用於惡意目的：技術限制、開發人員和使用者教育訓練，有助於防範惡意使用 VLM。提供教育資源和檢舉機制，讓使用者檢舉濫用行為。
隱私權侵害：訓練模型時，我們會篩除特定個人資訊和其他私密資料。建議開發人員採用隱私權保護技術，遵守隱私權法規。
偏見延續：建議在模型訓練、微調和其他用途期間，持續監控 (使用評估指標、專人審查) 並探索去偏見技術。

優點

與大小相近的模型相比，這系列模型在發布時提供高效能的開放式視覺語言模型實作項目，專為負責任的 AI 技術開發而設計。