Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 模型資訊卡

Gemma 4 Banner

Hugging Face | GitHub | 發布網誌 | 說明文件
授權：Apache 2.0 | 作者：Google DeepMind

Gemma 是由 Google DeepMind 開發的一系列開放式模型，Gemma 4 模型為多模態模型，可處理文字和圖像輸入內容 (E2B、E4B 和 12B 模型支援音訊)，並生成文字輸出內容。這個版本包含預先訓練和指令微調變體的開放權重模型。Gemma 4 的脈絡窗口最多可達 25.6 萬個權杖，並支援超過 140 種語言。

Gemma 4 採用密集和混合專家模型 (MoE) 架構，非常適合用於文字生成、程式設計和推論等工作。這些模型有五種不同大小：E2B、E4B、12B、26B A4B 和 31B。這些模型大小不一，因此可部署在各種環境中，從高階手機到筆電和伺服器皆可，讓所有人都能使用最先進的 AI。

Gemma 4 推出多項功能和架構方面的重大進展：

推理 - 這個系列的所有模型都具備強大的推理能力，且可設定思考模式。
擴展多模態：處理文字、圖像 (支援不同長寬比和解析度，適用於所有模型)、影片和音訊 (E2B、E4B 和 12B 模型原生支援)。
多元且有效率的架構：提供不同大小的密集和專家混合 (MoE) 變體，可供大規模部署。
專為裝置端最佳化：較小的模型專為在筆電和行動裝置上有效率地執行本機作業而設計。
擴大脈絡窗口：小型模型提供 12.8 萬個詞元的脈絡窗口，中型模型則支援 25.6 萬個詞元。
強化程式設計和代理程式功能：在程式設計基準方面有顯著進步，並支援原生函式呼叫，可打造功能強大的自主代理程式。
原生系統提示支援：Gemma 4 原生支援 system 角色，可進行更結構化且可控的對話。

模型總覽

Gemma 4 模型旨在提供各尺寸的頂尖效能，適用於從行動裝置和邊緣裝置 (E2B、E4B) 到消費型 GPU 和工作站 (12B、26B A4B、31B) 的部署情境，非常適合用於推論、Agentic Workflows、程式設計和多模態理解。

這些模型採用混合式注意力機制，交錯使用局部滑動視窗注意力和全域注意力，確保最終層一律為全域。這種混合式設計可提供輕量型模型的處理速度和低記憶體用量，同時保留複雜長篇脈絡工作所需的深度感知能力。為針對長內容最佳化記憶體，全域層具有統一的鍵和值，並套用比例 RoPE (p-RoPE)。

密集模型

屬性	E2B	E4B	120 億個統一	31B Dense
參數總數	23 億個有效參數 (含嵌入層則為 51 億個)	45 億有效 (80 億含嵌入)	119.5 億	307 億
圖層	35	42	48	60
滑動視窗	512 個權杖	512 個權杖	1024 個符記	1024 個符記
脈絡長度	128,000 個權杖	128,000 個權杖	256,000 個符記	256,000 個符記
詞彙大小	26.2 萬	26.2 萬	26.2 萬	26.2 萬
支援的模態	文字、圖片、音訊	文字、圖片、音訊	文字、圖片、音訊	文字、圖片
視覺編碼器參數	約 1.5 億	約 1.5 億	-	~5.5 億
音訊編碼器參數	~3 億	~3 億	-	沒有音訊

E2B 和 E4B 中的「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE)，盡可能提高裝置端部署的參數效率。PLE 會為每個權杖提供專屬的小型嵌入，而非在模型中新增更多層或參數。這些嵌入資料表很大，但只用於快速查詢，因此有效參數計數遠小於總數。

Gemma 4 12B Unified 的「Unified」是指其無編碼器架構。其他 Gemma 4 模型會使用專用編碼器處理多模態資料，然後再傳送至 LLM。Gemma 4 12B 完全省去這些編碼器，直接透過輕量級線性層，將原始圖片修補程式和音訊波形投影至 LLM 的嵌入空間。這種統一方法表示所有模態都會直接流入單一僅解碼器轉換器，可減少多模態延遲，並在一次傳遞中微調整個模型。

混合專家 (MoE) 模型

屬性	26B A4B MoE
參數總數	252 億次
有效參數	38 億
圖層	30
滑動視窗	1024 個符記
脈絡長度	256,000 個符記
詞彙大小	26.2 萬
專家人數	8 個有效 / 128 個總數和 1 個共用
支援的模態	文字、圖片
視覺編碼器參數	~5.5 億

26B A4B 中的「A」代表「有效參數」，與模型包含的參數總數相對。在推論期間，系統只會啟動 40 億個參數的子集，因此 Mixture-of-Experts 模型的執行速度比 260 億個參數總數所暗示的快得多。因此與密集 310 億參數模型相比，這款模型幾乎與 40 億參數模型一樣快，是快速推論的絕佳選擇。

基準測試結果

我們使用大量不同的資料集和指標評估這些模型，涵蓋文字生成的多個層面。下表標示的評估結果適用於指令微調模型。

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (無思考)
MMLU Pro	85.2%	82.6%	77.2%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	77.5%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	72.0%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	1659	940	633	110
GPQA Diamond	84.3%	82.3%	78.8%	58.6%	43.4%	42.4%
Tau2 (平均值，以 3 為基準)	76.9%	68.2%	69.0%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	5.2%	-	-	-
HLE with search	26.5%	17.2%	-	-	-	-
BigBench Extra Hard	74.4%	64.8%	53.0%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	83.4%	76.6%	67.4%	70.7%
視覺輔助
MMMU Pro	76.9%	73.8%	69.1%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (平均編輯距離，越低越好)	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	79.7%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	48.7%	28.7%	23.5%	-
音訊
CoVoST	-	-	38.5	35.54	33.47	-
FLEURS (越低越好)	-	-	0.069	0.08	0.09	-
長篇脈絡資訊
MRCR v2 8 針 128k (平均)	66.4%	44.1%	43.4%	25.4%	19.1%	13.5%

核心功能

Gemma 4 模型可處理文字、視覺和音訊等各種工作，主要功能包括：

思考：內建的推論模式，可讓模型在回答前逐步思考。
長脈絡：脈絡窗口最多可達 12.8 萬個詞元 (E2B/E4B)，以及 25.6 萬個詞元 (12B/26B A4B/31B)。
圖像理解：物件偵測、文件/PDF 剖析、螢幕和 UI 理解、圖表解讀、光學字元辨識 (包括多種語言)、手寫辨識和指向。圖片可採用不同長寬比和解析度處理。
影片理解：處理一連串的影格，藉此分析影片。
交錯式多模態輸入：在單一提示中，隨意混用文字和圖片，順序不限。
函式呼叫：原生支援結構化工具使用，可啟用代理工作流程。
程式設計：生成、完成及修正程式碼。
支援多種語言：開箱即支援超過 35 種語言，並以超過 140 種語言預先訓練。
音訊 (僅限 E2B、E4B 和 12B Unified) - 自動語音辨識 (ASR) 和語音轉譯文字翻譯 (支援多種語言)。

最佳做法

如要獲得最佳成效，請採用下列設定和最佳做法：

1. 取樣參數

在所有用途中，使用下列標準化取樣設定：

temperature=1.0
top_p=0.95
top_k=64

2. 思考模式設定

與 Gemma 3 相比，這些模型使用標準的 system、assistant 和 user 角色。如要妥善管理思考過程，請使用下列控制權杖：

觸發思考：在系統提示開頭加入 <|think|> 權杖，即可啟用思考功能。如要停用思考功能，請移除該權杖。
標準生成：啟用思考功能後，模型會輸出內部推論，然後使用以下結構提供最終答案： <|channel>thought\n[內部推論]<channel|>
停用思考行為：除了 E2B 和 E4B 變體之外，如果停用思考行為，模型仍會生成標記，但思考區塊會是空白：<|channel>thought\n<channel|>[Final answer]

請注意，Transformers 和 llama.cpp 等許多程式庫都會為您處理聊天範本的複雜性。

3. 多輪對話

記錄中沒有思考內容：在多輪對話中，歷史模型輸出內容應只包含最終回覆。在下一個使用者輪次開始前，不得加入先前模型輪次的思考內容。

4. 模態順序

如要使用多模態輸入內容獲得最佳效能，請將：

提示中文字前的圖片內容。
提示文字後的音訊內容。

5. 可變圖片解析度

除了可變的長寬比，Gemma 4 還支援可變的圖片解析度，方法是透過可設定的視覺符記預算，控制用於表示圖片的符記數量。符記預算越高，保留的視覺細節就越多，但會增加運算成本；預算越低，推論速度就越快，適用於不需要細緻理解的任務。

支援的權杖預算為：70、140、280、560 和 1120。
- 對於分類、字幕或影片理解等工作，可使用較低的預算，因為這類工作著重於快速推論和處理大量影格，而非細微的細節。
- 針對 OCR、文件剖析或讀取小字等工作，使用較高的預算。

6. 音訊

請使用下列提示結構進行音訊處理：

語音辨識 (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

自動語音翻譯 (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. 音訊和影片長度

所有模型都支援圖片輸入，並可將影片處理為影格，而 E2B、E4B 和 12B 模型也支援音訊輸入。音訊長度上限為 30 秒。影片長度上限為 60 秒 (假設圖片是以每秒一個影格的速度處理)。

模型資料

用於模型訓練的資料，以及資料的處理方式。

訓練資料集

我們的預先訓練資料集是涵蓋各種領域和模態的大規模多元資料集合，包括網頁文件、程式碼、圖片和音訊，資料截止日期為 2025 年 1 月。以下是主要元件：

網頁文件：多樣化的網頁文字可確保模型接觸到各種語言風格、主題和詞彙。訓練資料集包含超過 140 種語言的內容。
程式碼：讓模型接觸程式碼，有助於學習程式設計語言的語法和模式，進而提升程式碼生成能力，並瞭解程式碼相關問題。
數學：訓練模型處理數學文字，有助於學習邏輯推理、符號表示法，以及解決數學查詢。
圖片：大量圖片可讓模型執行圖片分析和擷取視覺資料等工作。

結合這些多元資料來源，對於訓練強大的多模態模型至關重要，因為這類模型可處理各種不同的工作和資料格式。

資料預先處理

以下是套用至訓練資料的主要資料清理和篩選方法：

兒少性虐待內容篩選：在資料準備過程的多個階段，我們都嚴格篩選兒少性虐待內容，確保排除有害和違法內容。
機密資料篩選：為確保 Gemma 預先訓練模型安全可靠，我們使用自動化技術，從訓練集中篩除特定個人資訊和其他機密資料。
其他方法：根據內容品質和安全性，按照我們的政策進行篩選。

倫理與安全

隨著開放模型成為企業基礎架構的核心，出處和安全性至關重要。Gemma 4 由 Google DeepMind 開發，與專屬 Gemini 模型一樣，經過嚴格的安全評估。

評估方法

Gemma 4 模型是與內部安全和負責任的 AI 技術團隊合作開發，我們進行了各種自動化和人工評估，以提升模型安全性。這些評估作業符合 Google 的 AI 開發原則和安全政策，旨在防止生成式 AI 模型生成有害內容，包括：

兒少性虐待內容和剝削行為相關內容
危險內容 (例如宣揚自殺，或指示可能造成實際危害的活動)
情色露骨內容
仇恨言論 (例如貶抑受保護團體的成員)
騷擾 (例如鼓吹對他人施暴)

評估結果

在所有安全測試領域，相較於先前的 Gemma 模型，所有內容安全類別都有大幅進步。整體而言，Gemma 4 模型在提升安全性方面顯著優於 Gemma 3 和 3n 模型，同時將不合理的拒絕次數維持在低點。所有測試都是在沒有安全篩選器的情況下進行，以評估模型功能和行為。無論是文字轉文字和圖片轉文字，以及所有模型大小，模型產生的違規內容都極少，且相較於先前的 Gemma 模型，效能顯著提升。

使用方式和限制

這些模型有某些限制，使用者應留意。

預定用途

多模態模型 (可處理視覺、語言和/或音訊) 適用於各行各業和領域，以下列出的潛在用途僅為範例。這份清單的目的是提供模型建立者在模型訓練和開發期間考量的可能用途，以供參考。

內容製作與溝通
- 文字生成：這類模型可用於生成創意文字格式，例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI：為客戶服務、虛擬助理或互動式應用程式提供對話式介面。
- 文字摘要：生成文字語料庫、研究論文或報告的精簡摘要。
- 圖片資料擷取：這些模型可用於擷取、解讀及摘要視覺資料，以供文字通訊使用。
- 音訊處理和互動：E2B、E4B 和 12B 模型可以分析及解讀音訊輸入內容，實現語音互動和轉錄。
研究與教育
- 自然語言處理 (NLP) 和 VLM 研究：這些模型可做為研究人員的基礎，讓他們實驗 VLM 和 NLP 技術、開發演算法，並為這個領域的進展做出貢獻。
- 語言學習工具：支援互動式語言學習體驗，協助修正文法或提供寫作練習。
- 知識探索：生成摘要或回答特定主題的問題，協助研究人員探索大量文字。

限制

訓練資料
- 訓練資料的品質和多樣性會大幅影響模型的能力。訓練資料中的偏誤或缺漏可能會導致模型回覆內容受到限制。
- 訓練資料集的範圍決定了模型可有效處理的主題領域。
背景資訊和工作複雜度
- 如果能以明確的提示和指令來定義工作，模型就能順利完成。但開放式或高度複雜的工作可能較難處理。
- 模型效能可能會受到提供的背景資訊量影響 (背景資訊越長，通常輸出內容越好，但有上限)。
語言的模糊和細微差異
- 自然語言本就複雜，模型可能難以掌握細微的語氣、反諷或比喻。
事實準確度
- 模型會根據從訓練資料集學到的資訊生成回覆，但模型並非知識庫，因此可能會生成不正確或過時的事實陳述。
常識
- 模型會根據語言的統計模式，在某些情況下，AI 可能無法運用常識推理。

倫理考量和風險

開發視覺語言模型 (VLM) 會引發多項倫理疑慮。在建立開放模型時，我們仔細考量了以下事項：

偏誤和公平性
- 以大規模真實世界文字和圖片資料訓練的 VLM，可能會反映訓練資料中內含的社會文化偏誤。如本資訊卡所述，Gemma 4 模型經過仔細審查、輸入資料預先處理和訓練後評估，有助於降低這些偏見的風險。
不實資訊和濫用行為
- VLMs 可能遭到濫用，生成不實、誤導性或有害的文字。
- 我們提供負責任使用模型的相關指南，請參閱「負責任的生成式 AI 工具包」。
資訊公開與當責
- 這張模型資訊卡摘要說明模型的架構、功能、限制和評估程序。
- 以負責任的方式開發開放模型，可讓 AI 生態系統的開發人員和研究人員使用 VLM 技術，進而分享創新成果。

已識別的風險和因應措施：

生成有害內容：內容安全機制和規範至關重要。建議開發人員根據特定產品政策和應用程式用途，謹慎實施適當的內容安全防護措施。
用於惡意目的：技術限制、開發人員和使用者教育訓練，有助於防範惡意應用程式使用 VLM。提供教育資源和檢舉機制，讓使用者檢舉濫用行為。
隱私權違規：訓練模型時，我們會篩除特定個人資訊和其他私密資料。建議開發人員採用隱私權保護技術，遵守隱私權法規。
偏見延續：建議在模型訓練、微調和其他用途期間，持續監控 (使用評估指標、專人審查) 並探索去偏見技術。

優點

與同等大小的模型相比，這系列模型在發布時提供高效能的開放式視覺語言模型實作項目，專為負責任的 AI 技術開發而設計。