Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 模型總覽

Gemma 是一系列生成式人工智慧模型，可用於各種生成工作，包括回答問題、摘要和推論。Gemma 模型提供開放權重，並允許負責任的商業用途，因此您可以在自己的專案和應用程式中調整及部署模型。

Gemma 4 模型系列涵蓋三種不同的架構，可滿足特定硬體需求：

小型：2B 和 4B 有效參數模型，專為超行動、邊緣和瀏覽器部署作業而建構 (例如 Pixel、Chrome)。
密集：功能強大的 310 億參數密集模型，可彌合伺服器級效能與本機執行之間的差距。
Mixture-of-Experts:這款 260 億參數的 MoE 模型效率極高，專為高處理量和進階推論而設計。

您可以從 Kaggle 和 Hugging Face 下載 Gemma 4 模型。如要進一步瞭解 Gemma 4 的技術細節，請參閱模型資訊卡。您也可以下載舊版 Gemma 核心模型。詳情請參閱「先前的 Gemma 模型」。

在 Kaggle 上取得在 Hugging Face 上取得

功能

推理：這個系列的所有模型都具備強大的推理能力，並提供可設定的思考模式。
擴展多模態：處理文字、圖片 (支援各種顯示比例和解析度，適用於所有模型)、影片和音訊 (E2B 和 E4B 模型原生支援)。
擴大脈絡窗口：小型模型的脈絡窗口為 128K，中型模型則支援 256K。
加強型編碼和代理功能：在編碼基準方面有顯著進步，並內建函式呼叫支援，可打造功能強大的自主代理。
原生系統提示支援：Gemma 4 內建支援系統角色，可進行更結構化且可控的對話。
多詞元預測：所有 Gemma 4 模型 (E2B、E4B、31B 和 26B A4B) 都包含專用的草稿模型，可進行推測解碼，因此能大幅加快推論速度，且不會降低品質。

參數大小和量化

Gemma 4 模型提供 4 種參數大小：E2B、E4B、31B 和 26B A4B。這些模型可搭配預設精確度 (16 位元) 使用，也可以透過量化降低精確度。不同大小和精確度代表 AI 應用程式的一組取捨。參數和位元數較高的模型 (精確度較高) 通常功能更強大，但就處理週期、記憶體成本和耗電量而言，執行成本較高。參數和位元數較低的模型 (精確度較低) 功能較少，但可能足以完成 AI 任務。

Gemma 4 推論記憶體需求

下表詳細列出使用各大小的 Gemma 4 模型版本執行推論時，大致的 GPU 或 TPU 記憶體需求。

參數	BF16 (16 位元)	SFP8 (8 位元)	Q4_0 (4 位元)
Gemma 4 E2B	9.6 GB	4.6 GB	3.2 GB
Gemma 4 E4B	15 GB	7.5 GB	5 GB
Gemma 4 31B	58.3 GB	30.4 GB	17.4 GB
Gemma 4 26B A4B	48 GB	25 GB	15.6 GB

表 1. 根據參數數量和量化層級，載入 Gemma 4 模型所需的 GPU 或 TPU 記憶體估計值。

記憶體規劃的考量重點

高效架構 (E2B 和 E4B)：「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE)，盡可能提高裝置端部署的參數效率。PLE 不會在模型中新增更多層，而是為每個權杖的每個解碼器層提供專屬的小型嵌入。這些嵌入資料表很大，但只用於快速查閱，因此載入靜態權重的總記憶體需求量，會高於有效參數計數所顯示的量。
MoE 架構 (26B A4B)：26B 是專家混合模型。雖然在生成期間，每個權杖只會啟用 40 億個參數，但所有 260 億個參數都必須載入記憶體，才能維持快速的路由和推論速度。因此，與 40 億參數模型相比，這款模型的基準記憶體需求量更接近 260 億參數的密集模型。
僅限基本權重：上表中的預估值僅考量載入靜態模型權重所需的記憶體。這些數字不包含支援軟體或內容視窗所需的額外 VRAM。
脈絡視窗 (KV 快取)：記憶體用量會根據提示中的權杖總數和產生的回應動態增加。除了基本模型權重外，較大的脈絡窗口還需要大量 VRAM。
微調的額外負荷：微調 Gemma 模型所需的記憶體，遠高於標準推論。實際足跡取決於開發架構、批量大小，以及您是使用全精度調整，還是高效參數微調 (PEFT) 方法 (例如低秩適應 (LoRA))。

先前的 Gemma 模型

您可以使用前幾代的 Gemma 模型，這些模型也可在 Kaggle 和 Hugging Face 上取得。如要進一步瞭解先前 Gemma 模型的技術細節，請參閱下列模型資訊卡頁面：

Gemma 3 模型資訊卡
Gemma 2 Model Card
Gemma 1 模型資訊卡

準備好開始建構了嗎？開始使用 Gemma 模型！