Gemma 是一系列生成式人工智慧模型,可用於各種生成工作,包括回答問題、重點摘要和推論。Gemma 模型提供開放權重,並允許負責任的商業用途,因此您可以在自己的專案和應用程式中調整及部署這些模型。
Gemma 4 模型系列涵蓋四種不同的架構,可滿足特定硬體需求:
- 小型:2B 和 4B 有效參數模型,專為超行動、邊緣和瀏覽器部署作業而建構 (例如 Pixel、Chrome)。
- 密集:功能強大的 310 億參數密集模型,可彌補伺服器級效能與本機執行之間的落差。
- Mixture-of-Experts:高效的 260 億 MoE 模型,專為高輸送量和進階推論而設計。
- 統一:120 億參數編碼器免費模型,適用於多模態工作,並以輸入內容的直接線性投影取代視覺和音訊編碼器。
您可以從 Kaggle 和 Hugging Face 下載 Gemma 4 模型。如要進一步瞭解 Gemma 4 的技術詳細資料,請參閱模型資訊卡。您也可以下載舊版 Gemma 核心模型。詳情請參閱「舊版 Gemma 模型」。
在 Kaggle 上取得 在 Hugging Face 上取得
功能
- 推論:這個系列的所有模型都設計為功能強大的推論器,並提供可設定的思考模式。
- 擴展多模態:處理文字、圖片 (支援可變的長寬比和解析度,適用於所有模型)、影片和音訊 (E2B、E4B 和 12B 模型原生支援)。
- 擴大脈絡窗口:小型模型提供 12.8 萬個詞元的脈絡窗口,中型模型則支援 25.6 萬個詞元。
- 加強型編碼和代理功能:在編碼基準方面有顯著進步,並內建函式呼叫支援,可打造功能強大的自動代理。
- 原生系統提示支援:Gemma 4 內建支援系統角色,可進行更結構化且可控的對話。
- 多詞元預測:所有 Gemma 4 模型 (E2B、E4B、12B、31B 和 26B A4B) 都包含專用的草稿模型,可進行推測解碼,大幅加快推論速度,且不會降低品質。
參數大小和量化
Gemma 4 模型提供 5 種參數大小:E2B、E4B、12B、31B 和 26B A4B。模型可使用預設精確度 (16 位元),或透過量化以較低精確度使用。不同大小和精確度代表一組 AI 應用程式的取捨。參數和位元數較高的模型 (精確度較高) 通常功能較強,但就處理週期、記憶體成本和耗電量而言,執行成本較高。參數和位元數較低的模型 (精確度較低) 功能較少,但可能足以完成 AI 任務。
Gemma 4 推論記憶體需求
下表詳細列出使用各大小的 Gemma 4 模型版本執行推論時,大致的 GPU 或 TPU 記憶體需求。
| 參數 | BF16 (16 位元) | SFP8 (8 位元) | Q4_0 (4 位元) | 行動裝置 | 行動裝置 (僅限文字) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 GB | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5 GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
表 1. 根據參數數量、量化層級和載入其他項目時 20% 的額外負荷,載入 Gemma 4 模型所需的 GPU 或 TPU 記憶體估計值。行動版使用 LiteRT-LM。
記憶體規劃的考量重點
- 高效率架構 (E2B 和 E4B):「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE),盡可能提高裝置端部署作業的參數效率。PLE 會為每個權杖提供專屬的小型嵌入,而非在模型中新增更多層。這些嵌入表格很大,但只用於快速查閱,因此載入靜態權重的總記憶體需求,會高於有效參數計數。
- MoE 架構 (26B A4B):26B 是專家混合模型。雖然在生成期間,每個權杖只會啟用 40 億個參數,但所有 260 億個參數都必須載入記憶體,才能維持快速的路由和推論速度。因此,其基準記憶體需求量與 260 億參數的密集模型相近,而非 40 億參數的模型。
- 僅限基本權重:上表中的預估值僅考量載入靜態模型權重所需的記憶體,不包含支援軟體或內容視窗所需的額外 VRAM。
- 脈絡視窗 (KV 快取):記憶體用量會根據提示中的權杖總數和產生的回應動態增加。除了基本模型權重外,更大的脈絡窗口還需要大量 VRAM。
- 微調的額外負荷:微調 Gemma 模型時的記憶體需求,遠高於標準推論。實際足跡會受到開發框架、批量大小,以及您是使用全精度微調,還是高效參數微調 (PEFT) 方法 (例如低秩適應 (LoRA)) 的影響。
量化感知訓練 (QAT)
如要部署模型並盡可能提高效率,同時將品質影響降到最低,Gemma 提供官方的量子化感知訓練 (QAT) 模型。
與標準的訓練後量化 (PTQ) 不同,QAT 會將量化模擬整合到訓練程序本身,而非壓縮完全訓練的模型,因此不會導致品質下降。這可讓模型學會補償精確度損失,進而產生較小的模型,效能幾乎與高精確度基準模型相同。
快速路由表
| 目標部署引擎 | 下載後綴 | 主要用途 |
|---|---|---|
| llama.cpp / LM Studio (本機) | {model-name}-qat-q4_0-gguf |
在 CPU、Apple Silicon 或消費型 GPU 上,以零設定方式在本機部署。 |
| vLLM / SGLang | 伺服器:{model-name}-qat-w4a16-ct行動裝置: {model-name}-qat-mobile-ct |
利用 4 位元權重和 16 位元啟動,實現高處理量推論。 |
| 推測解碼 | 模型:{model-name}-qat-q4_0-unquantized繪圖師: {model-name}-qat-q4_0-unquantized-assistant |
與相符的 MTP 草稿模型並行執行主要模型,大幅加快權杖生成速度。模型必須經過量子化。 |
| 其他格式 | {model-name}-qat-q4_0-unquantized |
轉換為其他格式 (例如 MLX) 的未量化權重 |
| 行動裝置部署 (Transformer) | {model-name}-qat-mobile-transformers |
針對行動裝置用途最佳化的邊緣權重,可做為其他格式的參考。 |
Hugging Face 上的官方 QAT 集合
- collections/google/gemma-4-qat-q4-0
- 未量化 QAT 檢查點 (
-unquantized/-assistant): 直接從 QAT 管道擷取的半精度權重。這些模型非常適合用於自訂下游編譯、研究,或使用助理草稿模型執行推測解碼。適用於 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。 - GGUF (
-gguf):檢查點可立即用於本機 LLM 生態系統,確保相容性。適用於 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。 - 壓縮張量 (
-w4a16-ct):以compressed-tensors標準原生序列化,可最佳化高並行雲端服務。適用於 Gemma 4 E2B、E4B、12B 和 31B。
- 未量化 QAT 檢查點 (
- collections/google/gemma-4-qat-mobile
- 針對行動裝置最佳化 (
-mobile-transformers/-mobile-ct):以專為行動裝置硬體限制設計的自訂wNa8o8架構為基礎。這項技術會運用目標 2 位元解碼層、最佳化 KV 快取和靜態啟用,盡量節省裝置端 RAM,同時不會造成邊緣處理器負載過重。適用於 Gemma 4 E2B 和 E4B。
- 針對行動裝置最佳化 (
您也可以直接從 Kaggle 存取所有官方 Gemma 4 QAT 檢查點。
先前的 Gemma 模型
您可以使用前幾代的 Gemma 模型,這些模型也可在 Kaggle 和 Hugging Face 取得。如要進一步瞭解前幾代 Gemma 模型,請參閱下列模型資訊卡頁面:
準備好開始建構了嗎?開始使用 Gemma 模型!