Gemma 是一系列生成式人工智慧模型,可用於各種生成工作,包括回答問題、摘要和推論。Gemma 模型提供開放權重,並允許負責任的商業用途,因此您可以在自己的專案和應用程式中調整及部署模型。
Gemma 4 模型系列涵蓋三種不同的架構,可滿足特定硬體需求:
- 小型:2B 和 4B 有效參數模型,專為超行動、邊緣和瀏覽器部署作業而建構 (例如 Pixel、Chrome)。
- 密集:功能強大的 310 億參數密集模型,可填補伺服器級效能和本機執行之間的落差。
- Mixture-of-Experts:高效率的 260 億 MoE 模型,專為高處理量和進階推論而設計。
您可以從 Kaggle 和 Hugging Face 下載 Gemma 4 模型。如要進一步瞭解 Gemma 4 的技術細節,請參閱模型資訊卡。您也可以下載舊版 Gemma 核心模型。詳情請參閱「先前的 Gemma 模型」。
在 Kaggle 上取得 在 Hugging Face 上取得
功能
- 推論:這個系列的所有模型都設計為功能強大的推論器,並提供可設定的思考模式。
- 擴展多模態:處理文字、圖片 (支援各種長寬比和解析度,適用於所有模型)、影片和音訊 (E2B 和 E4B 模型原生支援)。
- 擴大脈絡窗口:小型模型提供 12.8 萬個詞元的脈絡窗口,中型模型則支援 25.6 萬個詞元。
- 強化編碼和代理功能:在編碼基準方面有顯著進步,並內建函式呼叫支援,可支援功能強大的自主代理。
- 原生系統提示支援:Gemma 4 內建系統角色支援功能,可進行更有條理且可控的對話。
參數大小和量化
Gemma 4 模型提供 4 種參數大小:E2B、E4B、31B 和 26B A4B。 這些模型可使用預設精確度 (16 位元),也可以透過量化降低精確度。不同大小和精確度代表 AI 應用程式的一組取捨。參數和位元數較高的模型 (精確度較高) 通常功能更強大,但就處理週期、記憶體成本和耗電量而言,執行成本較高。參數和位元數較低的模型 (精確度較低) 功能較少,但可能足以完成 AI 任務。
Gemma 4 推論記憶體需求
下表詳細列出使用各大小的 Gemma 4 模型版本執行推論時,大致的 GPU 或 TPU 記憶體需求。
| 參數 | BF16 (16 位元) | SFP8 (8 位元) | Q4_0 (4 位元) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
表 1. 根據參數數量和量化層級,載入 Gemma 4 模型所需的 GPU 或 TPU 記憶體估計值。
記憶體規劃的考量重點
- 高效架構 (E2B 和 E4B):「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE),盡可能提高裝置端部署的參數效率。PLE 不會為模型新增更多層,而是為每個權杖的每個解碼器層提供專屬的小型嵌入。這些嵌入資料表很大,但只用於快速查閱,因此載入靜態權重的總記憶體需求量,會高於有效參數計數所顯示的量。
- MoE 架構 (26B A4B):26B 是專家混合模型。雖然在生成期間,每個權杖只會啟用 40 億個參數,但所有 260 億個參數都必須載入記憶體,才能維持快速的路由和推論速度。因此,其基準記憶體需求量與 260 億個參數的密集模型相近,而非 40 億個參數的模型。
- 僅限基本權重:上表中的預估值僅考量載入靜態模型權重所需的記憶體。這些數字不包含支援軟體或內容視窗所需的額外 VRAM。
- 脈絡視窗 (KV 快取):記憶體用量會根據提示中的權杖總數和產生的回應動態增加。除了基本模型權重外,更大的脈絡窗口還需要大量 VRAM。
- 微調的額外負荷:微調 Gemma 模型所需的記憶體,遠高於標準推論。實際足跡取決於開發架構、批量大小,以及您是使用全精度調整,還是高效參數微調 (PEFT) 方法 (例如低秩適應 (LoRA))。
先前的 Gemma 模型
您可以使用前幾代的 Gemma 模型,這些模型也可在 Kaggle 和 Hugging Face 上取得。如要進一步瞭解先前 Gemma 模型的技術細節,請參閱下列模型資訊卡頁面:
- Gemma 3 模型資訊卡
- Gemma 2 Model Card
- Gemma 1 模型資訊卡
準備好開始建構了嗎?開始使用 Gemma 模型!