Gemma 4 模型總覽

Gemma 是一系列生成式人工智慧模型,可用於各種生成工作,包括回答問題、摘要和推論。Gemma 模型提供開放權重,並允許負責任的商業用途,因此您可以在自己的專案和應用程式中調整及部署模型。

Gemma 4 模型系列涵蓋三種不同的架構,可滿足特定硬體需求:

  • 小型:2B 和 4B 有效參數模型,專為超行動、邊緣和瀏覽器部署作業而建構 (例如 Pixel、Chrome)。
  • 密集:功能強大的 310 億參數密集模型,可填補伺服器級效能和本機執行之間的落差。
  • Mixture-of-Experts:高效率的 260 億 MoE 模型,專為高處理量和進階推論而設計。

您可以從 KaggleHugging Face 下載 Gemma 4 模型。如要進一步瞭解 Gemma 4 的技術細節,請參閱模型資訊卡。您也可以下載舊版 Gemma 核心模型。詳情請參閱「先前的 Gemma 模型」。

在 Kaggle 上取得 在 Hugging Face 上取得

功能

  • 推論:這個系列的所有模型都設計為功能強大的推論器,並提供可設定的思考模式
  • 擴展多模態:處理文字、圖片 (支援各種長寬比和解析度,適用於所有模型)、影片音訊 (E2B 和 E4B 模型原生支援)。
  • 擴大脈絡窗口:小型模型提供 12.8 萬個詞元的脈絡窗口,中型模型則支援 25.6 萬個詞元。
  • 強化編碼和代理功能:在編碼基準方面有顯著進步,並內建函式呼叫支援,可支援功能強大的自主代理。
  • 原生系統提示支援:Gemma 4 內建系統角色支援功能,可進行更有條理且可控的對話。

參數大小和量化

Gemma 4 模型提供 4 種參數大小:E2B、E4B、31B 和 26B A4B。 這些模型可使用預設精確度 (16 位元),也可以透過量化降低精確度。不同大小和精確度代表 AI 應用程式的一組取捨。參數和位元數較高的模型 (精確度較高) 通常功能更強大,但就處理週期、記憶體成本和耗電量而言,執行成本較高。參數和位元數較低的模型 (精確度較低) 功能較少,但可能足以完成 AI 任務。

Gemma 4 推論記憶體需求

下表詳細列出使用各大小的 Gemma 4 模型版本執行推論時,大致的 GPU 或 TPU 記憶體需求。

參數 BF16 (16 位元) SFP8 (8 位元) Q4_0 (4 位元)
Gemma 4 E2B 9.6 GB 4.6 GB 3.2 GB
Gemma 4 E4B 15 GB 7.5 GB 5 GB
Gemma 4 31B 58.3 GB 30.4 GB 17.4 GB
Gemma 4 26B A4B 48 GB 25 GB 15.6 GB

表 1. 根據參數數量和量化層級,載入 Gemma 4 模型所需的 GPU 或 TPU 記憶體估計值。

記憶體規劃的考量重點

  • 高效架構 (E2B 和 E4B):「E」代表「有效」參數。較小的模型會納入每層嵌入 (PLE),盡可能提高裝置端部署的參數效率。PLE 不會為模型新增更多層,而是為每個權杖的每個解碼器層提供專屬的小型嵌入。這些嵌入資料表很大,但只用於快速查閱,因此載入靜態權重的總記憶體需求量,會高於有效參數計數所顯示的量。
  • MoE 架構 (26B A4B):26B 是專家混合模型。雖然在生成期間,每個權杖只會啟用 40 億個參數,但所有 260 億個參數都必須載入記憶體,才能維持快速的路由和推論速度。因此,其基準記憶體需求量與 260 億個參數的密集模型相近,而非 40 億個參數的模型。
  • 僅限基本權重:上表中的預估值考量載入靜態模型權重所需的記憶體。這些數字不包含支援軟體或內容視窗所需的額外 VRAM。
  • 脈絡視窗 (KV 快取):記憶體用量會根據提示中的權杖總數和產生的回應動態增加。除了基本模型權重外,更大的脈絡窗口還需要大量 VRAM。
  • 微調的額外負荷:微調 Gemma 模型所需的記憶體,遠高於標準推論。實際足跡取決於開發架構、批量大小,以及您是使用全精度調整,還是高效參數微調 (PEFT) 方法 (例如低秩適應 (LoRA))。

先前的 Gemma 模型

您可以使用前幾代的 Gemma 模型,這些模型也可在 KaggleHugging Face 上取得。如要進一步瞭解先前 Gemma 模型的技術細節,請參閱下列模型資訊卡頁面:

準備好開始建構了嗎?開始使用 Gemma 模型!