Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma 模型總覽

DiffusionGemma 是實驗性開放模型，可探索文字擴散技術，這種方法生成文字的速度極快。DiffusionGemma 採用 260 億個參數 (40 億個有效參數) 的專家混合 (MoE) Gemma 4 架構，並使用離散擴散生成權杖。這個開放權重模型屬於多模態，可處理文字、圖片和影片輸入內容，然後生成文字輸出內容。

DiffusionGemma 以 MoE 為基礎，旨在提升生成速度 (每秒生成的權杖數)，同時仍可部署至各種硬體環境。DiffusionGemma 以 Gemma 4 的架構和功能為基礎，並推出多項核心功能：

離散文字擴散：從傳統的因果符記生成方式，轉為區塊自迴歸多畫布取樣。模型會以疊代方式對詞元區塊 (「畫布」) 進行去噪處理，並行生成文字，大幅提升解碼速度。
多模態處理：原生支援文字、圖片 (支援不同長寬比和解析度) 和影片輸入內容。(注意：不支援音訊輸入)。
編碼器-解碼器架構：使用自迴歸編碼器處理及快取提示內容，並搭配去噪功能，在生成畫布上套用雙向注意力。
混合專家模型 (MoE) 效率：採用以 26B (4B 活躍) MoE 變體為基礎的稀疏 MoE 設計，以最少的工作負擔提供深入的推論能力。量化後，模型會符合消費者 GPU 的 18 GB VRAM 限制，非常適合在本機執行。
思考模式：內建可設定的推論管道，讓模型在生成最終答案前，逐步思考。

傳統模型的取捨

傳統語言模型可批次處理數千個要求，因此非常適合大規模雲端部署，但如果只供單一使用者在本機執行，硬體資源就會未充分利用。DiffusionGemma 會同時生成整個 256 個權杖的區塊，而非一次生成一個權杖，藉此解決這個問題，並盡可能提升本機硬體效能。

不過，這種做法嚴格來說是針對面向消費者的低並行本地使用情況；因為在高 QPS 雲端工作負載下，平行解碼的效益會遞減，因此在單一加速器上，低到中等批量大小的處理量優勢最強。

建議的放送設定

為達到最佳延遲和品質，建議您部署時使用下列預設參數，進行擴散取樣設定：

參數	建議值	函式	原因
雜訊去除步數上限	48	每個畫布的去噪步數上限。	去除雜訊步數的安全上限。啟用適應性停止功能後，去除雜訊作業會在較少的步數內停止，通常取決於工作，步數為 12 到 16 步。
溫控時間表	線性 0.8 -> 0.4	溫度調度時間表，一開始會很高，然後隨著去噪步驟減少。	高溫 (0.8) 有助於早期探索；低溫 (0.4) 則會鎖定最終符記。
Adaptive Early Stopping	熵門檻：0.005	如果 A) 畫布的平均模型熵低於門檻，且 B) 兩個連續的去噪器預測結果相同，則提早停止執行。	簡單的提示和結構化工作 (例如程式碼) 需要的去噪步驟較少，因此可根據工作複雜度動態調整每秒符記數。
選擇權杖	熵界限：0.1	在每個步驟中，取樣器都會選取最低熵的權杖，確保相互資訊界限低於熵界限。取樣器會完全重新加入非選取權杖的雜訊。	確保只選取模型相對確定的權杖來精修畫布，將其他權杖留待後續去噪步驟精修。

在 Hugging Face 上取得在 Kaggle 上取得在 Vertex 上存取

存取實驗模型權重 (依據 Apache 2.0 授權發布)，以便在自己的專案和應用程式中部署。

進一步瞭解 DiffusionGemma 架構試用 DiffusionGemma

微調 DiffusionGemma 部署 DiffusionGemma