DiffusionGemma 模型總覽

DiffusionGemma 是實驗性開放模型,可探索文字擴散技術,這種方法生成文字的速度極快。DiffusionGemma 採用 260 億個參數 (40 億個有效參數) 的專家混合 (MoE) Gemma 4 架構,並使用離散擴散生成權杖。這個開放權重模型屬於多模態,可處理文字、圖片和影片輸入內容,然後生成文字輸出內容。

DiffusionGemma 以 MoE 為基礎,旨在提升生成速度 (每秒生成的權杖數),同時仍可部署至各種硬體環境。DiffusionGemma 以 Gemma 4 的架構和功能為基礎,並推出多項核心功能:

  • 離散文字擴散:從傳統的因果符記生成方式,轉為區塊自迴歸多畫布取樣。模型會以疊代方式對詞元區塊 (「畫布」) 進行去噪處理,並行生成文字,大幅提升解碼速度。
  • 多模態處理:原生支援文字、圖片 (支援不同長寬比和解析度) 和影片輸入內容。(注意:不支援音訊輸入)。
  • 編碼器-解碼器架構:使用自迴歸編碼器處理及快取提示內容,並搭配去噪功能,在生成畫布上套用雙向注意力。
  • 混合專家模型 (MoE) 效率:採用以 26B (4B 活躍) MoE 變體為基礎的稀疏 MoE 設計,以最少的工作負擔提供深入的推論能力。量化後,模型會符合消費者 GPU 的 18 GB VRAM 限制,非常適合在本機執行。
  • 思考模式:內建可設定的推論管道,讓模型在生成最終答案前,逐步思考。

傳統模型的取捨

傳統語言模型可批次處理數千個要求,因此非常適合大規模雲端部署,但如果只供單一使用者在本機執行,硬體資源就會未充分利用。DiffusionGemma 會同時生成整個 256 個權杖的區塊,而非一次生成一個權杖,藉此解決這個問題,並盡可能提升本機硬體效能。

不過,這種做法嚴格來說是針對面向消費者的低並行本地使用情況;因為在高 QPS 雲端工作負載下,平行解碼的效益會遞減,因此在單一加速器上,低到中等批量大小的處理量優勢最強。

為達到最佳延遲和品質,建議您部署時使用下列預設參數,進行擴散取樣設定:

參數 建議值 函式 原因
雜訊去除步數上限 48 每個畫布的去噪步數上限。 去除雜訊步數的安全上限。啟用適應性停止功能後,去除雜訊作業會在較少的步數內停止,通常取決於工作,步數為 12 到 16 步。
溫控時間表 線性 0.8 -> 0.4 溫度調度時間表,一開始會很高,然後隨著去噪步驟減少。 高溫 (0.8) 有助於早期探索;低溫 (0.4) 則會鎖定最終符記。
Adaptive Early Stopping 熵門檻:0.005 如果
A) 畫布的平均模型熵低於門檻,且
B) 兩個連續的去噪器預測結果相同,則提早停止執行。
簡單的提示和結構化工作 (例如程式碼) 需要的去噪步驟較少,因此可根據工作複雜度動態調整每秒符記數。
選擇權杖 熵界限:0.1 在每個步驟中,取樣器都會選取最低熵的權杖,確保相互資訊界限低於熵界限。取樣器會完全重新加入非選取權杖的雜訊。 確保只選取模型相對確定的權杖來精修畫布,將其他權杖留待後續去噪步驟精修。

在 Hugging Face 上取得 在 Kaggle 上取得 在 Vertex 上存取

存取實驗模型權重 (依據 Apache 2.0 授權發布),以便在自己的專案和應用程式中部署。

進一步瞭解 DiffusionGemma 架構 試用 DiffusionGemma

微調 DiffusionGemma 部署 DiffusionGemma