DiffusionGemma 是實驗性開放模型,可探索文字擴散技術,這種方法生成文字的速度極快。DiffusionGemma 採用 260 億個參數 (40 億個有效參數) 的專家混合 (MoE) Gemma 4 架構,並使用離散擴散生成權杖。這個開放權重模型屬於多模態,可處理文字、圖片和影片輸入內容,然後生成文字輸出內容。
DiffusionGemma 以 MoE 為基礎,旨在提升生成速度 (每秒生成的權杖數),同時仍可部署至各種硬體環境。DiffusionGemma 以 Gemma 4 的架構和功能為基礎,並推出多項核心功能:
- 離散文字擴散:從傳統的因果符記生成方式,轉為區塊自迴歸多畫布取樣。模型會以疊代方式對詞元區塊 (「畫布」) 進行去噪處理,並行生成文字,大幅提升解碼速度。
- 多模態處理:原生支援文字、圖片 (支援不同長寬比和解析度) 和影片輸入內容。(注意:不支援音訊輸入)。
- 編碼器-解碼器架構:使用自迴歸編碼器處理及快取提示內容,並搭配去噪功能,在生成畫布上套用雙向注意力。
- 混合專家模型 (MoE) 效率:採用以 26B (4B 活躍) MoE 變體為基礎的稀疏 MoE 設計,以最少的工作負擔提供深入的推論能力。量化後,模型會符合消費者 GPU 的 18 GB VRAM 限制,非常適合在本機執行。
- 思考模式:內建可設定的推論管道,讓模型在生成最終答案前,逐步思考。
傳統模型的取捨
傳統語言模型可批次處理數千個要求,因此非常適合大規模雲端部署,但如果只供單一使用者在本機執行,硬體資源就會未充分利用。DiffusionGemma 會同時生成整個 256 個權杖的區塊,而非一次生成一個權杖,藉此解決這個問題,並盡可能提升本機硬體效能。
不過,這種做法嚴格來說是針對面向消費者的低並行本地使用情況;因為在高 QPS 雲端工作負載下,平行解碼的效益會遞減,因此在單一加速器上,低到中等批量大小的處理量優勢最強。
建議的放送設定
為達到最佳延遲和品質,建議您部署時使用下列預設參數,進行擴散取樣設定:
| 參數 | 建議值 | 函式 | 原因 |
|---|---|---|---|
| 雜訊去除步數上限 | 48 | 每個畫布的去噪步數上限。 | 去除雜訊步數的安全上限。啟用適應性停止功能後,去除雜訊作業會在較少的步數內停止,通常取決於工作,步數為 12 到 16 步。 |
| 溫控時間表 | 線性 0.8 -> 0.4 | 溫度調度時間表,一開始會很高,然後隨著去噪步驟減少。 | 高溫 (0.8) 有助於早期探索;低溫 (0.4) 則會鎖定最終符記。 |
| Adaptive Early Stopping | 熵門檻:0.005 | 如果 A) 畫布的平均模型熵低於門檻,且 B) 兩個連續的去噪器預測結果相同,則提早停止執行。 |
簡單的提示和結構化工作 (例如程式碼) 需要的去噪步驟較少,因此可根據工作複雜度動態調整每秒符記數。 |
| 選擇權杖 | 熵界限:0.1 | 在每個步驟中,取樣器都會選取最低熵的權杖,確保相互資訊界限低於熵界限。取樣器會完全重新加入非選取權杖的雜訊。 | 確保只選取模型相對確定的權杖來精修畫布,將其他權杖留待後續去噪步驟精修。 |
在 Hugging Face 上取得 在 Kaggle 上取得 在 Vertex 上存取
存取實驗模型權重 (依據 Apache 2.0 授權發布),以便在自己的專案和應用程式中部署。