Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

文字生成中的擴散說明

如要瞭解 DiffusionGemma，建議先瞭解標準語言模型的核心限制，以及文字擴散的差異。

自我迴歸模型的問題

自迴歸與擴散

許多大型語言模型 (LLM) 都是自迴歸模型，也就是一次生成一個權杖。雖然這種方法很適合透過批次處理同時服務多位使用者，但會造成個別使用者的延遲瓶頸。

在解碼階段，標準 Transformer 模型是記憶體繫結，而非運算繫結。大部分的生成時間都用於將模型權重從硬體記憶體載入處理單元，而非執行實際的數學計算。由於權重在每個步驟中只需要載入一次，因此無論批量大小為何，為 1 位使用者生成權杖所花費的時間，與為 256 位使用者分組生成權杖所花費的時間幾乎相同。

因此，個別使用者不會感受到延遲優勢；硬體在等待記憶體傳輸時，運算能力會閒置。

DiffusionGemma 簡介

DiffusionGemma舉例來說，如果 256 位使用者各自生成 1 個權杖，DiffusionGemma 會為單一使用者一次生成 256 個權杖。

模型會初始化 256 個隨機符記的空白序列 (稱為「畫布」)，並同時反覆評估及修正整個畫布。這會讓模型從受記憶體限制轉為受運算限制，進而隨著運算能力提升，有效擴充處理速度。

面向	文字自迴歸	Text Diffusion
權杖生成	一次一個權杖	一次取得完整畫布的權杖
步驟	每個權杖一個步驟	一次驗證多個權杖
生成順序	由左至右	所有位置並行
起點	空序列	從字彙表隨機取樣的權杖
錯誤修正	靜態，無法修訂過去的權杖	動態，可修訂任何畫布位置
硬體瓶頸	記憶體受限	受運算限制
處理量焦點	高多使用者處理量	超低單一使用者延遲

瞭解文字擴散機制

在圖像生成過程中，擴散模型會先從 100% 隨機高斯雜訊開始，然後在文字提示詞的引導下，逐步移除雜訊 (去噪)。將這項邏輯轉換為文字更具挑戰性，因為文字權杖是離散實體，不像連續像素值。

DiffusionGemma 透過一系列專業方法，逐步實現以文字為基礎的擴散：

1. 遮罩擴散

遮罩擴散

早期的文字擴散技術與 BERT 訓練類似，都是採用遮罩。序列中的隨機符記會替換為 [MASK] 符記 (代表雜訊)。在反向擴散期間，模型會預測遮罩後方的正確符記，並在信賴度達到特定門檻時替換符記。

不過，遮罩擴散法有其限制：[MASK] 權杖一旦替換成字詞，就無法再變更。如果周遭環境有所變化，後續步驟就無法修正。

2. Uniform State Diffusion

Uniform State Diffusion

為解決遮蓋限制，DiffusionGemma 使用均勻狀態擴散。系統不會使用明確的 [MASK] 符記，而是從詞彙中選取完全隨機的符記，取代原始字詞來加入雜訊。

在去噪過程中，模型會分析整個畫布，判斷哪些符記是情境噪音並更新。如果符記正確，模型會保留高機率。如果符記的機率因後續步驟中出現的新情境而低於門檻，模型會使用新的隨機符記重新去噪。這個週期可持續修正錯誤，並平行精進畫布。

架構：增量預先填入和去噪

Block Autoregressive Denoising

DiffusionGemma 會在「增量預先填入」和「去噪」之間交替，有效率地實作 Uniform State Diffusion。Gemma 4 26B A4B 模型並非原生使用，而是經過微調，可支援不同的去噪和編碼工作。單一主幹會在兩種模式之間動態切換，不必使用個別模型：

預先填入 / 增量預先填入 (因果)：使用因果注意力機制擷取提示脈絡，並寫入 KV 快取。這項作業會執行一次，預先填入初始脈絡，然後每個區塊執行一次，將每個最終的 256 個權杖畫布附加至 KV 快取，再繼續對下一個畫布進行去噪。
去噪 (雙向)：使用雙向注意力，反覆對畫布去噪。畫布上任何位置的查詢權杖都可以處理所有其他畫布權杖 (以及 KV 快取)，讓模型雙向處理內容。

進階推論架構

如要將畫布從純雜訊轉換為最終文字，DiffusionGemma 會使用一系列基礎解碼系統：

自我調節

在推論期間，解碼器 (又稱去噪器) 會保留先前的狀態。完成去噪步驟後，解碼器會將產生的機率分布矩陣乘以符記嵌入資料表。這會產生局部向量表示，其中包含先前的預測和信賴度指標記憶，並直接傳遞至下一個步驟。

多畫布取樣 (區塊擴散)

由於單一畫布固定為 256 個權杖，DiffusionGemma 會將擴散和自動迴歸鏈結在一起，用於長篇文字。系統會執行擴散週期，產生完整的 256 個權杖區塊，將該區塊附加至提示內容，更新編碼器的 KV 快取，並啟動全新的 256 個權杖畫布擴散週期。

摘要

標準自迴歸語言模型會依序生成文字 (一次一個符記)，因此會受到記憶體限制，並為個別使用者造成延遲瓶頸。DiffusionGemma 解決了這個問題，改用運算量受限的模型，同時生成完整的 256 個權杖「畫布」。

模型會運用統一狀態擴散，以隨機詞彙雜訊取代文字，並同時反覆修正整個畫布。這項模型使用微調的 Gemma 4 26B A4B，支援去噪和編碼等不同工作。透過自我調節、多畫布區塊取樣等進階架構，模型可動態修正錯誤、處理長篇生成內容，並達到超低單一使用者延遲。