Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用多權杖預測功能加快 Gemma 4 的速度

在 Gemma 4 中，多權杖預測 (MTP) 是用於啟用高效率推測解碼的特定架構。推測解碼是一種技術，可加速大型語言模型的推論作業。這項技術不會只依賴大型目標模型自動迴歸生成詞元 (一次生成一個詞元，每個新詞元都取決於先前的詞元)，而是使用較小且速度較快的「草稿模型」預測多個詞元。目標模型接著會平行驗證這些草擬的權杖。如果目標模型拒絕草擬的權杖，仍會為該位置產生正確的權杖 (確保不會浪費步驟)，草擬模型會從該新權杖繼續預測。

Gemma 4 會使用這個較小且速度較快的草稿模型擴充基礎模型，藉此實作 MTP。這個草稿模型並非獨立模型，因為它與目標模型共用輸入嵌入資料表，並直接以目標模型的最後一層啟用為基礎建構而成。這可大幅加快解碼速度，同時確保與標準自迴歸生成相同的品質，因此這些檢查點非常適合低延遲和裝置端應用程式。

推測解碼會草擬多個權杖，並在單一前向傳遞中驗證這些權杖。對於密集模型，每個權杖都會使用相同的權重，因此驗證多個草擬權杖只會增加極少的負擔。混合專家模型 (MoE)，例如 Gemma 4 26B A4B，運作方式不同。每個權杖可能會啟動不同的專家，因此驗證草擬權杖可能需要從記憶體載入額外的專家權重，抵銷草擬權杖帶來的效益。批次大小越大，序列中啟用的專家通常就越重疊，因此可提高載入權重的重複使用率。在批量大小為 1 時，這種重疊會受到限制，因此在沒有良好平行處理的硬體平台上，26B A4B 草稿產生器可能無法加快速度。

MTP 強化功能

Gemma 4 對標準推測解碼管道進行多項強化，可提升草擬權杖的品質和效率：

共用輸入嵌入：草稿模型會與目標模型共用輸入嵌入表格。
目標啟動：草稿模型會使用目標模型最後一層的啟動，將其與詞元嵌入內容串連，然後向下投影至草稿模型維度。
高效能嵌入器：為避免預測整個詞彙時耗費大量運算資源，模型會將類似的符記分組到叢集中。系統會先找出最有可能的叢集，然後將最終計算限制在這些所選叢集內的權杖 (僅限 E2B 和 E4B)。