在 Gemma 4 中,多權杖預測 (MTP) 是用於啟用高效率推測解碼的特定架構。推測解碼是一種技術,可加速大型語言模型的推論作業。這項技術不會只依賴大型目標模型自動迴歸生成詞元 (一次生成一個詞元,每個新詞元都取決於先前的詞元),而是使用較小且速度較快的「草稿模型」預測多個詞元。目標模型接著會平行驗證這些草擬的權杖。如果目標模型拒絕草擬的權杖,仍會為該位置產生正確的權杖 (確保不會浪費步驟),草擬模型會從該新權杖繼續預測。
Gemma 4 會使用這個較小且速度較快的草稿模型擴充基礎模型,藉此實作 MTP。這個草稿模型並非獨立模型,因為它與目標模型共用輸入嵌入資料表,並直接以目標模型的最後一層啟用為基礎建構而成。這可大幅加快解碼速度,同時確保與標準自迴歸生成相同的品質,因此這些檢查點非常適合低延遲和裝置端應用程式。
推測解碼會草擬多個權杖,並在單一前向傳遞中驗證這些權杖。對於密集模型,每個權杖都會使用相同的權重,因此驗證多個草擬權杖只會增加極少的負擔。混合專家模型 (MoE),例如 Gemma 4 26B A4B,運作方式不同。每個權杖可能會啟動不同的專家,因此驗證草擬權杖可能需要從記憶體載入額外的專家權重,抵銷草擬權杖帶來的效益。批次大小越大,序列中啟用的專家通常就越重疊,因此可提高載入權重的重複使用率。在批量大小為 1 時,這種重疊會受到限制,因此在沒有良好平行處理的硬體平台上,26B A4B 草稿產生器可能無法加快速度。
MTP 強化功能
Gemma 4 對標準推測解碼管道進行多項強化,可提升草擬權杖的品質和效率:
- 共用輸入嵌入:草稿模型會與目標模型共用輸入嵌入表格。
- 目標啟動:草稿模型會使用目標模型最後一層的啟動,將其與詞元嵌入內容串連,然後向下投影至草稿模型維度。
- 高效能嵌入器:為避免預測整個詞彙時耗費大量運算資源,模型會將類似的符記分組到叢集中。系統會先找出最有可能的叢集,然後將最終計算限制在這些所選叢集內的權杖 (僅限 E2B 和 E4B)。