RecurrentGemma

RecurrentGemma 指的是根據 Griffin 是一種混合型模型架構 混合了封閉式線性週期和局部滑動視窗注意力。

和 Gemma 一樣,RecurrentGemma 尤其適合用於 像是回答問題、摘要等 。不過,RecurrentGemma 的獨特架構提供下列額外 優點:

  • 記憶體需求較低,在記憶體有限的裝置 (例如單一 GPU 或 CPU) 上產生較長的樣本。
  • RecurrentGemma 能以極高的批量執行推論,因此每秒可產生更多符記,尤其是產生長序列時。
  • RecurrentGemma 與 Gemma 的效能相輔相成,不但需要較少記憶體,還能加快推論速度。

其他資源

RecurrentGemma 的模型資訊卡內含模型、實作資訊、評估資訊、模型用法和限制等詳細資訊。
在 Kaggle 上查看更多與 RecurrentGemma 相關的程式碼、Colab 筆記本、資訊和討論。
在 GitHub 上執行 JAX 和 PyTorch 適用的範例 Colab 筆記本。