RecurrentGemma

RecurrentGemma 是以 Griffin 為基礎打造的開放式模型,這種混合型模型結合了閘門線性週期和本機滑動視窗注意力。

和 Gemma 一樣,RecurrentGemma 非常適合處理文字生成工作,包括回答問題、摘要和推理。然而,RecurrentGemma 的獨特架構提供以下額外優勢:

  • 記憶體需求較低,在記憶體有限的裝置 (例如單一 GPU 或 CPU) 上產生較長的樣本。
  • RecurrentGemma 能以極高的批量執行推論,因此每秒可產生更多符記,尤其是產生長序列時。
  • RecurrentGemma 與 Gemma 的效能相輔相成,不但需要較少記憶體,還能加快推論速度。

其他資源

RecurrentGemma 的模型資訊卡內含模型、實作資訊、評估資訊、模型用法和限制等詳細資訊。
在 Kaggle 上查看更多與 RecurrentGemma 相關的程式碼、Colab 筆記本、資訊和討論。
在 GitHub 上執行 JAX 和 PyTorch 適用的範例 Colab 筆記本。