脈絡快取

在典型的 AI 工作流程中,您可能會反覆將相同的輸入權杖傳遞至模型。Gemini API 提供隱含快取功能,可提升效能並節省費用。

隱含快取

根據預設,所有 Gemini 2.5 以上版本模型都會啟用隱式快取功能。如果要求命中快取,系統會自動傳送節省的費用。您無須執行任何操作即可啟用這項功能。下表列出各模型內容快取功能的輸入權杖數量下限:

模型 最低權杖限制
Gemini 3.5 Flash 4096
Gemini 3.1 Pro 預先發布版 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

如要提高隱含快取命中的機率,請採取下列行動:

  • 請嘗試在提示開頭放入大型和常見內容
  • 嘗試在短時間內傳送具有類似前置字串的要求

您可以在回應物件的 usage_metadata (Python) 或 usageMetadata (JavaScript) 欄位中,查看快取命中次數。