脈絡快取

在典型的 AI 工作流程中,您可能會反覆將相同的輸入權杖傳遞至模型。Gemini API 提供隱含快取功能,可提升效能並節省費用。

隱含快取

所有 Gemini 2.5 以上版本模型都會預設啟用隱式快取功能。如果要求命中快取,系統會自動將節省的費用退還給您。這項功能會自動啟用,您無需採取任何行動。下表列出各模型進行內容快取時的最低輸入權杖數:

型號 最低權杖限制
Gemini 3 Flash 預先發布版 1024
Gemini 3 Pro 預先發布版 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

如要提高隱含快取命中的機率,請採取下列行動:

  • 嘗試在提示開頭放入大型和常見內容
  • 嘗試在短時間內傳送具有類似前置字串的要求

您可以在回應物件的 usage_metadata (Python) 或 usageMetadata (JavaScript) 欄位中,查看快取命中次數的權杖數量。