上下文缓存

在典型的 AI 工作流程中,您可能会反复将相同的输入令牌传递给模型。Gemini API 提供隐式缓存,以优化性能和成本。

隐式缓存

默认情况下,所有 Gemini 2.5 及更新型号均已启用隐式缓存。如果您的请求命中缓存,我们会自动为您节省费用。您无需执行任何操作即可启用此功能。下表列出了每种型号的上下文缓存所需的最低输入令牌数量:

模型 最低 token 限制
Gemini 3.5 Flash 4096
Gemini 3 Pro 预览版 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

如要提高隐式缓存命中的几率,可以:

  • 尝试将较大且常见的内容放置在提示的开头
  • 尝试在短时间内发送具有相似前缀的请求

您可以在响应对象的 usage_metadata (Python) 或 usageMetadata (JavaScript) 字段中查看缓存命中次数。