上下文缓存

在典型的 AI 工作流程中,您可能会反复将相同的输入令牌传递给模型。Gemini API 提供隐式缓存,以优化性能和成本。

隐式缓存

对于所有 Gemini 2.5 及更新型号,隐式缓存默认处于启用状态。如果您的请求命中缓存,我们会自动将节省的费用返还给您。您无需执行任何操作即可启用此功能。下表列出了每种模型进行上下文缓存所需的最低输入 token 数:

模型 最低 token 限制
Gemini 3 Flash 预览版 1024
Gemini 3 Pro 预览版 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

如要提高隐式缓存命中的几率,可以:

  • 尝试将较大且常见的内容放置在提示的开头
  • 尝试在短时间内发送具有相似前缀的请求

您可以在回答对象的 usage_metadata (Python) 或 usageMetadata (JavaScript) 字段中查看缓存命中的 token 数量。