Interactions API 现已正式发布。我们建议使用此 API 来访问所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

上下文缓存

在典型的 AI 工作流中，您可能会反复将相同的输入 token 传递给模型。Gemini API 提供隐式缓存来优化性能和费用。

隐式缓存

对于所有 Gemini 2.5 及更高版本的模型，隐式缓存默认处于启用状态。它同时支持有状态（使用previous_interaction_id）和无状态对话模式。如果您的请求命中缓存，我们会自动传递节省的费用。您无需执行任何操作即可启用此功能。下表列出了每种模型进行上下文缓存的最小输入 token 数量：

模型	最小 token 限制
Gemini 3.5 Flash	4096
Gemini 3 Pro 预览版	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

如要提高隐式缓存命中的几率，可以：

尝试将较大且常见的内容放置在提示的开头
尝试在短时间内发送具有相似前缀的请求

您可以在响应对象的 usage.total_cached_tokens（Python 和 JavaScript）字段中查看缓存命中的 token 数量。