Interactions API 现已正式发布。我们建议使用此 API 来访问所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

上下文缓存

在典型的 AI 工作流中，您可能会反复将相同的输入 token 传递给模型。Gemini API 提供隐式缓存，以优化性能和费用。

隐式缓存

对于所有 Gemini 2.5 及更高版本的模型，隐式缓存默认处于启用状态。如果您的请求命中缓存，我们会自动传递节省的费用。您无需执行任何操作即可启用此功能。下表中列出了每种模型的上下文缓存的最小输入 token 数量：

如要提高隐式缓存命中的几率，可以：

您可以在响应对象的 usage_metadata (Python) 或 usageMetadata (JavaScript) 字段中查看缓存命中的 token 数量。