Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

上下文缓存

注意：此版本的页面介绍了新的 Interactions API，该 API 目前为 Beta 版。
对于稳定的生产部署，我们建议您继续使用 generateContent API。您可以使用此页面上的切换开关在不同版本之间切换。

在典型的 AI 工作流程中，您可能会反复将相同的输入令牌传递给模型。Gemini API 提供隐式缓存，以优化性能和成本。

隐式缓存

对于所有 Gemini 2.5 及更新型号，隐式缓存默认处于启用状态。如果您的请求命中缓存，我们会自动将节省的费用返还给您。您无需执行任何操作即可启用此功能。下表列出了每种模型进行上下文缓存所需的最低输入 token 数：

如要提高隐式缓存命中的几率，可以：

您可以在回答对象的 usage_metadata (Python) 或 usageMetadata (JavaScript) 字段中查看缓存命中的 token 数量。