Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API 优化和推理

Gemini API 提供多种优化机制，可帮助您根据具体的工作负载需求平衡速度、费用和可靠性。无论您是构建实时对话机器人，还是运行繁重的离线数据处理流水线，选择合适的范式都可以显著降低成本或提升性能。

推理服务层级（同步）

您可以在标准生成调用中传递 service_tier 参数，从而在可靠性优化和费用优化之间切换同步流量。

标准层级是顺序生成内容的默认选项。它可提供正常的响应时间，无需额外付费或排长队。

优先处理会将您的请求路由到高严重性计算队列。此类流量严格来说是不可丢弃的（永远不会被其他层级抢占），并且提供最高的可靠性。如果您超出动态优先级限制，系统会将请求降级为标准处理，而不是失败并显示错误。

灵活推理利用机会性非高峰计算容量，与标准费率相比可节省 50% 的费用。请求会同步处理，这意味着您无需重写代码来管理批处理对象。由于它是“可舍弃”的流量，因此如果系统遇到标准流量高峰，请求可能会被抢占。

Batch API 旨在以标准费用 50% 的价格异步处理大量请求。您可以内嵌字典的形式提交请求，也可以使用 JSONL 输入文件（最大 2 GB）提交请求。它使用后台吞吐量队列处理请求，目标周转时间为 24 小时。

当较短的请求重复引用大量初始上下文时，可以使用上下文缓存。