Gemini API 优化和推理

Gemini API 提供多种优化机制,可帮助您根据具体的工作负载需求平衡速度、费用和可靠性。无论您是构建实时对话机器人,还是运行繁重的离线数据处理流水线,选择合适的范式都可以显著降低成本或提升性能。

功能 标准 Flex 优先级 批量 缓存
价格 全价 5 折优惠 比标准版多 75% 到 100% 5 折优惠 按比例计算的令牌存储空间
延迟时间 秒到分钟 分钟(目标时长为 1-15 分钟) 低(秒) 最长 24 小时 首 token 延迟更短
可靠性 高 / 中高 尽力而为(可舍弃) 高(不易掉毛) 高(针对吞吐量) 不适用
接口 同步 同步 同步 异步 保存的状态
最佳使用场景 常规应用工作流 非紧急顺序链 面向用户的正式版应用 海量数据集、离线评估 针对同一文件的重复查询

推理服务层级(同步)

您可以在延迟优化型同步流量和费用优化型同步流量之间切换,只需在标准生成调用中传递 service_tier 参数即可。

标准推理(默认)

标准层级是顺序生成内容的默认选项。它可提供正常的响应时间,无需额外付费或排长队。

  • 延迟时间:几秒到几分钟。
  • 价格:标准价格。
  • 最适合:大多数日常交互式应用。

优先推理(延迟时间优化)

优先处理会将您的请求路由到高严重性计算队列。此类流量严格来说是不可丢弃的(永远不会被其他层级抢占),并且提供最高的可靠性。如果您超出动态优先级限制,系统会将请求降级为标准处理,而不是失败并显示错误。

  • 延迟时间:超低(毫秒到秒)。
  • 价格:比标准费率高 75% 至 100%。
  • 适用情形:实时客户聊天机器人、实时欺诈检测和业务关键型 Copilot。

Flex 推理(费用优化)

灵活推理利用机会性非高峰计算容量,与标准费率相比可节省 50% 的费用。请求会同步处理,这意味着您无需重写代码来管理批处理对象。 由于它是“可舍弃”的流量,因此如果系统遇到标准流量高峰,请求可能会被抢占。

  • 延迟时间:无保证,目标延迟时间为 1 到 15 分钟。
  • 价格:标准价格的 50%(按令牌数结算)。
  • 最适合:多步智能体工作流,其中调用 N+1 依赖于调用 N 的输出、后台 CRM 更新和离线评估。

Batch API(批量、异步)

Batch API 旨在以标准费用 50% 的价格异步处理大量请求。您可以内嵌字典的形式提交请求,也可以使用 JSONL 输入文件(最大 2 GB)提交请求。它使用后台吞吐量队列处理请求,目标周转时间为 24 小时。

  • 延迟时间:长(最长可达 24 小时)。
  • 价格:标准价格的 50%。
  • 最适合:预处理海量数据集、运行周期性回归测试套件,以及生成大量图片或嵌入内容。

上下文缓存(节省输入)

当较短的请求重复引用大量初始上下文时,可以使用上下文缓存

  • 隐式缓存:在 Gemini 2.5 及更新型号上自动启用。 如果您的请求基于常见提示前缀命中现有缓存,系统会传递节省的费用。
  • 显式缓存:您可以手动创建具有特定存留时间 (TTL) 的缓存对象。创建后,您可以在后续请求中引用缓存的令牌,以避免重复传递相同的语料库载荷。
  • 价格:根据缓存词元数量和存储时长 (TTL) 计费。
  • 最适合:有大量系统指令的聊天机器人、对较长的视频文件进行的重复分析,或针对大型文档集的查询。