优先级推理

Gemini Priority API 是一种高级推理层级,专为需要较低延迟时间和最高可靠性的关键业务工作负载而设计,价格也较高。Priority 层级的流量的优先级高于标准 API 和 Flex 层级的流量。

优先级推理适用于所有 Interactions API 端点。

如何使用 Priority

如需使用 Priority 层级,请将请求中的 service_tier 字段设置为 priority。如果省略该字段,则默认层级为标准层级。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

优先级推理的工作原理

优先级推理会将请求路由到高关键性计算队列,从而为面向用户的应用提供可预测的快速性能。其主要机制是针对超出动态限制的流量优雅地降级到标准处理,确保应用稳定性,而不是让请求失败。

功能 Priority 标准版 Flex 批量
价格 比标准价格高 75-100% 全价 5 折 5 折
延迟时间 秒到分钟 分钟(目标 1-15 分钟) 最长 24 小时
可靠性 高(不可舍弃) 高 / 中高 尽力而为(可舍弃) 高(针对吞吐量)
接口 同步 同步 同步 异步

主要优势

  • 低延迟时间:专为交互式 面向用户的 AI 工具而设计,响应时间为秒级。
  • 高可靠性:流量以最高关键性处理,且 严格不可舍弃。
  • 优雅降级:超出动态限制的流量峰值会自动降级到标准层级进行处理,而不是失败,从而防止服务中断。
  • 低摩擦:使用与 标准层级和 Flex 层级相同的同步 create 方法。

使用场景

优先级处理非常适合性能和可靠性至关重要的关键业务工作流。

  • 交互式 AI 应用:客户服务聊天机器人和副驾驶,其中用户支付额外费用,并期望获得快速、一致的响应。
  • 实时决策引擎:需要高度可靠、低延迟 结果的系统,例如实时工单分诊或欺诈检测。
  • 高级客户功能:需要为付费客户保证更高服务等级目标 (SLO) 的开发者。

速率限制

即使消耗量计入整体交互式流量速率限制,优先级消耗量也有自己的速率限制。优先级推理的默认速率限制为模型 / 层级的标准速率限制的 0.3 倍

优雅降级逻辑

如果因拥塞而超出优先级限制,溢出请求会自动且优雅地 降级到标准处理,而不是因 503 或 429 错误而失败。降级的请求按标准费率计费,而不是按优先级额外费率计费。

客户端责任

  • 响应监控:开发者应监控 API 响应中的 x-gemini-service-tier 标头,以检测请求是否经常降级到 standard
  • 重试:客户端必须为 标准错误(例如 DEADLINE_EXCEEDED)实现重试逻辑/指数退避算法。

价格

优先级推理的价格比标准 API 高 75-100%,并按 token 计费。

支持的模型

以下模型支持优先级推理:

模型 优先级推理
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Flash-Lite 预览版 ✔️
Gemini 3.1 Pro 预览版 ✔️
Gemini 3 Flash 预览版 ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

后续步骤