Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

优先级推理

注意：此版本的页面介绍了新的 Interactions API，该 API 目前处于 Beta 版阶段。
对于稳定的生产部署，我们建议您继续使用 generateContent API。您可以使用此页面上的切换开关在不同版本之间切换。

Gemini Priority API 是一种高级推理层级，专为需要较低延迟时间和最高可靠性的关键业务工作负载而设计，价格也较高。Priority 层级的流量的优先级高于标准 API 和 Flex 层级的流量。

优先级推理适用于所有 Interactions API 端点。

如何使用 Priority

如需使用 Priority 层级，请将请求中的 service_tier 字段设置为 priority。如果省略该字段，则默认层级为标准层级。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

优先级推理的工作原理

优先级推理会将请求路由到高关键性计算队列，从而为面向用户的应用提供可预测的快速性能。其主要机制是针对超出动态限制的流量优雅地降级到标准处理，确保应用稳定性，而不是让请求失败。

功能	Priority	标准版	Flex	批量
价格	比标准价格高 75-100%	全价	5 折	5 折
延迟时间	秒	秒到分钟	分钟（目标 1-15 分钟）	最长 24 小时
可靠性	高（不可舍弃）	高 / 中高	尽力而为（可舍弃）	高（针对吞吐量）
接口	同步	同步	同步	异步

主要优势

低延迟时间：专为交互式面向用户的 AI 工具而设计，响应时间为秒级。
高可靠性：流量以最高关键性处理，且严格不可舍弃。
优雅降级：超出动态限制的流量峰值会自动降级到标准层级进行处理，而不是失败，从而防止服务中断。
低摩擦：使用与标准层级和 Flex 层级相同的同步 create 方法。

使用场景

优先级处理非常适合性能和可靠性至关重要的关键业务工作流。

交互式 AI 应用：客户服务聊天机器人和副驾驶，其中用户支付额外费用，并期望获得快速、一致的响应。
实时决策引擎：需要高度可靠、低延迟结果的系统，例如实时工单分诊或欺诈检测。
高级客户功能：需要为付费客户保证更高服务等级目标 (SLO) 的开发者。

速率限制

即使消耗量计入整体交互式流量速率限制，优先级消耗量也有自己的速率限制。优先级推理的默认速率限制为模型 / 层级的标准速率限制的 0.3 倍

优雅降级逻辑

如果因拥塞而超出优先级限制，溢出请求会自动且优雅地 降级到标准处理，而不是因 503 或 429 错误而失败。降级的请求按标准费率计费，而不是按优先级额外费率计费。

客户端责任

响应监控：开发者应监控 API 响应中的 x-gemini-service-tier 标头，以检测请求是否经常降级到 standard。
重试：客户端必须为标准错误（例如 DEADLINE_EXCEEDED）实现重试逻辑/指数退避算法。

价格

优先级推理的价格比标准 API 高 75-100%，并按 token 计费。

支持的模型

以下模型支持优先级推理：

模型	优先级推理
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite 预览版	✔️
Gemini 3.1 Pro 预览版	✔️
Gemini 3 Flash 预览版	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

后续步骤

Flex 推理，以降低费用。
token：了解 token。