Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

优先级推理

注意：此版本的页面介绍了新的 Interactions API，该 API 目前为 Beta 版。
对于稳定的生产部署，我们建议您继续使用 generateContent API。您可以使用此页面上的切换开关在不同版本之间切换。

Gemini Priority API 是一种高级推理层级，专为需要低延迟和最高可靠性的业务关键型工作负载而设计，价格较高。优先层级流量的优先级高于标准 API 和灵活层级流量。

优先级推理功能可在 Interactions API 端点中使用。

如何使用“优先级”

如需使用“优先”层级，请将请求中的 service_tier 字段设置为 priority。如果省略此字段，则默认层级为标准。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

优先级推理的运作方式

优先级推理会将请求路由到高严重性计算队列，从而为面向用户的应用提供可预测的快速性能。其主要机制是，当流量超出动态限制时，服务器端会平稳降级为标准处理，从而确保应用稳定性，而不是使请求失败。

功能	优先级	标准	Flex	批量
价格	比标准版多 75-100%	全价票	5 折优惠	5 折优惠
延迟时间	秒	秒到分钟	分钟（目标时长为 1-15 分钟）	最长 24 小时
可靠性	高（不掉毛）	高 / 中高	尽力而为（可舍弃）	高（针对吞吐量）
接口	同步	同步	同步	异步

主要优势

低延迟：专为面向用户的交互式 AI 工具而设计，可实现秒级响应时间。
高可靠性：流量被视为最高优先级，并且严格不可丢弃。
优雅降级：如果流量峰值超过动态限制，系统会自动将流量降级到标准层级进行处理，而不是失败，从而防止服务中断。
低摩擦：使用与标准层级和 Flex 层级相同的同步 create 方法。

使用场景

优先处理非常适合对性能和可靠性要求极高的关键业务工作流。

互动式 AI 应用：客户服务聊天机器人和 Copilot，用户支付高价，希望获得快速、一致的回答。
实时决策引擎：需要高度可靠、低延迟结果的系统，例如实时工单分流或欺诈检测。
高级客户功能：需要为付费客户保证更高服务等级目标 (SLO) 的开发者。

速率限制

即使优先级消耗计入总体交互式流量速率限制，它也有自己的速率限制。优先级推理的默认速率限制为模型 / 层级标准速率限制的 0.3 倍

优雅降级逻辑

如果因拥塞而超出优先级限制，溢出请求会自动且平稳地降级为标准处理，而不是因 503 或 429 错误而失败。降级后的请求按标准费率计费，而不是按 Priority Premium 费率计费。

客户责任

响应监控：开发者应监控 API 响应中的 x-gemini-service-tier 标头，以检测请求是否经常降级为 standard。
重试：客户端必须针对标准错误（例如 DEADLINE_EXCEEDED）实现重试逻辑/指数退避算法。

价格

优先级推理的价格比标准 API 高出 75-100%，按令牌数计费。

支持的模型

以下模型支持优先推理：

模型	优先级推理
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite 预览版	✔️
Gemini 3.1 Pro 预览版	✔️
Gemini 3 Flash 预览版	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

后续步骤

灵活推理，以降低成本。
token：了解 token。