Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

优先级推理

Gemini Priority API 是一种高级推理层，专为需要较低延迟时间和最高可靠性的关键业务工作负载而设计，价格也相对较高。Priority 层级的流量优先级高于标准 API 和 Flex 层级的流量。

Tier 2 & Tier 3 用户可以通过 GenerateContent API 和 Interactions API 端点使用 Priority 推理。

如何使用 Priority

如需使用 Priority 层级，请将请求正文中的 service_tier 字段设置为 priority。如果省略该字段，则默认层级为标准层级。

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3.5-flash",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3.5-flash",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Priority 推理的工作原理

Priority 推理会将请求路由到高关键性计算队列，为面向用户的应用提供可预测的快速性能。其主要机制是，对于超出动态限制的流量，优雅地在服务器端降级到标准处理，确保应用稳定性，而不是让请求失败。

功能	优先级	标准版	Flex	批量
价格	比标准版高 75-100%	全价	5 折	5 折
延迟时间	秒	秒到分钟	分钟（目标 1-15 分钟）	最长 24 小时
可靠性	高（不可舍弃）	高 / 中高	尽力而为（可舍弃）	高（针对吞吐量）
接口	同步	同步	同步	异步

主要优势

低延迟时间：专为交互式面向用户的 AI 工具设计，响应时间为秒级。
高可靠性：流量被视为最高关键性，且严格不可舍弃。
优雅降级：超出动态限制的流量峰值会自动降级到标准层级进行处理，而不是失败，从而防止服务中断。
低摩擦：使用与标准层级和 Flex 层级相同的同步 generateContent 方法。

使用场景

Priority 处理非常适合性能和可靠性至关重要的关键业务工作流。

交互式 AI 应用：客户服务聊天机器人和副驾驶，其中用户支付额外费用，并期望获得快速、一致的响应。
实时决策引擎：需要高度可靠、低延迟结果的系统，例如实时工单分诊或欺诈检测。
高级客户功能：需要为付费客户保证更高服务等级目标 (SLO) 的开发者。

速率限制

Priority 消耗量有自己的速率限制，即使消耗量计入整体交互式流量速率限制也是如此。Priority 推理的默认速率限制为模型 / 层级的标准速率限制的 0.3 倍

优雅降级逻辑

如果因拥塞而超出 Priority 限制，溢出请求会自动且优雅地 降级到标准处理，而不是因 503 或 429 错误而失败。降级的请求按标准费率计费，而不是按 Priority 高级费率计费。

客户端责任

响应监控：开发者应监控 API 响应中的 x-gemini-service-tier 标头，以检测请求是否经常降级到 standard。
重试：客户端必须为标准错误（例如 DEADLINE_EXCEEDED）实现重试逻辑/指数退避算法。

价格

Priority 推理的价格比标准 API 高 75-100%，并按词元计费。

支持的模型

以下模型支持 Priority 推理：

模型	Priority 推理
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite 预览版	✔️
Gemini 3.1 Pro 预览版	✔️
Gemini 3 Flash 预览版	✔️
Gemini 3 Pro Image 预览版	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Image	✔️
Gemini 2.5 Flash-Lite	✔️

后续步骤

了解 Gemini 的其他推理和优化选项：

Flex 推理，可降低 50% 的费用。
Batch API，可在 24 小时内进行异步处理。
上下文缓存，可降低输入词元费用。