优先级推理
Gemini Priority API 是一种高级推理层级,专为需要低延迟和最高可靠性的业务关键型工作负载而设计,价格较高。优先层级流量的优先级高于标准 API 和灵活层级流量。
优先级推理功能可在 Interactions API 端点中使用。
如何使用“优先级”
如需使用“优先”层级,请将请求中的 service_tier 字段设置为 priority。如果省略此字段,则默认层级为标准。
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
优先级推理的运作方式
优先级推理会将请求路由到高严重性计算队列,从而为面向用户的应用提供可预测的快速性能。其主要机制是,当流量超出动态限制时,服务器端会平稳降级为标准处理,从而确保应用稳定性,而不是使请求失败。
| 功能 | 优先级 | 标准 | Flex | 批量 |
|---|---|---|---|---|
| 价格 | 比标准版多 75-100% | 全价票 | 5 折优惠 | 5 折优惠 |
| 延迟时间 | 秒 | 秒到分钟 | 分钟(目标时长为 1-15 分钟) | 最长 24 小时 |
| 可靠性 | 高(不掉毛) | 高 / 中高 | 尽力而为(可舍弃) | 高(针对吞吐量) |
| 接口 | 同步 | 同步 | 同步 | 异步 |
主要优势
- 低延迟:专为面向用户的交互式 AI 工具而设计,可实现秒级响应时间。
- 高可靠性:流量被视为最高优先级,并且严格不可丢弃。
- 优雅降级:如果流量峰值超过动态限制,系统会自动将流量降级到标准层级进行处理,而不是失败,从而防止服务中断。
- 低摩擦:使用与标准层级和 Flex 层级相同的同步
create方法。
使用场景
优先处理非常适合对性能和可靠性要求极高的关键业务工作流。
- 互动式 AI 应用:客户服务聊天机器人和 Copilot,用户支付高价,希望获得快速、一致的回答。
- 实时决策引擎:需要高度可靠、低延迟结果的系统,例如实时工单分流或欺诈检测。
- 高级客户功能:需要为付费客户保证更高服务等级目标 (SLO) 的开发者。
速率限制
即使优先级消耗计入总体交互式流量速率限制,它也有自己的速率限制。优先级推理的默认速率限制为模型 / 层级标准速率限制的 0.3 倍
优雅降级逻辑
如果因拥塞而超出优先级限制,溢出请求会自动且平稳地降级为标准处理,而不是因 503 或 429 错误而失败。降级后的请求按标准费率计费,而不是按 Priority Premium 费率计费。
客户责任
- 响应监控:开发者应监控 API 响应中的
x-gemini-service-tier标头,以检测请求是否经常降级为standard。 - 重试:客户端必须针对标准错误(例如
DEADLINE_EXCEEDED)实现重试逻辑/指数退避算法。
价格
优先级推理的价格比标准 API 高出 75-100%,按令牌数计费。
支持的模型
以下模型支持优先推理:
| 模型 | 优先级推理 |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite 预览版 | ✔️ |
| Gemini 3.1 Pro 预览版 | ✔️ |
| Gemini 3 Flash 预览版 | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |