優先順序推斷
Gemini Priority API 是進階推論層級,專為需要低延遲和最高可靠性的業務關鍵工作負載設計,價格較高。系統會優先處理 Priority 層級的流量,再處理 Standard API 和 Flex 層級的流量。
您可以在 Interactions API 端點使用優先順序推論功能。
如何使用優先檔案區
如要使用「優先」層級,請將要求中的 service_tier 欄位設為 priority。如未填寫此欄位,則預設級別為標準。
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
優先推論的運作方式
優先順序推論會將要求轉送至高重要性的運算佇列,為面向使用者的應用程式提供可預測的快速效能。主要機制是將超過動態限制的流量,從伺服器端順暢降級為標準處理程序,確保應用程式穩定性,而非讓要求失敗。
| 功能 | 優先順序 | 標準 | Flex | 批次 |
|---|---|---|---|---|
| 定價 | 比 Standard 方案多 75% 至 100% | 全票 | 50% 折扣 | 50% 折扣 |
| 延遲 | 秒 | 秒到分鐘 | 分鐘 (目標:1 到 15 分鐘) | 長達 24 小時 |
| 穩定性 | 高 (不會脫落) | 高 / 中高 | 盡可能提供最佳服務 (可捨棄) | 高 (處理量) |
| 介面 | 同步 | 同步 | 同步 | 非同步 |
主要優點
- 低延遲:專為直接與使用者互動的 AI 工具設計,回應時間以秒為單位。
- 高可靠性:流量會以最高重要性處理,且嚴格禁止捨棄。
- 優雅降級:如果流量尖峰超過動態限制,系統會自動將流量降級為標準層級,以便處理流量,避免服務中斷。
- 低摩擦:與標準和 Flex 層級使用相同的同步
create方法。
用途
優先處理非常適合用於效能和可靠性至關重要的重要業務工作流程。
- 互動式 AI 應用程式:客戶服務聊天機器人和副手,使用者支付高額費用,希望獲得快速且一致的回覆。
- 即時決策引擎:需要高可靠性、低延遲結果的系統,例如即時票證分類或詐欺偵測。
- 進階客戶功能:開發人員需要為付費客戶確保更高的服務水準目標 (SLO)。
頻率限制
即使優先順序用量會計入整體互動式流量速率限制,仍有自己的速率限制。優先推論的預設頻率限制為模型 / 層級的標準速率限制的 0.3 倍
安全降級邏輯
如果因壅塞而超出優先順序限制,溢出的要求會自動且順暢地降級為標準處理程序,而不是因 503 或 429 錯誤而失敗。降級的要求會以標準費率計費,而非優先級進階費率。
客戶責任
- 回應監控:開發人員應監控 API 回應中的
x-gemini-service-tier標頭,偵測要求是否經常降級為standard。 - 重試:用戶端必須為標準錯誤 (例如
DEADLINE_EXCEEDED) 實作重試邏輯/指數輪詢。
定價
優先推論的價格比標準 API 高出 75% 至 100%,並以詞元計費。
支援的模型
下列模型支援優先推論:
| 型號 | 優先順序推斷 |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite 預先發布版 | ✔️ |
| Gemini 3.1 Pro 預先發布版 | ✔️ |
| Gemini 3 Flash 預先發布版 | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |