Gemini Priority API 是進階推論層級,專為需要低延遲和最高可靠性的業務關鍵工作負載設計,價格較高。系統會優先處理 Priority 層級的流量,再處理 Standard API 和 Flex 層級的流量。
第 2 層和第 3 層使用者可透過 GenerateContent API 和 Interactions API 端點,使用優先順序推論功能。
如何使用優先檔案區
如要使用「優先」層級,請將要求主體中的 service_tier 欄位設為 SERVICE_TIER_PRIORITY。如未填寫此欄位,則預設級別為標準。
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
在 JavaScript 中,用戶端程式庫會自動處理降級作業。 如果超過容量上限,系統會擲回錯誤,或以標準層級處理。回應物件不會直接公開標頭,以檢查降級。
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
在 Go 中,用戶端程式庫會自動處理降級作業。如果超過容量上限,系統會擲回錯誤,或以標準層級處理。回應物件不會直接公開標頭,以檢查是否降級。
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
優先推論的運作方式
優先順序推論會將要求轉送至高重要性的運算佇列,為面向使用者的應用程式提供可預測的快速效能。主要機制是將超過動態限制的流量,從伺服器端順暢降級為標準處理程序,確保應用程式穩定性,而非讓要求失敗。
| 功能 | 優先順序 | 標準 | Flex | 批次 |
|---|---|---|---|---|
| 定價 | 比 Standard 方案多 75% 至 100% | 全票 | 50% 折扣 | 50% 折扣 |
| 延遲 | 低 (秒) | 秒到分鐘 | 分鐘 (目標:1 到 15 分鐘) | 長達 24 小時 |
| 穩定性 | 高 (不掉毛) | 高 / 中高 | 盡可能提供最佳服務 (可捨棄) | 高 (處理量) |
| 介面 | 同步 | 同步 | 同步 | 非同步 |
主要優點
- 低延遲:專為互動式 AI 工具設計,回應時間為毫秒到秒級,可直接與使用者互動。
- 高可靠性:流量會以最高重要性處理,且嚴格禁止捨棄。
- 優雅降級:如果流量尖峰超過動態限制,系統會自動將流量降級至標準層進行處理,而非處理失敗,避免服務中斷。
- 低摩擦:與標準和 Flex 層級使用相同的同步
generateContent方法。
用途
優先處理非常適合用於效能和可靠性至關重要的重要業務工作流程。
- 互動式 AI 應用程式:客戶服務聊天機器人和副手,使用者支付高額費用,希望獲得快速且一致的回覆。
- 即時決策引擎:需要高可靠性、低延遲結果的系統,例如即時票證分類或詐欺偵測。
- 進階客戶功能:開發人員需要為付費客戶確保更高的服務等級目標 (SLO)。
頻率限制
即使優先消耗量會計入整體互動式流量速率限制,仍有自己的速率限制。優先推論的預設頻率限制為模型 / 層級的標準速率限制的 0.3 倍
安全降級邏輯
如果因壅塞而超出優先順序限制,系統會自動且順暢地將溢出的要求降級為標準處理程序,而不是因 503 或 429 錯誤而失敗。降級的要求會以標準費率計費,而非優先級進階費率。
客戶責任
- 回應監控:開發人員應監控 API 回應主體中的
service_tier值,偵測要求是否經常降級為standard。 - 重試:用戶端必須為標準錯誤 (例如
DEADLINE_EXCEEDED) 實作重試邏輯/指數輪詢。
定價
優先推論的價格比標準 API 高出 75% 至 100%,並以詞元計費。
支援的模型
下列模型支援優先推論:
| 型號 | 優先順序推斷 |
|---|---|
| Gemini 3.1 Flash-Lite 預先發布版 | ✔️ |
| Gemini 3.1 Pro 預先發布版 | ✔️ |
| Gemini 3 Flash 預先發布版 | ✔️ |
| Gemini 3 Pro Image 預先發布版 | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
後續步驟
如要瞭解 Gemini 的其他推論和最佳化選項,請參閱: