優先順序推斷

Gemini Priority API 是進階推論層級,專為需要低延遲和最高可靠性的業務關鍵工作負載設計,價格較高。系統會優先處理 Priority 層級的流量,再處理 Standard API 和 Flex 層級的流量。

您可以在 Interactions API 端點使用優先順序推論功能。

如何使用優先檔案區

如要使用「優先」層級,請將要求中的 service_tier 欄位設為 priority。如未填寫此欄位,則預設級別為標準。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

優先推論的運作方式

優先順序推論會將要求轉送至高重要性的運算佇列,為面向使用者的應用程式提供可預測的快速效能。主要機制是將超過動態限制的流量,從伺服器端順暢降級為標準處理程序,確保應用程式穩定性,而非讓要求失敗。

功能 優先順序 標準 Flex 批次
定價 比 Standard 方案多 75% 至 100% 全票 50% 折扣 50% 折扣
延遲 秒到分鐘 分鐘 (目標:1 到 15 分鐘) 長達 24 小時
穩定性 高 (不會脫落) 高 / 中高 盡可能提供最佳服務 (可捨棄) 高 (處理量)
介面 同步 同步 同步 非同步

主要優點

  • 低延遲:專為直接與使用者互動的 AI 工具設計,回應時間以秒為單位。
  • 高可靠性:流量會以最高重要性處理,且嚴格禁止捨棄。
  • 優雅降級:如果流量尖峰超過動態限制,系統會自動將流量降級為標準層級,以便處理流量,避免服務中斷。
  • 低摩擦:與標準和 Flex 層級使用相同的同步 create 方法。

用途

優先處理非常適合用於效能和可靠性至關重要的重要業務工作流程。

  • 互動式 AI 應用程式:客戶服務聊天機器人和副手,使用者支付高額費用,希望獲得快速且一致的回覆。
  • 即時決策引擎:需要高可靠性、低延遲結果的系統,例如即時票證分類或詐欺偵測。
  • 進階客戶功能:開發人員需要為付費客戶確保更高的服務水準目標 (SLO)。

頻率限制

即使優先順序用量會計入整體互動式流量速率限制,仍有自己的速率限制。優先推論的預設頻率限制為模型 / 層級的標準速率限制的 0.3 倍

安全降級邏輯

如果因壅塞而超出優先順序限制,溢出的要求會自動且順暢地降級為標準處理程序,而不是因 503 或 429 錯誤而失敗。降級的要求會以標準費率計費,而非優先級進階費率。

客戶責任

  • 回應監控:開發人員應監控 API 回應中的 x-gemini-service-tier 標頭,偵測要求是否經常降級為 standard
  • 重試:用戶端必須為標準錯誤 (例如 DEADLINE_EXCEEDED) 實作重試邏輯/指數輪詢。

定價

優先推論的價格比標準 API 高出 75% 至 100%,並以詞元計費。

支援的模型

下列模型支援優先推論:

型號 優先順序推斷
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Flash-Lite 預先發布版 ✔️
Gemini 3.1 Pro 預先發布版 ✔️
Gemini 3 Flash 預先發布版 ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

後續步驟