Gemini Deep Research 現已推出預先發布版，提供協作規劃、視覺化、MCP 支援等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

優先順序推斷

注意：這個版本的頁面涵蓋目前為 Beta 版的新版 Interactions API。
如要穩定部署正式版，建議繼續使用 generateContent API。您可以使用這個頁面上的切換鈕，在不同版本之間切換。

Gemini Priority API 是進階推論層級，專為需要低延遲和最高可靠性的業務關鍵工作負載設計，價格較高。系統會優先處理 Priority 層級的流量，再處理 Standard API 和 Flex 層級的流量。

您可以在 Interactions API 端點使用優先順序推論功能。

如何使用優先檔案區

如要使用「優先」層級，請將要求中的 service_tier 欄位設為 priority。如未填寫此欄位，則預設級別為標準。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

優先推論的運作方式

優先順序推論會將要求轉送至高重要性的運算佇列，為面向使用者的應用程式提供可預測的快速效能。主要機制是將超過動態限制的流量，從伺服器端順暢降級為標準處理程序，確保應用程式穩定性，而非讓要求失敗。

功能	優先順序	標準	Flex	批次
定價	比 Standard 方案多 75% 至 100%	全票	50% 折扣	50% 折扣
延遲	秒	秒到分鐘	分鐘 (目標：1 到 15 分鐘)	長達 24 小時
穩定性	高 (不會脫落)	高 / 中高	盡可能提供最佳服務 (可捨棄)	高 (處理量)
介面	同步	同步	同步	非同步

主要優點

低延遲：專為直接與使用者互動的 AI 工具設計，回應時間以秒為單位。
高可靠性：流量會以最高重要性處理，且嚴格禁止捨棄。
優雅降級：如果流量尖峰超過動態限制，系統會自動將流量降級為標準層級，以便處理流量，避免服務中斷。
低摩擦：與標準和 Flex 層級使用相同的同步 create 方法。

用途

優先處理非常適合用於效能和可靠性至關重要的重要業務工作流程。

互動式 AI 應用程式：客戶服務聊天機器人和副手，使用者支付高額費用，希望獲得快速且一致的回覆。
即時決策引擎：需要高可靠性、低延遲結果的系統，例如即時票證分類或詐欺偵測。
進階客戶功能：開發人員需要為付費客戶確保更高的服務水準目標 (SLO)。

頻率限制

即使優先順序用量會計入整體互動式流量速率限制，仍有自己的速率限制。優先推論的預設頻率限制為模型 / 層級的標準速率限制的 0.3 倍

安全降級邏輯

如果因壅塞而超出優先順序限制，溢出的要求會自動且順暢地降級為標準處理程序，而不是因 503 或 429 錯誤而失敗。降級的要求會以標準費率計費，而非優先級進階費率。

客戶責任

回應監控：開發人員應監控 API 回應中的 x-gemini-service-tier 標頭，偵測要求是否經常降級為 standard。
重試：用戶端必須為標準錯誤 (例如 DEADLINE_EXCEEDED) 實作重試邏輯/指數輪詢。

定價

優先推論的價格比標準 API 高出 75% 至 100%，並以詞元計費。

支援的模型

下列模型支援優先推論：

型號	優先順序推斷
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite 預先發布版	✔️
Gemini 3.1 Pro 預先發布版	✔️
Gemini 3 Flash 預先發布版	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

後續步驟

彈性推論，降低成本。
權杖：瞭解權杖。