Gemini Deep Research 現已推出預先發布版，提供協作規劃、視覺化、MCP 支援等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

優先順序推斷

Gemini Priority API 是進階推論層級，專為需要低延遲和最高可靠性的業務關鍵工作負載設計，價格較高。系統會優先處理 Priority 層級的流量，再處理 Standard API 和 Flex 層級的流量。

第 2 層和第 3 層使用者可透過 GenerateContent API 和 Interactions API 端點，使用優先順序推論功能。

如何使用優先檔案區

如要使用「優先」層級，請將要求主體中的 service_tier 欄位設為 priority。如未填寫此欄位，則預設級別為標準。

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

優先推論的運作方式

優先順序推論會將要求轉送至高重要性的運算佇列，為面向使用者的應用程式提供可預測的快速效能。主要機制是將超過動態限制的流量，從伺服器端順暢降級為標準處理程序，確保應用程式穩定性，而非讓要求失敗。

功能	優先順序	標準	Flex	批次
定價	比 Standard 方案多 75% 至 100%	全票	50% 折扣	50% 折扣
延遲	秒	秒到分鐘	分鐘 (目標：1 到 15 分鐘)	長達 24 小時
穩定性	高 (不會脫落)	高 / 中高	盡可能提供最佳服務 (可捨棄)	高 (處理量)
介面	同步	同步	同步	非同步

主要優點

低延遲：專為直接與使用者互動的 AI 工具設計，回應時間以秒為單位。
高可靠性：系統會將流量視為最高優先順序，且嚴格禁止捨棄。
優雅降級：如果流量尖峰超過動態限制，系統會自動將流量降級為標準層級，以便處理流量，避免服務中斷。
低摩擦：與標準和 Flex 層級使用相同的同步 generateContent 方法。

用途

優先處理非常適合用於效能和可靠性至關重要的重要業務工作流程。

互動式 AI 應用程式：客戶服務聊天機器人和副手，使用者支付高額費用，希望獲得快速且一致的回覆。
即時決策引擎：需要高可靠性、低延遲結果的系統，例如即時票證分類或詐欺偵測。
進階客戶功能：開發人員需要為付費客戶確保更高的服務水準目標 (SLO)。

頻率限制

即使優先順序用量會計入整體互動式流量速率限制，仍有自己的速率限制。優先推論的預設頻率限制為模型 / 層級的標準速率限制的 0.3 倍

安全降級邏輯

如果因壅塞而超出優先順序限制，溢出的要求會自動且順暢地降級為標準處理程序，而不是因 503 或 429 錯誤而失敗。降級的要求會以標準費率計費，而非優先級進階費率。

客戶責任

回應監控：開發人員應監控 API 回應中的 x-gemini-service-tier 標頭，偵測要求是否經常降級為 standard。
重試：用戶端必須為標準錯誤 (例如 DEADLINE_EXCEEDED) 實作重試邏輯/指數輪詢。

定價

優先推論的價格比標準 API 高出 75% 至 100%，並以詞元計費。

支援的模型

下列模型支援優先推論：

型號	優先順序推斷
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite 預先發布版	✔️
Gemini 3.1 Pro 預先發布版	✔️
Gemini 3 Flash 預先發布版	✔️
Gemini 3 Pro Image 預先發布版	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Image	✔️
Gemini 2.5 Flash-Lite	✔️

後續步驟

如要瞭解 Gemini 的其他推論和最佳化選項，請參閱：

彈性推論，可降低 50% 的成本。
批次 API：在 24 小時內非同步處理。
脈絡快取功能可降低輸入詞元費用。