優先度推論

Gemini Priority API は、ビジネス クリティカルなワークロード向けに設計されたプレミアム推論ティアです。低レイテンシと最高の信頼性を必要とするワークロードに、プレミアム価格で提供されます。Priority ティアのトラフィックは、Standard API と Flex ティアのトラフィックよりも優先されます。

Priority 推論は、GenerateContent API と Interactions API エンドポイントで、ティア 2 とティア 3 のユーザーが利用できます。

Priority の使用方法

Priority ティアを使用するには、リクエスト本文の service_tier フィールドを priority に設定します。このフィールドを省略した場合、デフォルトのティアは Standard です。

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Priority 推論の仕組み

Priority 推論は、リクエストを高クリティカルなコンピューティング キューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックをサーバー側で標準処理にグレースフルにダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。

機能 候補 標準 Flex バッチ
料金 Standard より 75 ~ 100% 高い 通常料金 50% 割引 50% 割引
レイテンシ 数秒~数分 分(目標 1 ~ 15 分) 最大 24 時間
信頼性 高(非破棄可能) 高 / 中~高 ベスト エフォート(破棄可能) 高(スループットの場合)
インターフェース 同期 同期 同期 非同期

主な特典

  • 低レイテンシ: インタラクティブな ユーザー向け AI ツールで、秒単位の応答時間を実現するように設計されています。
  • 高い信頼性: トラフィックは最もクリティカルなものとして扱われ、 破棄されることはありません。
  • グレースフル デグラデーション: 動的上限を超えるトラフィック スパイクは、失敗するのではなく、処理のために 自動的に Standard ティアにダウングレードされるため、 サービス停止を防ぐことができます。
  • 低摩擦: Standard ティアと Flex ティアと同じ同期 generateContent メソッドを使用します。

ユースケース

Priority 処理は、パフォーマンスと信頼性が最も重要なビジネス クリティカルなワークフローに最適です。

  • インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、高速で一貫した応答を期待するカスタマー サービス チャットボットとコパイロット。
  • リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正検出など、信頼性が高く、低レイテンシの 結果を必要とするシステム。
  • プレミアム カスタマー機能: 有料顧客に対してより高いサービス レベル目標(SLO)を保証する必要があるデベロッパー。

レート上限

Priority の消費量は、インタラクティブ トラフィックの全体的なレート上限に カウントされますが、独自のレート上限があります。Priority 推論のデフォルトのレート上限は、モデル / ティアの標準レート上限の 0.3 倍 です。

グレースフル ダウングレード ロジック

輻輳により Priority の上限を超過した場合、オーバーフロー リクエストは 503 エラーまたは 429 エラーで失敗するのではなく、自動的にグレースフルに Standard 処理にダウングレードされます。ダウングレードされたリクエストは、Priority プレミアム料金ではなく、標準料金で課金されます。

クライアントの責任

  • レスポンスのモニタリング: デベロッパーは、API レスポンス本文の service_tier 値をモニタリングして、リクエストが頻繁に standard にダウングレードされているかどうかを検出する必要があります。
  • 再試行: クライアントは、 標準エラー(DEADLINE_EXCEEDEDなど)に対して、再試行ロジック/指数バックオフを実装する必要があります。

料金

Priority 推論の料金は、Standard API より 75 ~ 100% 高く、トークン単位で課金されます。

サポートされているモデル

次のモデルは Priority 推論をサポートしています。

モデル Priority 推論
Gemini 3.1 Flash-Lite プレビュー ✔️
Gemini 3.1 Pro プレビュー ✔️
Gemini 3 Flash プレビュー ✔️
Gemini 3 Pro Image プレビュー ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

次のステップ

Gemini のその他の 推論オプションと最適化オプションについて確認する。