優先推論

Gemini Priority API は、低レイテンシと最高の信頼性を必要とするビジネス クリティカルなワークロード向けに設計されたプレミアム推論ティアで、プレミアム価格で提供されます。優先ティアのトラフィックは、標準 API と Flex ティアのトラフィックよりも優先されます。

優先推論は、Interactions API エンドポイント全体で利用できます。

優先度を使用する方法

優先ティアを使用するには、リクエストの service_tier フィールドを priority に設定します。このフィールドを省略した場合、デフォルトのティアは標準です。

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

優先推論の仕組み

優先推論は、リクエストを高クリティカルなコンピューティング キューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックを標準処理にグレースフルにサーバーサイドでダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。

機能 候補 標準 Flex バッチ
料金 標準より 75 ~ 100% 高い 通常料金 50% 割引 50% 割引
レイテンシ 数秒~数分 分(目標 1 ~ 15 分) 最大 24 時間
信頼性 高(削除不可) 高 / 中~高 ベスト エフォート(削除可能) 高(スループットの場合)
インターフェース 同期 同期 同期 非同期

主な特典

  • 低レイテンシ: インタラクティブな ユーザー向け AI ツールで 2 秒の応答時間を実現するように設計されています。
  • 高い信頼性: トラフィックは最もクリティカルなものとして扱われ、 厳密に削除できません。
  • グレースフル デグラデーション: 動的上限を超えるトラフィックの急増は、失敗するのではなく、処理のために自動的に標準ティアにダウングレードされ、サービスの停止を防ぎます。
  • 摩擦が少ない: 標準ティアと Flex ティアと同じ同期 create メソッドを使用します。

ユースケース

優先処理は、パフォーマンスと信頼性が最も重要なビジネス クリティカルなワークフローに最適です。

  • インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、高速で一貫した応答を期待するカスタマー サービス チャットボットとコパイロット。
  • リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正検出など、信頼性が高く、低レイテンシの 結果を必要とするシステム。
  • プレミアム カスタマー機能: 有料顧客に対してより高いサービス レベル目標(SLO)を保証する必要があるデベロッパー。

レート上限

優先度の消費量には、消費量が インタラクティブ トラフィックの全体的なレート上限にカウントされる場合でも、独自のレート上限があります。優先推論のデフォルトのレート上限は、モデル / ティアの標準レート上限の 0.3 倍 です。

グレースフル ダウングレード ロジック

輻輳により優先度の上限を超えた場合、オーバーフロー リクエストは 503 または 429 エラーで失敗するのではなく、標準処理に自動的かつグレースフルに ダウングレードされます。ダウングレードされたリクエストは、優先度のプレミアム料金ではなく、標準料金で課金されます。

クライアントの責任

  • レスポンスのモニタリング: デベロッパーは、API レスポンスの x-gemini-service-tier ヘッダーをモニタリングして、リクエストが頻繁に standard にダウングレードされているかどうかを検出する必要があります。
  • 再試行: クライアントは、 標準エラー(DEADLINE_EXCEEDEDなど)に対して、再試行ロジック/指数バックオフを実装する必要があります。

料金

優先推論の料金は、標準 API より 75 ~ 100% 高く、トークン単位で課金されます。

サポートされているモデル

次のモデルは優先推論をサポートしています。

モデル 優先推論
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Flash-Lite プレビュー ✔️
Gemini 3.1 Pro プレビュー ✔️
Gemini 3 Flash プレビュー ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

次のステップ