Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

優先度の推論

注: このバージョンのページでは、現在ベータ版の新しい Interactions API について説明します。
安定した本番環境のデプロイでは、引き続き generateContent API を使用することをおすすめします。このページの切り替えを使用して、バージョンを切り替えることができます。

Gemini Priority API は、低レイテンシと最高の信頼性を必要とするビジネスクリティカルなワークロード向けに設計されたプレミアム推論ティアです。優先度ティアのトラフィックは、標準 API と Flex ティアのトラフィックよりも優先されます。

優先順位の推論は、Interactions API エンドポイント全体で利用できます。

優先度の使用方法

優先度階層を使用するには、リクエストの service_tier フィールドを priority に設定します。フィールドが省略されている場合、デフォルトの階層は標準です。

Python

# This will only work for SDK newer than 2.0.0
from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

優先度推論の仕組み

優先度推論では、リクエストを高クリティカルなコンピューティングキューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックに対して、サーバーサイドで標準処理にグレースフルにダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。

機能	優先度	標準	Flex	バッチ
料金	Standard の 75 ～ 100% 増	通常料金	50% 割引	50% 割引
レイテンシ	秒	数秒～数分	分（1 ～ 15 分の目標）	最大 24 時間
信頼性	高（抜け毛が少ない）	高 / 中～高	ベストエフォート（破棄可能）	高（スループットの場合）
インターフェース	同期	同期	同期	非同期

主なメリット

低レイテンシ: ユーザー向けのインタラクティブな AI ツールで、応答時間が 1 秒になるように設計されています。
高い信頼性: トラフィックは最も高い重要度で処理され、厳密に非シェディングです。
グレースフルデグラデーション: 動的上限を超えるトラフィックの急増は、失敗するのではなく、処理のために自動的に Standard 階層にダウングレードされ、サービス停止を防ぎます。
摩擦が少ない: 標準階層と Flex 階層と同じ同期 create メソッドを使用します。

ユースケース

優先処理は、パフォーマンスと信頼性が最も重要なビジネスクリティカルなワークフローに最適です。

インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、迅速で一貫性のある応答を期待するカスタマーサービス chatbot と copilot。
リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正行為の検出など、信頼性が高く、レイテンシの低い結果を必要とするシステム。
プレミアムカスタマー機能: 有料ユーザーに対してより高いサービスレベル目標（SLO）を保証する必要があるデベロッパー。

レート上限

優先度の高い消費は、インタラクティブトラフィックの全体的なレート制限に対してカウントされますが、独自のレート制限が適用されます。優先度推論のデフォルトのレート上限は、モデル / 階層の標準レート上限の 0.3 倍です。

グレースフルダウングレードロジック

輻輳により優先度の上限を超えた場合、オーバーフローリクエストは 503 エラーまたは 429 エラーで失敗するのではなく、自動的に正常に Standard 処理にダウングレードされます。ダウングレードされたリクエストは、優先度の高いプレミアム料金ではなく、標準料金で課金されます。

お客様の責任

レスポンスのモニタリング: デベロッパーは、API レスポンスの x-gemini-service-tier ヘッダーをモニタリングして、リクエストが standard に頻繁にダウングレードされているかどうかを検出する必要があります。
再試行: クライアントは、DEADLINE_EXCEEDED などの標準エラーに対して再試行ロジック/指数バックオフを実装する必要があります。

料金

優先度推論の料金は、標準 API の 75 ～ 100% 増しで、トークン単位で課金されます。

サポートされているモデル

次のモデルは優先度付き推論をサポートしています。

モデル	優先度推論
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite プレビュー	✔️
Gemini 3.1 Pro プレビュー版	✔️
Gemini 3 Flash プレビュー	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

次のステップ

費用削減のための Flex 推論。
トークン: トークンについて理解する。

優先度の推論

優先度の使用方法

Python

JavaScript

REST

優先度推論の仕組み

主なメリット

ユースケース

レート上限

グレースフル ダウングレード ロジック

お客様の責任

料金

サポートされているモデル

次のステップ

グレースフルダウングレードロジック