Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

優先度推論

Gemini Priority API は、低レイテンシと最高の信頼性を必要とするビジネスクリティカルなワークロード向けに設計されたプレミアム推論ティアで、プレミアム価格で提供されます。Priority ティアのトラフィックは、Standard API と Flex ティアのトラフィックよりも優先されます。

Priority 推論は、Tier 2 と Tier 3 のユーザーが GenerateContent API と Interactions API エンドポイントで利用できます。

Priority の使用方法

Priority ティアを使用するには、リクエスト本文の service_tier フィールドを priority に設定します。フィールドが省略されている場合、デフォルトのティアは Standard です。

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3.5-flash",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3.5-flash",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Priority 推論の仕組み

Priority 推論は、リクエストを高クリティカルなコンピューティングキューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックを標準処理にグレースフルにサーバーサイドでダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。

機能	候補	標準	Flex	バッチ
料金	Standard より 75 ～ 100% 高い	通常料金	50% 割引	50% 割引
レイテンシ	秒	数秒～数分	分（目標 1 ～ 15 分）	最大 24 時間
信頼性	高（削除不可）	高 / 中～高	ベストエフォート（削除可能）	高（スループットの場合）
インターフェース	同期	同期	同期	非同期

主な特典

低レイテンシ: インタラクティブなユーザー向け AI ツールで 1 秒の応答時間を実現するように設計されています。
高い信頼性: トラフィックは最もクリティカルなものとして扱われ、削除は厳禁です。
グレースフルデグラデーション: 動的上限を超えるトラフィックスパイクは、失敗するのではなく、処理のために自動的に Standard ティアにダウングレードされるため、サービス停止を防ぐことができます。
低摩擦: Standard ティアと Flex ティアと同じ同期 generateContent メソッドを使用します。

ユースケース

Priority 処理は、パフォーマンスと信頼性が最も重要なビジネスクリティカルなワークフローに最適です。

インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、高速で一貫した応答を期待するカスタマーサービスチャットボットとコパイロット。
リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正検出など、信頼性が高く、低レイテンシの結果を必要とするシステム。
プレミアムカスタマー機能: 有料顧客に対してより高いサービスレベル目標（SLO）を保証する必要があるデベロッパー。

レート上限

Priority の消費量は、インタラクティブトラフィックの全体的なレート上限にカウントされますが、独自のレート上限があります。Priority 推論のデフォルトのレート上限は、モデル / ティアの標準レート上限の 0.3 倍 です。

グレースフルダウングレードロジック

輻輳により Priority の上限を超えた場合、オーバーフローリクエストは 503 エラーまたは 429 エラーで失敗するのではなく、自動的にグレースフルに Standard 処理にダウングレードされます。ダウングレードされたリクエストは、Priority プレミアム料金ではなく、標準料金で課金されます。

クライアントの責任

レスポンスのモニタリング: デベロッパーは、API レスポンスの x-gemini-service-tier ヘッダーをモニタリングして、リクエストが頻繁に standard にダウングレードされているかどうかを検出する必要があります。
再試行: クライアントは、標準エラー（例: DEADLINE_EXCEEDED）に対して再試行ロジック/指数バックオフを実装する必要があります。

料金

Priority 推論の料金は、Standard API より 75 ～ 100% 高く、トークン単位で課金されます。

サポートされているモデル

次のモデルは Priority 推論をサポートしています。

モデル	Priority 推論
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite プレビュー	✔️
Gemini 3.1 Pro プレビュー	✔️
Gemini 3 Flash プレビュー	✔️
Gemini 3 Pro Image プレビュー	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Image	✔️
Gemini 2.5 Flash-Lite	✔️

次のステップ

Gemini のその他の推論オプションと最適化オプションについて確認する。

Flex 推論で費用を 50% 削減する。
Batch API を使用して 24 時間以内に非同期処理を行う。
コンテキストキャッシュ保存で入力トークンの費用を削減する。