優先度の推論
Gemini Priority API は、低レイテンシと最高の信頼性を必要とするビジネス クリティカルなワークロード向けに設計されたプレミアム推論ティアです。優先度ティアのトラフィックは、標準 API と Flex ティアのトラフィックよりも優先されます。
優先順位の推論は、Interactions API エンドポイント全体で利用できます。
優先度の使用方法
優先度階層を使用するには、リクエストの service_tier フィールドを priority に設定します。フィールドが省略されている場合、デフォルトの階層は標準です。
Python
# This will only work for SDK newer than 2.0.0
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
優先度推論の仕組み
優先度推論では、リクエストを高クリティカルなコンピューティング キューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックに対して、サーバーサイドで標準処理にグレースフルにダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。
| 機能 | 優先度 | 標準 | Flex | バッチ |
|---|---|---|---|---|
| 料金 | Standard の 75 ~ 100% 増 | 通常料金 | 50% 割引 | 50% 割引 |
| レイテンシ | 秒 | 数秒~数分 | 分(1 ~ 15 分の目標) | 最大 24 時間 |
| 信頼性 | 高(抜け毛が少ない) | 高 / 中~高 | ベスト エフォート(破棄可能) | 高(スループットの場合) |
| インターフェース | 同期 | 同期 | 同期 | 非同期 |
主なメリット
- 低レイテンシ: ユーザー向けのインタラクティブな AI ツールで、応答時間が 1 秒になるように設計されています。
- 高い信頼性: トラフィックは最も高い重要度で処理され、厳密に非シェディングです。
- グレースフル デグラデーション: 動的上限を超えるトラフィックの急増は、失敗するのではなく、処理のために自動的に Standard 階層にダウングレードされ、サービス停止を防ぎます。
- 摩擦が少ない: 標準階層と Flex 階層と同じ同期
createメソッドを使用します。
ユースケース
優先処理は、パフォーマンスと信頼性が最も重要なビジネス クリティカルなワークフローに最適です。
- インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、迅速で一貫性のある応答を期待するカスタマー サービス chatbot と copilot。
- リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正行為の検出など、信頼性が高く、レイテンシの低い結果を必要とするシステム。
- プレミアム カスタマー機能: 有料ユーザーに対してより高いサービスレベル目標(SLO)を保証する必要があるデベロッパー。
レート上限
優先度の高い消費は、インタラクティブ トラフィックの全体的なレート制限に対してカウントされますが、独自のレート制限が適用されます。優先度推論のデフォルトのレート上限は、モデル / 階層の標準レート上限の 0.3 倍です。
グレースフル ダウングレード ロジック
輻輳により優先度の上限を超えた場合、オーバーフロー リクエストは 503 エラーまたは 429 エラーで失敗するのではなく、自動的に正常に Standard 処理にダウングレードされます。ダウングレードされたリクエストは、優先度の高いプレミアム料金ではなく、標準料金で課金されます。
お客様の責任
- レスポンスのモニタリング: デベロッパーは、API レスポンスの
x-gemini-service-tierヘッダーをモニタリングして、リクエストがstandardに頻繁にダウングレードされているかどうかを検出する必要があります。 - 再試行: クライアントは、
DEADLINE_EXCEEDEDなどの標準エラーに対して再試行ロジック/指数バックオフを実装する必要があります。
料金
優先度推論の料金は、標準 API の 75 ~ 100% 増しで、トークン単位で課金されます。
サポートされているモデル
次のモデルは優先度付き推論をサポートしています。
| モデル | 優先度推論 |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite プレビュー | ✔️ |
| Gemini 3.1 Pro プレビュー版 | ✔️ |
| Gemini 3 Flash プレビュー | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |