優先推論
Gemini Priority API は、低レイテンシと最高の信頼性を必要とするビジネス クリティカルなワークロード向けに設計されたプレミアム推論ティアで、プレミアム価格で提供されます。優先ティアのトラフィックは、標準 API と Flex ティアのトラフィックよりも優先されます。
優先推論は、Interactions API エンドポイント全体で利用できます。
優先度を使用する方法
優先ティアを使用するには、リクエストの service_tier フィールドを priority に設定します。このフィールドを省略した場合、デフォルトのティアは標準です。
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
優先推論の仕組み
優先推論は、リクエストを高クリティカルなコンピューティング キューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックを標準処理にグレースフルにサーバーサイドでダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。
| 機能 | 候補 | 標準 | Flex | バッチ |
|---|---|---|---|---|
| 料金 | 標準より 75 ~ 100% 高い | 通常料金 | 50% 割引 | 50% 割引 |
| レイテンシ | 秒 | 数秒~数分 | 分(目標 1 ~ 15 分) | 最大 24 時間 |
| 信頼性 | 高(削除不可) | 高 / 中~高 | ベスト エフォート(削除可能) | 高(スループットの場合) |
| インターフェース | 同期 | 同期 | 同期 | 非同期 |
主な特典
- 低レイテンシ: インタラクティブな ユーザー向け AI ツールで 2 秒の応答時間を実現するように設計されています。
- 高い信頼性: トラフィックは最もクリティカルなものとして扱われ、 厳密に削除できません。
- グレースフル デグラデーション: 動的上限を超えるトラフィックの急増は、失敗するのではなく、処理のために自動的に標準ティアにダウングレードされ、サービスの停止を防ぎます。
- 摩擦が少ない: 標準ティアと Flex ティアと同じ同期
createメソッドを使用します。
ユースケース
優先処理は、パフォーマンスと信頼性が最も重要なビジネス クリティカルなワークフローに最適です。
- インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、高速で一貫した応答を期待するカスタマー サービス チャットボットとコパイロット。
- リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正検出など、信頼性が高く、低レイテンシの 結果を必要とするシステム。
- プレミアム カスタマー機能: 有料顧客に対してより高いサービス レベル目標(SLO)を保証する必要があるデベロッパー。
レート上限
優先度の消費量には、消費量が インタラクティブ トラフィックの全体的なレート上限にカウントされる場合でも、独自のレート上限があります。優先推論のデフォルトのレート上限は、モデル / ティアの標準レート上限の 0.3 倍 です。
グレースフル ダウングレード ロジック
輻輳により優先度の上限を超えた場合、オーバーフロー リクエストは 503 または 429 エラーで失敗するのではなく、標準処理に自動的かつグレースフルに ダウングレードされます。ダウングレードされたリクエストは、優先度のプレミアム料金ではなく、標準料金で課金されます。
クライアントの責任
- レスポンスのモニタリング: デベロッパーは、API レスポンスの
x-gemini-service-tierヘッダーをモニタリングして、リクエストが頻繁にstandardにダウングレードされているかどうかを検出する必要があります。 - 再試行: クライアントは、
標準エラー(
DEADLINE_EXCEEDEDなど)に対して、再試行ロジック/指数バックオフを実装する必要があります。
料金
優先推論の料金は、標準 API より 75 ~ 100% 高く、トークン単位で課金されます。
サポートされているモデル
次のモデルは優先推論をサポートしています。
| モデル | 優先推論 |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite プレビュー | ✔️ |
| Gemini 3.1 Pro プレビュー | ✔️ |
| Gemini 3 Flash プレビュー | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
次のステップ
- 費用削減のための Flex 推論。
- トークン: トークンについて理解する。