Gemini Priority API は、ビジネス クリティカルなワークロード向けに設計されたプレミアム推論ティアです。低レイテンシと最高の信頼性を必要とするワークロードに、プレミアム価格で提供されます。Priority ティアのトラフィックは、Standard API と Flex ティアのトラフィックよりも優先されます。
Priority 推論は、GenerateContent API と Interactions API エンドポイントで、ティア 2 とティア 3 のユーザーが利用できます。
Priority の使用方法
Priority ティアを使用するには、リクエスト本文の service_tier フィールドを priority に設定します。このフィールドを省略した場合、デフォルトのティアは Standard です。
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Priority 推論の仕組み
Priority 推論は、リクエストを高クリティカルなコンピューティング キューにルーティングし、ユーザー向けアプリケーションに予測可能で高速なパフォーマンスを提供します。主なメカニズムは、動的上限を超えるトラフィックをサーバー側で標準処理にグレースフルにダウングレードすることです。これにより、リクエストが失敗するのではなく、アプリケーションの安定性が確保されます。
| 機能 | 候補 | 標準 | Flex | バッチ |
|---|---|---|---|---|
| 料金 | Standard より 75 ~ 100% 高い | 通常料金 | 50% 割引 | 50% 割引 |
| レイテンシ | 秒 | 数秒~数分 | 分(目標 1 ~ 15 分) | 最大 24 時間 |
| 信頼性 | 高(非破棄可能) | 高 / 中~高 | ベスト エフォート(破棄可能) | 高(スループットの場合) |
| インターフェース | 同期 | 同期 | 同期 | 非同期 |
主な特典
- 低レイテンシ: インタラクティブな ユーザー向け AI ツールで、秒単位の応答時間を実現するように設計されています。
- 高い信頼性: トラフィックは最もクリティカルなものとして扱われ、 破棄されることはありません。
- グレースフル デグラデーション: 動的上限を超えるトラフィック スパイクは、失敗するのではなく、処理のために 自動的に Standard ティアにダウングレードされるため、 サービス停止を防ぐことができます。
- 低摩擦: Standard ティアと Flex ティアと同じ同期
generateContentメソッドを使用します。
ユースケース
Priority 処理は、パフォーマンスと信頼性が最も重要なビジネス クリティカルなワークフローに最適です。
- インタラクティブ AI アプリケーション: ユーザーがプレミアム料金を支払い、高速で一貫した応答を期待するカスタマー サービス チャットボットとコパイロット。
- リアルタイムの意思決定エンジン: ライブチケットのトリアージや不正検出など、信頼性が高く、低レイテンシの 結果を必要とするシステム。
- プレミアム カスタマー機能: 有料顧客に対してより高いサービス レベル目標(SLO)を保証する必要があるデベロッパー。
レート上限
Priority の消費量は、インタラクティブ トラフィックの全体的なレート上限に カウントされますが、独自のレート上限があります。Priority 推論のデフォルトのレート上限は、モデル / ティアの標準レート上限の 0.3 倍 です。
グレースフル ダウングレード ロジック
輻輳により Priority の上限を超過した場合、オーバーフロー リクエストは 503 エラーまたは 429 エラーで失敗するのではなく、自動的にグレースフルに Standard 処理にダウングレードされます。ダウングレードされたリクエストは、Priority プレミアム料金ではなく、標準料金で課金されます。
クライアントの責任
- レスポンスのモニタリング: デベロッパーは、API レスポンス本文の
service_tier値をモニタリングして、リクエストが頻繁にstandardにダウングレードされているかどうかを検出する必要があります。 - 再試行: クライアントは、
標準エラー(
DEADLINE_EXCEEDEDなど)に対して、再試行ロジック/指数バックオフを実装する必要があります。
料金
Priority 推論の料金は、Standard API より 75 ~ 100% 高く、トークン単位で課金されます。
サポートされているモデル
次のモデルは Priority 推論をサポートしています。
| モデル | Priority 推論 |
|---|---|
| Gemini 3.1 Flash-Lite プレビュー | ✔️ |
| Gemini 3.1 Pro プレビュー | ✔️ |
| Gemini 3 Flash プレビュー | ✔️ |
| Gemini 3 Pro Image プレビュー | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
次のステップ
Gemini のその他の 推論オプションと最適化オプションについて確認する。
- Flex 推論でコストを 50% 削減する。
- Batch API を使用して 24 時間以内に非同期処理を行う。
- コンテキスト キャッシュ保存で入力トークンのコストを削減する。