Gemini API には、特定のワークロードのニーズに基づいて速度、費用、信頼性のバランスを取るためのさまざまな最適化メカニズムが用意されています。リアルタイムの会話型ボットを構築する場合でも、オフラインで大量のデータ処理パイプラインを実行する場合でも、適切なパラダイムを選択することで、コストを大幅に削減したり、パフォーマンスを向上させたりできます。
| 機能 | 標準 | Flex | 優先度 | バッチ | キャッシュ |
|---|---|---|---|---|---|
| 料金 | 正規料金 | 50% 割引 | 標準の 75% ~ 100% 増 | 50% 割引 | 比例配分トークン ストレージ |
| レイテンシ | 数秒~数分 | 分(1 ~ 15 分の目標) | 低(秒) | 最大 24 時間 | 最初のトークンまでの時間の短縮 |
| 信頼性 | 高 / 中~高 | ベスト エフォート(破棄可能) | 高(抜け毛なし) | 高(スループットの場合) | なし |
| インターフェース | 同期 | 同期 | 同期 | 非同期 | 保存された状態 |
| 最適なユースケース | 一般的なアプリケーション ワークフロー | 緊急でないシーケンシャル チェーン | 本番環境のユーザー向けアプリ | 大規模なデータセット、オフライン評価 | 同じファイルに対する定期的なクエリ |
推論サービスティア(同期)
標準生成呼び出しで service_tier パラメータを渡すことで、レイテンシ最適化と費用最適化の同期トラフィックを切り替えることができます。
標準推論(デフォルト)
標準階層は、シーケンシャル コンテンツ生成のデフォルト オプションです。追加料金や長いキューイングなしで、通常の応答時間を提供します。
- レイテンシ: 数秒から数分。
- 料金: Standard の料金。
- 最適な用途: ほとんどのインタラクティブな日常的なアプリケーション。
優先推論(レイテンシ最適化)
優先度処理では、リクエストが高クリティカルなコンピューティング キューに転送されます。このトラフィックは厳密に非削減可能(他の階層によってプリエンプトされない)であり、最高の信頼性を提供します。動的優先度の上限を超過した場合、システムはエラーで失敗するのではなく、リクエストを標準処理に正常にダウングレードします。
- レイテンシ: 超低(ミリ秒から秒)。
- 料金: 標準料金の 75 ~ 100% 増。
- 適した状況: ライブ カスタマー chatbot、リアルタイムの不正行為検出、ビジネスに不可欠な copilot。
Flex 推論(費用最適化)
Flex 推論では、機会的なオフピークのコンピューティング容量を利用することで、標準料金と比較して 50% の割引が適用されます。リクエストは同期的に処理されるため、バッチ オブジェクトを管理するためにコードを書き直す必要はありません。「シェッド可能」なトラフィックであるため、システムで標準的なトラフィックの急増が発生した場合、リクエストがプリエンプトされることがあります。
- レイテンシ: 非保証型、目標は 1 ~ 15 分。
- 料金: 標準料金の 50%(トークンごとに課金)。
- 最適な用途: 呼び出し N+1 が呼び出し N の出力、バックグラウンド CRM の更新、オフライン評価に依存するマルチステップ エージェント ワークフロー。
Batch API(一括、非同期)
Batch API は、大量のリクエストを標準料金の 50% で非同期に処理するように設計されています。リクエストは、インライン辞書として送信するか、JSONL 入力ファイル(最大 2 GB)を使用して送信できます。バックグラウンド スループット キューを使用してリクエストを処理し、目標のターンアラウンド タイムは 24 時間です。
- レイテンシ: 高(最大 24 時間)。
- 料金: Standard の料金の 50%。
- 最適な用途: 大規模なデータセットの前処理、定期的な回帰テストスイートの実行、大量の画像やエンベディングの生成。
コンテキスト キャッシュ保存(入力の節約)
コンテキスト キャッシュ保存は、初期コンテキストの実体部分が、短いリクエストで繰り返し参照される場合に使用されます。
- 暗黙的キャッシュ保存: Gemini 2.5 以降のモデルで自動的に有効になります。リクエストが一般的なプロンプト接頭辞に基づいて既存のキャッシュにヒットした場合、システムはコスト削減を渡します。
- 明示的なキャッシュ保存: 特定の有効期間(TTL)でキャッシュ オブジェクトを手動で作成できます。作成後は、キャッシュに保存されたトークンを参照して、同じコーパス ペイロードが繰り返し渡されないようにします。
- 料金: キャッシュ トークンの数と保存期間(TTL)に基づいて課金されます。
- 最適な用途: 広範なシステム指示を伴う chatbot、長時間の動画ファイルの繰り返し分析、大規模なドキュメント セットに対するクエリ。