Gemini API の最適化と推論

Gemini API には、特定のワークロードのニーズに基づいて速度、コスト、信頼性のバランスを取るのに役立つさまざまな最適化メカニズムが用意されています。リアルタイムの会話型ボットを構築する場合でも、オフラインで大量のデータ処理パイプラインを実行する場合でも、適切なパラダイムを選択することで、コストを大幅に削減したり、パフォーマンスを向上させたりできます。

機能 標準 Flex 候補 バッチ キャッシュ
料金 正規料金 50% 割引 標準の 75% ~ 100% 増 50% 割引 90% 割引 + トークン ストレージの比例配分
レイテンシ 数秒~数分 数分(目標 1 ~ 15 分) 最大 24 時間 最初のトークンまでの時間を短縮
信頼性 高 / 中~高 ベスト エフォート(削減可能) 高(削減不可) 高(スループットの場合) なし
インターフェース 同期 同期 同期 非同期 保存された状態
最適なユースケース 一般的なアプリケーション ワークフロー 緊急性の低いシーケンシャル チェーン 本番環境のユーザー向けアプリ 大規模なデータセット、オフライン評価 同じファイルに対する繰り返しクエリ

推論サービスティア(同期)

標準生成呼び出しで service_tier パラメータを渡すことで、信頼性最適化と費用最適化の同期トラフィックを切り替えることができます。

標準推論(デフォルト)

標準ティアは、シーケンシャル コンテンツ生成のデフォルト オプションです。追加料金や大量のキューイングなしで、通常のレスポンス時間を実現します。

  • 信頼性: 標準の重要度
  • 料金: 標準料金。
  • 最適な用途: ほとんどのインタラクティブな日常業務アプリケーション。

優先度推論(レイテンシ最適化)

優先度処理では、リクエストが高重要度のコンピューティング キューにルーティングされます。このトラフィックは厳密に削減不可(他のティアによってプリエンプトされない)で、最高の信頼性を提供します。動的な優先度の上限を超過した場合、エラーで失敗する代わりに、リクエストは標準処理に正常にダウングレードされます。

  • 信頼性: 最も高い重要度
  • 料金: 標準料金の 75% ~ 100% 増。
  • 最適な用途: カスタマー chatbot、リアルタイムの不正使用検出、ビジネスに不可欠なコパイロット。

Flex 推論(費用最適化)

Flex 推論では、機会的なオフピーク コンピューティング容量を利用することで、標準料金と比較して 50% の割引が適用されます。リクエストは同期的に処理されるため、バッチ オブジェクトを管理するためにコードを書き換える必要はありません。 「削減可能」なトラフィックであるため、システムで標準トラフィックの急増が発生すると、リクエストがプリエンプトされる可能性があります。

  • 信頼性: 非保証型、削減可能な重要度
  • 料金: 標準料金の 50%(トークン単位で課金)。
  • 最適な用途: 呼び出し N+1 が呼び出し N の出力に依存するマルチステップ エージェント ワークフロー、バックグラウンド CRM の更新、オフライン評価。

Batch API(一括、非同期)

Batch API は、大量のリクエストを標準料金の 50% で非同期的に処理するように設計されています。リクエストは、インライン ディクショナリとして送信することも、JSONL 入力ファイル(最大 2 GB)を使用して送信することもできます。リクエストは、バックグラウンド スループット キューを使用して処理され、目標のターンアラウンド時間は 24 時間です。

  • 信頼性: 削減可能ですが、24 時間の自動再試行とキューイング システムがあります
  • 料金: 標準料金の 50%。
  • 最適な用途: 大規模なデータセットの事前処理、定期的な回帰テスト スイートの実行、大量の画像または埋め込みの生成。

コンテキスト キャッシュ保存(入力の削減)

コンテキスト キャッシュ保存は、初期 コンテキストの実体部分が、短いリクエストで繰り返し参照される場合に使用されます。

  • 暗黙的キャッシュ保存: Gemini 2.5 以降のモデルで自動的に有効になります。 リクエストが一般的なプロンプト プレフィックスに基づいて既存のキャッシュにヒットした場合、システムはコスト削減を転送します。
  • 明示的なキャッシュ保存: 特定の有効期間(TTL)でキャッシュ オブジェクトを手動で作成できます。作成したら、後続のリクエストでキャッシュに保存されたトークンを参照して、同じコーパス ペイロードを繰り返し渡さないようにします。
  • 料金: キャッシュ トークン数と保存期間(TTL)に基づいて課金されます。
  • 最適な用途: 広範なシステム指示を伴う chatbot、長い動画ファイルの繰り返し分析、大規模なドキュメント セットに対するクエリ。