Interactions API の一般提供を開始しました。この API を使用して、最新の機能とモデルにアクセスすることをおすすめします。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API の最適化と推論

Gemini API には、特定のワークロードのニーズに基づいて速度、コスト、信頼性のバランスを取るのに役立つさまざまな最適化メカニズムが用意されています。リアルタイムの会話型ボットを構築する場合でも、オフラインで大量のデータ処理パイプラインを実行する場合でも、適切なパラダイムを選択することで、コストを大幅に削減したり、パフォーマンスを向上させたりできます。

機能	標準	Flex	候補	バッチ	キャッシュ
料金	正規料金	50% 割引	標準の 75% ～ 100% 増	50% 割引	90% 割引 + トークンストレージの比例配分
レイテンシ	数秒～数分	数分（目標 1 ～ 15 分）	秒	最大 24 時間	最初のトークンまでの時間を短縮
信頼性	高 / 中～高	ベストエフォート（削減可能）	高（削減不可）	高（スループットの場合）	なし
インターフェース	同期	同期	同期	非同期	保存された状態
最適なユースケース	一般的なアプリケーションワークフロー	緊急性の低いシーケンシャルチェーン	本番環境のユーザー向けアプリ	大規模なデータセット、オフライン評価	同じファイルに対する繰り返しクエリ

推論サービスティア（同期）

標準生成呼び出しで service_tier パラメータを渡すことで、信頼性最適化と費用最適化の同期トラフィックを切り替えることができます。

標準推論（デフォルト）

標準ティアは、シーケンシャルコンテンツ生成のデフォルトオプションです。追加料金や大量のキューイングなしで、通常のレスポンス時間を実現します。

信頼性: 標準の重要度
料金: 標準料金。
最適な用途: ほとんどのインタラクティブな日常業務アプリケーション。

優先度推論（レイテンシ最適化）

優先度処理では、リクエストが高重要度のコンピューティングキューにルーティングされます。このトラフィックは厳密に削減不可（他のティアによってプリエンプトされない）で、最高の信頼性を提供します。動的な優先度の上限を超過した場合、エラーで失敗する代わりに、リクエストは標準処理に正常にダウングレードされます。

信頼性: 最も高い重要度
料金: 標準料金の 75% ～ 100% 増。
最適な用途: カスタマー chatbot、リアルタイムの不正使用検出、ビジネスに不可欠なコパイロット。

Flex 推論（費用最適化）

Flex 推論では、機会的なオフピークコンピューティング容量を利用することで、標準料金と比較して 50% の割引が適用されます。リクエストは同期的に処理されるため、バッチオブジェクトを管理するためにコードを書き換える必要はありません。「削減可能」なトラフィックであるため、システムで標準トラフィックの急増が発生すると、リクエストがプリエンプトされる可能性があります。

信頼性: 非保証型、削減可能な重要度
料金: 標準料金の 50%（トークン単位で課金）。
最適な用途: 呼び出し N+1 が呼び出し N の出力に依存するマルチステップエージェントワークフロー、バックグラウンド CRM の更新、オフライン評価。

Batch API（一括、非同期）

Batch API は、大量のリクエストを標準料金の 50% で非同期的に処理するように設計されています。リクエストは、インラインディクショナリとして送信することも、JSONL 入力ファイル（最大 2 GB）を使用して送信することもできます。リクエストは、バックグラウンドスループットキューを使用して処理され、目標のターンアラウンド時間は 24 時間です。

信頼性: 削減可能ですが、24 時間の自動再試行とキューイングシステムがあります
料金: 標準料金の 50%。
最適な用途: 大規模なデータセットの事前処理、定期的な回帰テストスイートの実行、大量の画像または埋め込みの生成。

コンテキストキャッシュ保存（入力の削減）

コンテキストキャッシュ保存は、初期コンテキストの実体部分が、短いリクエストで繰り返し参照される場合に使用されます。

暗黙的キャッシュ保存: Gemini 2.5 以降のモデルで自動的に有効になります。リクエストが一般的なプロンプトプレフィックスに基づいて既存のキャッシュにヒットした場合、システムはコスト削減を転送します。
明示的なキャッシュ保存: 特定の有効期間（TTL）でキャッシュオブジェクトを手動で作成できます。作成したら、後続のリクエストでキャッシュに保存されたトークンを参照して、同じコーパスペイロードを繰り返し渡さないようにします。
料金: キャッシュトークン数と保存期間（TTL）に基づいて課金されます。
最適な用途: 広範なシステム指示を伴う chatbot、長い動画ファイルの繰り返し分析、大規模なドキュメントセットに対するクエリ。