コンテキストのキャッシュ保存

一般的な AI ワークフローでは、同じ入力トークンをモデルに繰り返し渡すことがあります。Gemini API は、パフォーマンスと費用を最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

Gemini 2.5 以降のすべてのモデルでは、暗黙的キャッシュ保存がデフォルトで有効になっています。リクエストがキャッシュにヒットした場合、費用削減が自動的に適用されます。有効にするために必要な操作はありません。次の表に、各モデルのコンテキスト キャッシュ保存の最小入力トークン数を示します。

モデル 最小トークン数
Gemini 3 Flash プレビュー 1024
Gemini 3 Pro プレビュー版 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

暗黙的なキャッシュ ヒットの可能性を高めるには:

  • 大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
  • 類似した接頭辞を含むリクエストを短時間で送信しようとします。

キャッシュ ヒットしたトークンの数は、レスポンス オブジェクトの usage_metadata(Python)または usageMetadata(JavaScript)フィールドで確認できます。