コンテキストのキャッシュ保存

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡すことがあります。Gemini API は、パフォーマンスとコストを最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

暗黙的なキャッシュ保存は、すべての Gemini 2.5 以降のモデルでデフォルトで有効になっています。リクエストがキャッシュにヒットした場合、コスト削減分が自動的に適用されます。有効にするための操作は必要ありません。コンテキスト キャッシュ保存の最小入力トークン数は、次の表にモデルごとに記載されています。

モデル 最小トークン数
Gemini 3.5 Flash 4096
Gemini 3.1 Pro プレビュー版 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

暗黙的なキャッシュ ヒットの可能性を高めるには:

  • 大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
  • 類似した接頭辞を含むリクエストを短時間で送信します。

キャッシュ ヒットしたトークン数は、レスポンス オブジェクトの usage_metadata(Python)または usageMetadata(JavaScript)フィールドで確認できます。