コンテキストのキャッシュ保存

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡すことがあります。Gemini API は、パフォーマンスとコストを最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

暗黙的なキャッシュ保存は、すべての Gemini 2.5 以降のモデルでデフォルトで有効になっています。リクエストがキャッシュにヒットした場合、コスト削減分が自動的に適用されます。有効にするための操作は必要ありません。コンテキストのキャッシュ保存の最小入力トークン数は、モデルごとに次の表に記載されています。

モデル トークンの最小制限
Gemini 3.5 Flash 1024
Gemini 3 Pro プレビュー 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

暗黙的なキャッシュ ヒットの可能性を高めるには:

  • 大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
  • 類似した接頭辞を含むリクエストを短時間で送信します。

キャッシュ ヒットしたトークンの数は、レスポンス オブジェクトの usage_metadata(Python)または usageMetadata(JavaScript)フィールドで確認できます。