Interactions API の一般提供を開始しました。この API を使用して、最新の機能とモデルにアクセスすることをおすすめします。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

コンテキストのキャッシュ保存

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡すことがあります。Gemini API は、パフォーマンスとコストを最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

暗黙的なキャッシュ保存は、すべての Gemini 2.5 以降のモデルでデフォルトで有効になっています。ステートフル（`previous_interaction_id` を使用）とステートレスの両方の会話モードでサポートされています。previous_interaction_idリクエストがキャッシュにヒットした場合、コスト削減分が自動的に渡されます。有効にするために必要な操作はありません。コンテキストキャッシュ保存の最小入力トークン数は、次の表にモデルごとに示されています。

モデル	最小トークン数
Gemini 3.5 Flash	4096
Gemini 3.1 Pro プレビュー版	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

暗黙的なキャッシュヒットの可能性を高めるには:

大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
類似した接頭辞を含むリクエストを短時間で送信します。

キャッシュヒットしたトークンの数は、レスポンスオブジェクトの usage.total_cached_tokens（Python と JavaScript）フィールドで確認できます。