Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

コンテキストのキャッシュ保存

注: このバージョンのページでは、現在ベータ版の新しい Interactions API について説明します。
安定した本番環境のデプロイでは、引き続き generateContent API を使用することをおすすめします。このページの切り替えを使用して、バージョンを切り替えることができます。

一般的な AI ワークフローでは、同じ入力トークンをモデルに繰り返し渡すことがあります。Gemini API は、パフォーマンスと費用を最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

Gemini 2.5 以降のすべてのモデルでは、暗黙的キャッシュ保存がデフォルトで有効になっています。リクエストがキャッシュにヒットした場合、費用削減が自動的に適用されます。有効にするために必要な操作はありません。次の表に、各モデルのコンテキストキャッシュ保存の最小入力トークン数を示します。

モデル	最小トークン数
Gemini 3 Flash プレビュー	1024
Gemini 3 Pro プレビュー版	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

暗黙的なキャッシュヒットの可能性を高めるには:

大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
類似した接頭辞を含むリクエストを短時間で送信しようとします。

キャッシュヒットしたトークンの数は、レスポンスオブジェクトの usage_metadata（Python）または usageMetadata（JavaScript）フィールドで確認できます。