Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

コンテキストのキャッシュ保存

注: このページのバージョンでは、現在ベータ版の新しい Interactions API について説明しています。
安定した本番環境デプロイの場合は、引き続き generateContent API を使用することをおすすめします。このページの切り替えボタンを使用して、バージョンを切り替えることができます。

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡すことがあります。Gemini API は、パフォーマンスとコストを最適化するために暗黙的なキャッシュ保存を提供します。

暗黙的なキャッシュ保存

暗黙的なキャッシュ保存は、すべての Gemini 2.5 以降のモデルでデフォルトで有効になっています。リクエストがキャッシュにヒットした場合、コスト削減分が自動的に適用されます。有効にするための操作は必要ありません。コンテキストのキャッシュ保存の最小入力トークン数は、モデルごとに次の表に記載されています。

モデル	トークンの最小制限
Gemini 3.5 Flash	1024
Gemini 3 Pro プレビュー	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

暗黙的なキャッシュヒットの可能性を高めるには:

大規模で一般的なコンテンツは、プロンプトの先頭に配置します。
類似した接頭辞を含むリクエストを短時間で送信します。

キャッシュヒットしたトークンの数は、レスポンスオブジェクトの usage_metadata（Python）または usageMetadata（JavaScript）フィールドで確認できます。