コンテキストキャッシュ

一般的な AI ワークフローでは、同じ入力トークンをモデルです。Gemini API のコンテキストキャッシュ機能を使用すると、コンテンツの一部を入力トークンをキャッシュに保存してから、キャッシュに保存されているトークンを参照する使用します。特定のボリュームでは、キャッシュされたトークンを使用すると費用が抑えられる同じトークンのコーパスを繰り返し渡すより効率的です。

一連のトークンをキャッシュに保存する場合は、存在する必要があります。このキャッシュ保存期間はこれは有効期間（TTL）と呼ばれます。設定しない場合、TTL はデフォルトで 1 時間になります。「キャッシュ保存の費用は、入力トークンのサイズと、維持します。

コンテキストキャッシュは、Gemini 1.5 Pro と Gemini 1.5 Flash の両方をサポートしています。

コンテキストキャッシュ保存を使用する状況

コンテキストキャッシュ保存は、初期コンテキストの実体部分が、短いリクエストで繰り返し参照されるシナリオに特に適しています。次のようなユースケースでは、コンテキストキャッシュ保存の使用を検討してください。

広範なシステム指示を行う chatbot
長時間の動画ファイルの繰り返し分析
大規模なドキュメントセットに対する繰り返しのクエリ
頻繁なコードリポジトリの分析やバグ修正

キャッシュ保存によって費用が削減される仕組み

コンテキストキャッシュ保存は、全体的な運用コストを削減するために設計された有料の機能です。ご請求は次の項目に基づいて行われます。

キャッシュトークン数: キャッシュに保存された入力トークンの数。後続のプロンプトに含まれる場合は、割引料金で請求されます。
保存期間: キャッシュに保存されたトークンの保存期間（TTL）です。キャッシュされたトークン数の TTL 期間に基づいて課金されます。最低料金なし TTL の上限を指定しています
その他の項目: 入力トークンや出力トークンがキャッシュされていない場合などは、別の料金が適用されます。

最新の料金の詳細については、Gemini API の料金をご覧ください。ページをご覧ください。トークンのカウント方法については、トークンガイドをご覧ください。

コンテキストキャッシュの使用方法

このセクションでは、Gemini SDK がインストールされ、API が構成済みであることを前提としています。鍵を作成します（クイックスタートをご覧ください）。

その他の考慮事項

コンテキストキャッシュを使用する場合は、次の点に注意してください。

コンテキストキャッシュの最小入力トークン数は 32,768 で、 max は、特定のモデルの最大値と同じです。（トークンガイドをご覧ください）。
このモデルでは、キャッシュされたトークンと通常のトークンは区別されません。使用します。キャッシュに保存されたコンテンツはプロンプトの接頭辞です。
コンテキストキャッシュに特別なレートや使用量上限はありません。標準 GenerateContent のレート制限が適用されます。トークンの制限にはキャッシュが含まれます使用します。
キャッシュに保存されたトークンの数は、usage_metadata にキャッシュサービスの作成、取得、一覧表示の操作のほか、キャッシュを使用する場合、GenerateContent。

コンテキスト キャッシュ

コンテキスト キャッシュ保存を使用する状況

キャッシュ保存によって費用が削減される仕組み

コンテキスト キャッシュの使用方法

その他の考慮事項

コンテキストキャッシュ

コンテキストキャッシュ保存を使用する状況

コンテキストキャッシュの使用方法