コンテキストのキャッシュ保存

一般的な AI ワークフローでは、同じ入力トークンをモデルに何度も渡すことがあります。Gemini API のコンテキストキャッシュ保存機能を使用すると、一部のコンテンツをモデルに 1 回渡し、入力トークンをキャッシュに保存してから、キャッシュに保存されたトークンを後続のリクエストで参照できます。一定のボリュームでは、キャッシュに保存されたトークンを使用する方が、同じトークンコーパスを繰り返し渡すよりも費用が低くなります。

一連のトークンをキャッシュに保存する場合は、トークンが自動的に削除されるまでのキャッシュの存続期間を選択できます。このキャッシュ保存期間は有効期間（TTL）と呼ばれます。設定しない場合、TTL はデフォルトで 1 時間になります。キャッシュに保存する費用は、入力トークンのサイズとトークンを保持する時間によって異なります。

コンテキストキャッシュ保存は、Gemini 1.5 と 2.0 の安定版モデルシリーズでサポートされています。

コンテキストキャッシュ保存を使用する状況

コンテキストキャッシュ保存は、初期コンテキストの実体部分が、短いリクエストで繰り返し参照されるシナリオに特に適しています。次のようなユースケースでは、コンテキストキャッシュ保存の使用を検討してください。

広範なシステム指示を伴う chatbot
長時間の動画ファイルの繰り返し分析
大規模なドキュメントセットに対する繰り返しのクエリ
頻繁なコードリポジトリの分析やバグ修正

キャッシュによって費用を削減する方法

コンテキストキャッシュ保存は、全体的な運用コストを削減するために設計された有料の機能です。ご請求は次の項目に基づいて行われます。

キャッシュトークン数: キャッシュに保存された入力トークンの数。後続のプロンプトに含まれる場合は、割引料金で請求されます。
保存期間: キャッシュに保存されたトークンの保存時間（TTL）。キャッシュに保存されたトークン数の TTL 時間に基づいて課金されます。TTL の最小値や最大値はありません。
その他の項目: 入力トークンや出力トークンがキャッシュされていない場合などは、別の料金が適用されます。

最新の料金の詳細については、Gemini API の料金ページをご覧ください。トークンをカウントする方法については、トークンガイドをご覧ください。

コンテキストキャッシュ保存を使用する方法

このセクションでは、クイックスタートに記載されているように、Gemini SDK がインストールされていること（または curl がインストールされていること）と、API キーが構成されていることを前提としています。

キャッシュを使用してコンテンツを生成する

次の例は、キャッシュに保存されたシステムインストラクションとテキストファイルを使用してコンテンツを生成する方法を示しています。

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

async function main() {
  const doc = await ai.files.upload({
    file: "path/to/file.txt",
    config: { mimeType: "text/plain" },
  });
  console.log("Uploaded file name:", doc.name);

  const modelName = "gemini-2.0-flash-001";
  const cache = await ai.caches.create({
    model: modelName,
    config: {
      contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
      systemInstruction: "You are an expert analyzing transcripts.",
    },
  });
  console.log("Cache created:", cache);

  const response = await ai.models.generateContent({
    model: modelName,
    contents: "Please summarize this transcript",
    config: { cachedContent: cache.name },
  });
  console.log("Response text:", response.text);
}

await main();

キャッシュのリストを表示する

キャッシュに保存されたコンテンツを取得または表示することはできませんが、キャッシュメタデータ（name、model、displayName、usageMetadata、createTime、updateTime、expireTime）を取得できます。

アップロードされたすべてのキャッシュのメタデータを一覧表示するには、GoogleGenAI.caches.list() を使用します。

console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
  for (const c of page) {
    console.log("    ", c.name);
  }
  if (!pager.hasNextPage()) break;
  page = await pager.nextPage();
}

キャッシュを更新する

キャッシュに新しい ttl または expireTime を設定できます。キャッシュのその他の変更はサポートされていません。

次の例は、GoogleGenAI.caches.update() を使用してキャッシュの ttl を更新する方法を示しています。

const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
  name: cache.name,
  config: { ttl },
});
console.log("After update (TTL):", updatedCache);

キャッシュを削除する

キャッシュサービスには、キャッシュからコンテンツを手動で削除するための削除オペレーションが用意されています。次の例は、GoogleGenAI.caches.delete() を使用してキャッシュを削除する方法を示しています。

await ai.caches.delete({ name: cache.name });

その他の考慮事項

コンテキストキャッシュを使用する場合は、次の点に注意してください。

コンテキストキャッシュの最小入力トークン数は 32,768 で、最大数は特定のモデルの最大数と同じです。（トークンのカウントについて詳しくは、トークンのガイドをご覧ください）。
モデルは、キャッシュに保存されたトークンと通常の入力トークンを区別しません。キャッシュに保存されたコンテンツは、プロンプトの接頭辞にすぎません。
コンテキストキャッシュには特別なレートや使用量の上限はありません。GenerateContent の標準レートの上限が適用され、トークンの上限にはキャッシュに保存されたトークンが含まれます。
キャッシュに保存されているトークン数は、キャッシュサービスの create、get、list オペレーションから usage_metadata で返されます。また、キャッシュを使用している場合は GenerateContent でも返されます。