內容快取

在典型的 AI 工作流程中，您可能會一再將相同的輸入符記傳遞至模型。Gemini API 提供兩種不同的快取機制：

隱含快取 (自動執行，無法保證可節省成本)
明確快取 (手動，保證節省成本)

根據預設，Gemini 2.5 模型會啟用隱含快取功能。如果要求包含快取命中的內容，我們會自動將節省的費用退還給您。

如果您想確保節省成本，但需要額外進行開發人員作業，則可使用明確快取。

隱含快取

根據預設，所有 Gemini 2.5 模型都會啟用隱含快取功能。如果您的要求命中快取，我們會自動將節省的費用轉嫁給您。您不必採取任何行動即可啟用這項功能。這項政策已於 2025 年 5 月 8 日生效。2.5 Flash 和 2.5 Pro 的快取內容最少輸入符記數量分別為 1,024 和 2,048。

如要提高隱含快取命中的機率，請採取以下做法：

請嘗試在提示的開頭放入大量常見內容
在短時間內嘗試傳送含有類似前置字串的要求

您可以查看回應物件 usage_metadata 欄位中命中快取的符記數量。

明確快取

您可以使用 Gemini API 明確快取功能，將部分內容傳送至模型一次，快取輸入符號，然後在後續要求中參照快取的符號。在某些情況下，使用快取符記比重複傳遞相同的符記集合更省錢。

快取一組符記時，您可以選擇快取要保留多久，再自動刪除符記。這個快取時間長度稱為存留時間 (TTL)。如果未設定，TTL 預設為 1 小時。快取的成本取決於輸入符記的大小，以及您希望符記保留多久。

本節假設您已安裝 Gemini SDK (或已安裝 curl)，且已設定 API 金鑰，如快速入門所示。

使用快取產生內容

以下範例說明如何建立快取，然後使用快取產生內容。

影片PDF

wget https://storage.googleapis.com/generativeai-downloads/data/a11.txt
echo '{
  "model": "models/gemini-2.0-flash-001",
  "contents":[
    {
      "parts":[
        {
          "inline_data": {
            "mime_type":"text/plain",
            "data": "'$(base64 $B64FLAGS a11.txt)'"
          }
        }
      ],
    "role": "user"
    }
  ],
  "systemInstruction": {
    "parts": [
      {
        "text": "You are an expert at analyzing transcripts."
      }
    ]
  },
  "ttl": "300s"
}' > request.json

curl -X POST "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json

CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-001:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
      "contents": [
        {
          "parts":[{
            "text": "Please summarize this transcript"
          }],
          "role": "user"
        },
      ],
      "cachedContent": "'$CACHE_NAME'"
    }'

DOC_URL="https://www.nasa.gov/wp-content/uploads/static/history/alsj/a17/A17_FlightPlan.pdf"
DISPLAY_NAME="A17_FlightPlan"
SYSTEM_INSTRUCTION="You are an expert at analyzing transcripts."
PROMPT="Please summarize this transcript"
MODEL="models/gemini-2.0-flash-001"
TTL="300s"

# Download the PDF
wget -O "${DISPLAY_NAME}.pdf" "${DOC_URL}"

MIME_TYPE=$(file -b --mime-type "${DISPLAY_NAME}.pdf")
NUM_BYTES=$(wc -c < "${DISPLAY_NAME}.pdf")

echo "MIME_TYPE: ${MIME_TYPE}"
echo "NUM_BYTES: ${NUM_BYTES}"

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
  -D upload-header.tmp \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${DISPLAY_NAME}.pdf" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo "file_uri: ${file_uri}"

# Clean up the downloaded PDF
rm "${DISPLAY_NAME}.pdf"

# Create the cached content request
echo '{
  "model": "'$MODEL'",
  "contents":[
    {
      "parts":[
        {"file_data": {"mime_type": "'$MIME_TYPE'", "file_uri": '$file_uri'}}
      ],
    "role": "user"
    }
  ],
  "system_instruction": {
    "parts": [
      {
        "text": "'$SYSTEM_INSTRUCTION'"
      }
    ],
    "role": "system"
  },
  "ttl": "'$TTL'"
}' > request.json

# Send the cached content request
curl -X POST "${BASE_URL}/v1beta/cachedContents?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json

CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)
echo "CACHE_NAME: ${CACHE_NAME}"
# Send the generateContent request using the cached content
curl -X POST "${BASE_URL}/${MODEL}:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
      "contents": [
        {
          "parts":[{
            "text": "'$PROMPT'"
          }],
          "role": "user"
        }
      ],
      "cachedContent": "'$CACHE_NAME'"
    }' > response.json

cat response.json

echo jq ".candidates[].content.parts[].text" response.json

列出快取

您無法擷取或查看快取內容，但可以擷取快取中繼資料 (name、model、displayName、usageMetadata、createTime、updateTime 和 expireTime)。

curl "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY"

更新快取

您可以為快取設定新的 ttl 或 expireTime。系統不支援變更快取的其他內容。

以下範例說明如何更新快取的 ttl。

curl -X PATCH "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY" \
 -H 'Content-Type: application/json' \
 -d '{"ttl": "600s"}'

刪除快取

快取服務提供刪除作業，可用於手動從快取中移除內容。以下範例說明如何刪除快取。

curl -X DELETE "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY"

使用明確快取的時機

在較短的請求中重複參照大量初始情境的情況下，情境快取特別適合。請考慮在下列用途中使用情境快取：

含大量系統指示的聊天機器人
重複分析長篇影片檔案
針對大量文件集執行週期性查詢
經常分析或修正程式碼存放區

明確快取功能如何降低成本

情境快取是一項付費功能，旨在降低整體營運成本。費用則按照下列因素計算：

快取符號數量：快取的輸入符號數量，如果納入後續提示，則以較低的費率計費。
儲存時間：快取權杖的儲存時間 (TTL)，根據快取權杖數量的 TTL 時間計費。存留時間沒有最低或最高限制。
其他因素：其他費用也會產生，例如未快取的輸入符記和輸出符記。

如需最新的定價詳細資料，請參閱 Gemini API 定價頁面。如要瞭解如何計算符記，請參閱符記指南。

其他注意事項

使用內容快取時，請注意下列事項：

在 2.5 Flash 中，背景資訊快取的最小輸入符記數量為 1,024，在 2.5 Pro 中則為 2,048。最大值與指定模型的最大值相同。(如要進一步瞭解如何計算符記，請參閱「符記指南」)。
模型不會區分快取符記和一般輸入符記。快取內容是提示的字首。
快取內容沒有特別的頻率或用量限制，而是採用 GenerateContent 的標準頻率限制，符記限制則包含快取的符記。
快取憑證的數量會在快取服務的建立、取得和清單作業的 usage_metadata 中傳回，也會在使用快取時的 GenerateContent 中傳回。