জেমিনি ডিপ রিসার্চ এখন প্রিভিউতে উপলব্ধ, যাতে রয়েছে যৌথ পরিকল্পনা, ভিজ্যুয়ালাইজেশন, এমসিপি সাপোর্ট এবং আরও অনেক কিছু।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

প্রসঙ্গ ক্যাশিং

একটি সাধারণ এআই ওয়ার্কফ্লোতে, আপনি একটি মডেলে একই ইনপুট টোকেন বারবার পাঠাতে পারেন। জেমিনি এপিআই দুটি ভিন্ন ক্যাশিং ব্যবস্থা প্রদান করে:

অন্তর্নিহিত ক্যাশিং (জেমিনি ২.৫ এবং নতুন মডেলগুলিতে স্বয়ংক্রিয়ভাবে সক্রিয় হয়, খরচ সাশ্রয়ের কোনো নিশ্চয়তা নেই)
সুস্পষ্ট ক্যাশিং (বেশিরভাগ মডেলে ম্যানুয়ালি সক্রিয় করা যায়, খরচ সাশ্রয়ের নিশ্চয়তা)

এক্সপ্লিসিট ক্যাশিং এমন ক্ষেত্রে উপযোগী যেখানে আপনি খরচ সাশ্রয় নিশ্চিত করতে চান, কিন্তু এর জন্য ডেভেলপারদের কিছু অতিরিক্ত কাজ করতে হয়।

অন্তর্নিহিত ক্যাশিং

সমস্ত জেমিনি ২.৫ এবং নতুন মডেলগুলির জন্য ইমপ্লিসিট ক্যাশিং ডিফল্টরূপে সক্রিয় থাকে। আপনার অনুরোধ ক্যাশে পৌঁছালে আমরা স্বয়ংক্রিয়ভাবে খরচ সাশ্রয়ের সুবিধাটি আপনাকে দিয়ে দিই। এটি সক্রিয় করার জন্য আপনাকে কিছু করতে হবে না। প্রতিটি মডেলের জন্য কনটেক্সট ক্যাশিংয়ের ন্যূনতম ইনপুট টোকেন সংখ্যা নিম্নলিখিত সারণীতে তালিকাভুক্ত করা হয়েছে:

মডেল	সর্বনিম্ন টোকেন সীমা
জেমিনি ৩ ফ্ল্যাশ প্রিভিউ	১০২৪
জেমিনি ৩ প্রো প্রিভিউ	৪০৯৬
জেমিনি ২.৫ ফ্ল্যাশ	১০২৪
জেমিনি ২.৫ প্রো	৪০৯৬

ইমপ্লিসিট ক্যাশে হিটের সম্ভাবনা বাড়াতে:

আপনার প্রম্পটের শুরুতে বড় এবং সাধারণ বিষয়বস্তু রাখার চেষ্টা করুন।
অল্প সময়ের মধ্যে একই প্রিফিক্স সহ অনুরোধ পাঠানোর চেষ্টা করুন।

রেসপন্স অবজেক্টের usage_metadata ফিল্ডে আপনি ক্যাশে হিট হওয়া টোকেনগুলোর সংখ্যা দেখতে পাবেন।

সুস্পষ্ট ক্যাশিং

জেমিনি এপিআই-এর এক্সপ্লিসিট ক্যাশিং ফিচার ব্যবহার করে, আপনি মডেলে একবার কিছু কন্টেন্ট পাঠিয়ে ইনপুট টোকেনগুলো ক্যাশ করতে পারেন এবং তারপর পরবর্তী অনুরোধগুলোর জন্য সেই ক্যাশ করা টোকেনগুলো ব্যবহার করতে পারেন। একটি নির্দিষ্ট পরিমাণে, একই টোকেন কর্পাস বারবার পাঠানোর চেয়ে ক্যাশ করা টোকেন ব্যবহার করা কম ব্যয়বহুল।

যখন আপনি এক সেট টোকেন ক্যাশ করেন, তখন টোকেনগুলো স্বয়ংক্রিয়ভাবে মুছে যাওয়ার আগে ক্যাশটি কতক্ষণ থাকবে তা আপনি বেছে নিতে পারেন। এই ক্যাশিং সময়কালকে টাইম টু লিভ (TTL) বলা হয়। যদি এটি সেট করা না থাকে, তাহলে TTL ডিফল্টভাবে ১ ঘণ্টা হয়। ক্যাশিংয়ের খরচ নির্ভর করে ইনপুট টোকেনের আকার এবং আপনি টোকেনগুলো কতক্ষণ রাখতে চান তার উপর।

এই বিভাগে ধরে নেওয়া হচ্ছে যে আপনি একটি Gemini SDK ইনস্টল করেছেন (অথবা curl ইনস্টল করা আছে) এবং কুইকস্টার্ট- এ দেখানো অনুযায়ী একটি API কী কনফিগার করেছেন।

ক্যাশে ব্যবহার করে কন্টেন্ট তৈরি করুন

পাইথন

নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি ক্যাশ করা সিস্টেম নির্দেশনা এবং ভিডিও ফাইল ব্যবহার করে কন্টেন্ট তৈরি করতে হয়।

ভিডিও

import os
import pathlib
import requests
import time

from google import genai
from google.genai import types

client = genai.Client()

# Download a test video file and save it locally
url = 'https://storage.googleapis.com/generativeai-downloads/data/SherlockJr._10min.mp4'
path_to_video_file = pathlib.Path('SherlockJr._10min.mp4')
if not path_to_video_file.exists():
    path_to_video_file.write_bytes(requests.get(url).content)

# Upload the video using the Files API
video_file = client.files.upload(file=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
    time.sleep(2.5)
    video_file = client.files.get(name=video_file.name)

print(f'Video processing complete: {video_file.uri}')

model='models/gemini-3-flash-preview'

# Create a cache with a 5 minute TTL (300 seconds)
cache = client.caches.create(
    model=model,
    config=types.CreateCachedContentConfig(
        display_name='sherlock jr movie', # used to identify the cache
        system_instruction=(
            'You are an expert video analyzer, and your job is to answer '
            'the user\'s query based on the video file you have access to.'
        ),
        contents=[video_file],
        ttl="300s",
    )
)

response = client.models.generate_content(
    model = model,
    contents= (
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.'),
    config=types.GenerateContentConfig(cached_content=cache.name)
)

print(response.usage_metadata)

print(response.text)

পিডিএফ

from google import genai
from google.genai import types
import io
import httpx

client = genai.Client()

long_context_pdf_path = "https://sma.nasa.gov/SignificantIncidents/assets/a11_missionreport.pdf"

# Retrieve and upload the PDF using the File API
doc_io = io.BytesIO(httpx.get(long_context_pdf_path).content)

document = client.files.upload(
  file=doc_io,
  config=dict(mime_type='application/pdf')
)

model_name = "gemini-3-flash-preview"
system_instruction = "You are an expert analyzing transcripts."

# Create a cached content object
cache = client.caches.create(
    model=model_name,
    config=types.CreateCachedContentConfig(
      system_instruction=system_instruction,
      contents=[document],
    )
)

print(f'{cache=}')

response = client.models.generate_content(
  model=model_name,
  contents="Please summarize this transcript",
  config=types.GenerateContentConfig(
    cached_content=cache.name
  ))

print(f'{response.usage_metadata=}')

print('\n\n', response.text)

জাভাস্ক্রিপ্ট

নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি ক্যাশ করা সিস্টেম নির্দেশনা এবং একটি টেক্সট ফাইল ব্যবহার করে কন্টেন্ট তৈরি করা যায়।

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

async function main() {
  const doc = await ai.files.upload({
    file: "path/to/file.txt",
    config: { mimeType: "text/plain" },
  });
  console.log("Uploaded file name:", doc.name);

  const modelName = "gemini-3-flash-preview";
  const cache = await ai.caches.create({
    model: modelName,
    config: {
      contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
      systemInstruction: "You are an expert analyzing transcripts.",
    },
  });
  console.log("Cache created:", cache);

  const response = await ai.models.generateContent({
    model: modelName,
    contents: "Please summarize this transcript",
    config: { cachedContent: cache.name },
  });
  console.log("Response text:", response.text);
}

await main();

যান

নিম্নলিখিত উদাহরণটি দেখায় কিভাবে ক্যাশে ব্যবহার করে কন্টেন্ট তৈরি করতে হয়।

package main

import (
    "context"
    "fmt"
    "log"

    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, &genai.ClientConfig{
        APIKey: "GOOGLE_API_KEY",
        Backend: genai.BackendGeminiAPI,
    })
    if err != nil {
        log.Fatal(err)
    }

    modelName := "gemini-3-flash-preview"
    document, err := client.Files.UploadFromPath(
        ctx,
        "media/a11.txt",
        &genai.UploadFileConfig{
          MIMEType: "text/plain",
        },
    )
    if err != nil {
        log.Fatal(err)
    }
    parts := []*genai.Part{
        genai.NewPartFromURI(document.URI, document.MIMEType),
    }
    contents := []*genai.Content{
        genai.NewContentFromParts(parts, genai.RoleUser),
    }
    cache, err := client.Caches.Create(ctx, modelName, &genai.CreateCachedContentConfig{
        Contents: contents,
        SystemInstruction: genai.NewContentFromText(
          "You are an expert analyzing transcripts.", genai.RoleUser,
        ),
    })
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println("Cache created:")
    fmt.Println(cache)

    // Use the cache for generating content.
    response, err := client.Models.GenerateContent(
        ctx,
        modelName,
        genai.Text("Please summarize this transcript"),
        &genai.GenerateContentConfig{
          CachedContent: cache.Name,
        },
    )
    if err != nil {
        log.Fatal(err)
    }
    printResponse(response) // helper for printing response parts
}

বিশ্রাম

নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি ক্যাশে তৈরি করতে হয় এবং তারপরে এটি ব্যবহার করে কন্টেন্ট জেনারেট করতে হয়।

ভিডিও

wget https://storage.googleapis.com/generativeai-downloads/data/a11.txt
echo '{
  "model": "models/gemini-3-flash-preview",
  "contents":[
    {
      "parts":[
        {
          "inline_data": {
            "mime_type":"text/plain",
            "data": "'$(base64 $B64FLAGS a11.txt)'"
          }
        }
      ],
    "role": "user"
    }
  ],
  "systemInstruction": {
    "parts": [
      {
        "text": "You are an expert at analyzing transcripts."
      }
    ]
  },
  "ttl": "300s"
}' > request.json

curl -X POST "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json

CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
      "contents": [
        {
          "parts":[{
            "text": "Please summarize this transcript"
          }],
          "role": "user"
        },
      ],
      "cachedContent": "'$CACHE_NAME'"
    }'

পিডিএফ

DOC_URL="https://sma.nasa.gov/SignificantIncidents/assets/a11_missionreport.pdf"
DISPLAY_NAME="A11_Mission_Report"
SYSTEM_INSTRUCTION="You are an expert at analyzing transcripts."
PROMPT="Please summarize this transcript"
MODEL="models/gemini-3-flash-preview"
TTL="300s"

# Download the PDF
wget -O "${DISPLAY_NAME}.pdf" "${DOC_URL}"

MIME_TYPE=$(file -b --mime-type "${DISPLAY_NAME}.pdf")
NUM_BYTES=$(wc -c < "${DISPLAY_NAME}.pdf")

echo "MIME_TYPE: ${MIME_TYPE}"
echo "NUM_BYTES: ${NUM_BYTES}"

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
  -D upload-header.tmp \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${DISPLAY_NAME}.pdf" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo "file_uri: ${file_uri}"

# Clean up the downloaded PDF
rm "${DISPLAY_NAME}.pdf"

# Create the cached content request
echo '{
  "model": "'$MODEL'",
  "contents":[
    {
      "parts":[
        {"file_data": {"mime_type": "'$MIME_TYPE'", "file_uri": '$file_uri'}}
      ],
    "role": "user"
    }
  ],
  "system_instruction": {
    "parts": [
      {
        "text": "'$SYSTEM_INSTRUCTION'"
      }
    ],
    "role": "system"
  },
  "ttl": "'$TTL'"
}' > request.json

# Send the cached content request
curl -X POST "${BASE_URL}/v1beta/cachedContents?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json

CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)
echo "CACHE_NAME: ${CACHE_NAME}"
# Send the generateContent request using the cached content
curl -X POST "${BASE_URL}/${MODEL}:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
      "contents": [
        {
          "parts":[{
            "text": "'$PROMPT'"
          }],
          "role": "user"
        }
      ],
      "cachedContent": "'$CACHE_NAME'"
    }' > response.json

cat response.json

echo jq ".candidates[].content.parts[].text" response.json

ক্যাশে তালিকা

ক্যাশে করা কন্টেন্ট পুনরুদ্ধার বা দেখা সম্ভব নয়, কিন্তু আপনি ক্যাশে মেটাডেটা ( name , model , display_name , usage_metadata , create_time , update_time , এবং expire_time ) পুনরুদ্ধার করতে পারবেন।

পাইথন

আপলোড করা সমস্ত ক্যাশের মেটাডেটা তালিকাভুক্ত করতে, CachedContent.list() ব্যবহার করুন:

for cache in client.caches.list():
  print(cache)

কোনো একটি ক্যাশ অবজেক্টের মেটাডেটা আনতে, যদি আপনি সেটির নাম জানেন, get ব্যবহার করুন:

client.caches.get(name=name)

জাভাস্ক্রিপ্ট

আপলোড করা সমস্ত ক্যাশের মেটাডেটা তালিকাভুক্ত করতে, GoogleGenAI.caches.list() ব্যবহার করুন:

console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
  for (const c of page) {
    console.log("    ", c.name);
  }
  if (!pager.hasNextPage()) break;
  page = await pager.nextPage();
}

যান

নিম্নলিখিত উদাহরণটি সমস্ত ক্যাশে তালিকাভুক্ত করে।

caches, err := client.Caches.All(ctx)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Listing all caches:")
for _, item := range caches {
    fmt.Println("   ", item.Name)
}

নিম্নলিখিত উদাহরণটি ২ পেজ সাইজ ব্যবহার করে ক্যাশেগুলো তালিকাভুক্ত করে।

page, err := client.Caches.List(ctx, &genai.ListCachedContentsConfig{PageSize: 2})
if err != nil {
    log.Fatal(err)
}

pageIndex := 1
for {
    fmt.Printf("Listing caches (page %d):\n", pageIndex)
    for _, item := range page.Items {
        fmt.Println("   ", item.Name)
    }
    if page.NextPageToken == "" {
        break
    }
    page, err = page.Next(ctx)
    if err == genai.ErrPageDone {
        break
    } else if err != nil {
        return err
    }
    pageIndex++
}

বিশ্রাম

curl "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY"

ক্যাশে আপডেট করুন

আপনি ক্যাশের জন্য একটি নতুন ttl বা expire_time সেট করতে পারেন। ক্যাশ সম্পর্কিত অন্য কিছু পরিবর্তন করা সমর্থিত নয়।

পাইথন

নিম্নলিখিত উদাহরণে দেখানো হয়েছে কিভাবে client.caches.update() ব্যবহার করে একটি ক্যাশের ttl আপডেট করতে হয়।

from google import genai
from google.genai import types

client.caches.update(
  name = cache.name,
  config  = types.UpdateCachedContentConfig(
      ttl='300s'
  )
)

মেয়াদ শেষ হওয়ার সময় নির্ধারণ করতে, এটি একটি datetime অবজেক্ট অথবা একটি ISO-ফরম্যাট করা ডেটটাইম স্ট্রিং ( dt.isoformat() , যেমন 2025-01-27T16:02:36.473528+00:00 ) গ্রহণ করে। আপনার সময়ে অবশ্যই একটি টাইম জোন অন্তর্ভুক্ত থাকতে হবে ( datetime.utcnow() টাইম জোন যুক্ত করে না, কিন্তু datetime.now(datetime.timezone.utc) টাইম জোন যুক্ত করে)।

from google import genai
from google.genai import types
import datetime

# You must use a time zone-aware time.
in10min = datetime.datetime.now(datetime.timezone.utc) + datetime.timedelta(minutes=10)

client.caches.update(
  name = cache.name,
  config  = types.UpdateCachedContentConfig(
      expire_time=in10min
  )
)

জাভাস্ক্রিপ্ট

নিম্নলিখিত উদাহরণে দেখানো হয়েছে কিভাবে GoogleGenAI.caches.update() ব্যবহার করে একটি ক্যাশের ttl আপডেট করতে হয়।

const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
  name: cache.name,
  config: { ttl },
});
console.log("After update (TTL):", updatedCache);

যান

নিম্নলিখিত উদাহরণে দেখানো হয়েছে কীভাবে একটি ক্যাশের TTL আপডেট করতে হয়।

// Update the TTL (2 hours).
cache, err = client.Caches.Update(ctx, cache.Name, &genai.UpdateCachedContentConfig{
    TTL: 7200 * time.Second,
})
if err != nil {
    log.Fatal(err)
}
fmt.Println("After update:")
fmt.Println(cache)

বিশ্রাম

নিম্নলিখিত উদাহরণে দেখানো হয়েছে কিভাবে একটি ক্যাশের ttl আপডেট করতে হয়।

curl -X PATCH "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{"ttl": "600s"}'

ক্যাশে মুছে ফেলুন

ক্যাশিং পরিষেবাটি ক্যাশ থেকে ম্যানুয়ালি কন্টেন্ট মুছে ফেলার জন্য একটি ডিলিট অপারেশন প্রদান করে। নিচের উদাহরণটিতে দেখানো হয়েছে কীভাবে একটি ক্যাশ ডিলিট করতে হয়:

পাইথন

client.caches.delete(cache.name)

জাভাস্ক্রিপ্ট

await ai.caches.delete({ name: cache.name });

যান

_, err = client.Caches.Delete(ctx, cache.Name, &genai.DeleteCachedContentConfig{})
if err != nil {
    log.Fatal(err)
}
fmt.Println("Cache deleted:", cache.Name)

বিশ্রাম

curl -X DELETE "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY"

OpenAI লাইব্রেরি ব্যবহার করে সুস্পষ্ট ক্যাশিং

আপনি যদি কোনো OpenAI লাইব্রেরি ব্যবহার করেন, তাহলে extra_body এর cached_content প্রপার্টি ব্যবহার করে সুস্পষ্ট ক্যাশিং সক্রিয় করতে পারেন।

কখন সুস্পষ্ট ক্যাশিং ব্যবহার করবেন

কনটেক্সট ক্যাশিং এমন পরিস্থিতিতে বিশেষভাবে উপযোগী যেখানে ছোট আকারের অনুরোধ দ্বারা একটি উল্লেখযোগ্য প্রাথমিক কনটেক্সট বারবার ব্যবহৃত হয়। নিম্নলিখিত ব্যবহারের ক্ষেত্রগুলিতে কনটেক্সট ক্যাশিং ব্যবহার করার কথা বিবেচনা করতে পারেন:

বিস্তারিত সিস্টেম নির্দেশাবলী সহ চ্যাটবট
দীর্ঘ ভিডিও ফাইলের পুনরাবৃত্তিমূলক বিশ্লেষণ
বৃহৎ ডকুমেন্ট সেটের বিরুদ্ধে পুনরাবৃত্তিমূলক কোয়েরি
ঘন ঘন কোড রিপোজিটরি বিশ্লেষণ বা বাগ সংশোধন

কীভাবে সুস্পষ্ট ক্যাশিং খরচ কমায়

কন্টেক্সট ক্যাশিং একটি পেইড ফিচার যা খরচ কমানোর জন্য ডিজাইন করা হয়েছে। বিলিং নিম্নলিখিত বিষয়গুলোর উপর ভিত্তি করে করা হয়:

ক্যাশ টোকেন সংখ্যা: ক্যাশ করা ইনপুট টোকেনের সংখ্যা, যা পরবর্তী প্রম্পটে অন্তর্ভুক্ত করা হলে হ্রাসকৃত হারে বিল করা হয়।
সংরক্ষণের সময়কাল: ক্যাশ করা টোকেনগুলো যে পরিমাণ সময় ধরে সংরক্ষিত থাকে (TTL), তার বিল ক্যাশ করা টোকেন সংখ্যার TTL সময়কালের উপর ভিত্তি করে করা হয়। TTL-এর কোনো সর্বনিম্ন বা সর্বোচ্চ সীমা নেই।
অন্যান্য বিষয়: অন্যান্য চার্জ প্রযোজ্য, যেমন ক্যাশ-বিহীন ইনপুট টোকেন এবং আউটপুট টোকেনের জন্য।

হালনাগাদ মূল্যের বিস্তারিত জানতে, জেমিনি এপিআই প্রাইসিং পেজ দেখুন। টোকেন গণনা করার পদ্ধতি জানতে, টোকেন গাইড দেখুন।

অতিরিক্ত বিবেচ্য বিষয়

কন্টেক্সট ক্যাশিং ব্যবহার করার সময় নিম্নলিখিত বিষয়গুলো মনে রাখবেন:

কন্টেক্সট ক্যাশিংয়ের জন্য ন্যূনতম ইনপুট টোকেন সংখ্যা মডেল অনুযায়ী ভিন্ন হয়। সর্বোচ্চ সংখ্যাটি প্রদত্ত মডেলের সর্বোচ্চ সংখ্যার সমান। (টোকেন গণনা সম্পর্কে আরও জানতে, টোকেন গাইড দেখুন)।
মডেলটি ক্যাশ করা টোকেন এবং সাধারণ ইনপুট টোকেনের মধ্যে কোনো পার্থক্য করে না। ক্যাশ করা কন্টেন্ট হলো প্রম্পটের একটি প্রিফিক্স।
কনটেক্সট ক্যাশিং-এর ক্ষেত্রে কোনো বিশেষ রেট বা ব্যবহারের সীমা নেই; GenerateContent জন্য প্রযোজ্য সাধারণ রেট সীমাগুলোই এখানেও প্রযোজ্য, এবং টোকেন সীমার মধ্যে ক্যাশ করা টোকেনও অন্তর্ভুক্ত থাকে।
ক্যাশে সার্ভিসের create, get, এবং list অপারেশনগুলোর usage_metadata তে এবং ক্যাশে ব্যবহার করার সময় GenerateContent এ ক্যাশে করা টোকেনের সংখ্যা ফেরত দেওয়া হয়।