Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron dy mekanizma të ndryshëm të ruajtjes në memorje:
- Ruajtje në memorje të nënkuptuar (aktivizohet automatikisht në shumicën e modeleve Gemini, pa garanci për kursimin e kostos)
- Ruajtje e qartë në memorje (mund të aktivizohet manualisht në shumicën e modeleve, garanci për kursimin e kostos)
Ruajtja në memorje e qartë është e dobishme në rastet kur doni të garantoni kursime të kostos, por me pak punë shtesë nga zhvilluesi.
Ruajtje e memorizuar e nënkuptuar
Ruajtja implicite në memorje aktivizohet si parazgjedhje dhe është e disponueshme për shumicën e modeleve Gemini. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Kjo hyn në fuqi që nga 8 maji 2025. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:
| Model | Limiti minimal i tokenëve |
|---|---|
| Pamje paraprake e shpejtë e Gemini 3 | 1024 |
| Pamje paraprake e Gemini 3 Pro | 4096 |
| Binjakët 2.5 Flash | 1024 |
| Gemini 2.5 Pro | 4096 |
Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:
- Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
- Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër
Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata të objektit të përgjigjes.
Ruajtje e qartë në memorje
Duke përdorur veçorinë e ruajtjes në memorje të qartë të Gemini API, mund të kaloni një pjesë të përmbajtjes në model një herë, të ruani në memorje tokenët e hyrjes dhe më pas t'i referoheni tokenëve të ruajtur në memorje për kërkesat pasuese. Në vëllime të caktuara, përdorimi i tokenëve të ruajtur në memorje ka kosto më të ulët sesa kalimi i të njëjtit korpus tokenësh në mënyrë të përsëritur.
Kur ruani në memorien e përkohshme një grup tokenësh, mund të zgjidhni se për sa kohë dëshironi që memoria e përkohshme të ekzistojë para se tokenët të fshihen automatikisht. Kjo kohëzgjatje e ruajtjes në memorien e përkohshme quhet koha e ruajtjes (TTL). Nëse nuk është caktuar, TTL vendoset si parazgjedhje në 1 orë. Kostoja për ruajtjen në memorien e përkohshme varet nga madhësia e tokenit të futur dhe nga kohëzgjatja e ruajtjes në memorien e përkohshme.
Ky seksion supozon se keni instaluar një SDK Gemini (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në udhëzuesin e nisjes së shpejtë .
Gjeneroni përmbajtje duke përdorur një memorje të përkohshme
Python
Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi dhe një skedar video të ruajtur në memorien e përkohshme.
Videot
import os
import pathlib
import requests
import time
from google import genai
from google.genai import types
client = genai.Client()
# Download a test video file and save it locally
url = 'https://storage.googleapis.com/generativeai-downloads/data/SherlockJr._10min.mp4'
path_to_video_file = pathlib.Path('SherlockJr._10min.mp4')
if not path_to_video_file.exists():
path_to_video_file.write_bytes(requests.get(url).content)
# Upload the video using the Files API
video_file = client.files.upload(file=path_to_video_file)
# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
time.sleep(2.5)
video_file = client.files.get(name=video_file.name)
print(f'Video processing complete: {video_file.uri}')
model='models/gemini-3-flash-preview'
# Create a cache with a 5 minute TTL (300 seconds)
cache = client.caches.create(
model=model,
config=types.CreateCachedContentConfig(
display_name='sherlock jr movie', # used to identify the cache
system_instruction=(
'You are an expert video analyzer, and your job is to answer '
'the user\'s query based on the video file you have access to.'
),
contents=[video_file],
ttl="300s",
)
)
response = client.models.generate_content(
model = model,
contents= (
'Introduce different characters in the movie by describing '
'their personality, looks, and names. Also list the timestamps '
'they were introduced for the first time.'),
config=types.GenerateContentConfig(cached_content=cache.name)
)
print(response.usage_metadata)
print(response.text)
PDF-të
from google import genai
from google.genai import types
import io
import httpx
client = genai.Client()
long_context_pdf_path = "https://sma.nasa.gov/SignificantIncidents/assets/a11_missionreport.pdf"
# Retrieve and upload the PDF using the File API
doc_io = io.BytesIO(httpx.get(long_context_pdf_path).content)
document = client.files.upload(
file=doc_io,
config=dict(mime_type='application/pdf')
)
model_name = "gemini-3-flash-preview"
system_instruction = "You are an expert analyzing transcripts."
# Create a cached content object
cache = client.caches.create(
model=model_name,
config=types.CreateCachedContentConfig(
system_instruction=system_instruction,
contents=[document],
)
)
print(f'{cache=}')
response = client.models.generate_content(
model=model_name,
contents="Please summarize this transcript",
config=types.GenerateContentConfig(
cached_content=cache.name
))
print(f'{response.usage_metadata=}')
print('\n\n', response.text)
JavaScript
Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi të ruajtur në memorien e përkohshme dhe një skedar teksti.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-3-flash-preview";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
Shko
Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një memorje të përkohshme.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: "GOOGLE_API_KEY",
Backend: genai.BackendGeminiAPI,
})
if err != nil {
log.Fatal(err)
}
modelName := "gemini-3-flash-preview"
document, err := client.Files.UploadFromPath(
ctx,
"media/a11.txt",
&genai.UploadFileConfig{
MIMEType: "text/plain",
},
)
if err != nil {
log.Fatal(err)
}
parts := []*genai.Part{
genai.NewPartFromURI(document.URI, document.MIMEType),
}
contents := []*genai.Content{
genai.NewContentFromParts(parts, genai.RoleUser),
}
cache, err := client.Caches.Create(ctx, modelName, &genai.CreateCachedContentConfig{
Contents: contents,
SystemInstruction: genai.NewContentFromText(
"You are an expert analyzing transcripts.", genai.RoleUser,
),
})
if err != nil {
log.Fatal(err)
}
fmt.Println("Cache created:")
fmt.Println(cache)
// Use the cache for generating content.
response, err := client.Models.GenerateContent(
ctx,
modelName,
genai.Text("Please summarize this transcript"),
&genai.GenerateContentConfig{
CachedContent: cache.Name,
},
)
if err != nil {
log.Fatal(err)
}
printResponse(response) // helper for printing response parts
}
PUSHTIM
Shembulli i mëposhtëm tregon se si të krijoni një memorje të përkohshme dhe pastaj ta përdorni atë për të gjeneruar përmbajtje.
Videot
wget https://storage.googleapis.com/generativeai-downloads/data/a11.txt
echo '{
"model": "models/gemini-3-flash-preview",
"contents":[
{
"parts":[
{
"inline_data": {
"mime_type":"text/plain",
"data": "'$(base64 $B64FLAGS a11.txt)'"
}
}
],
"role": "user"
}
],
"systemInstruction": {
"parts": [
{
"text": "You are an expert at analyzing transcripts."
}
]
},
"ttl": "300s"
}' > request.json
curl -X POST "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json
CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"contents": [
{
"parts":[{
"text": "Please summarize this transcript"
}],
"role": "user"
},
],
"cachedContent": "'$CACHE_NAME'"
}'
PDF-të
DOC_URL="https://sma.nasa.gov/SignificantIncidents/assets/a11_missionreport.pdf"
DISPLAY_NAME="A11_Mission_Report"
SYSTEM_INSTRUCTION="You are an expert at analyzing transcripts."
PROMPT="Please summarize this transcript"
MODEL="models/gemini-3-flash-preview"
TTL="300s"
# Download the PDF
wget -O "${DISPLAY_NAME}.pdf" "${DOC_URL}"
MIME_TYPE=$(file -b --mime-type "${DISPLAY_NAME}.pdf")
NUM_BYTES=$(wc -c < "${DISPLAY_NAME}.pdf")
echo "MIME_TYPE: ${MIME_TYPE}"
echo "NUM_BYTES: ${NUM_BYTES}"
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
-D upload-header.tmp \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${DISPLAY_NAME}.pdf" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo "file_uri: ${file_uri}"
# Clean up the downloaded PDF
rm "${DISPLAY_NAME}.pdf"
# Create the cached content request
echo '{
"model": "'$MODEL'",
"contents":[
{
"parts":[
{"file_data": {"mime_type": "'$MIME_TYPE'", "file_uri": '$file_uri'}}
],
"role": "user"
}
],
"system_instruction": {
"parts": [
{
"text": "'$SYSTEM_INSTRUCTION'"
}
],
"role": "system"
},
"ttl": "'$TTL'"
}' > request.json
# Send the cached content request
curl -X POST "${BASE_URL}/v1beta/cachedContents?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d @request.json \
> cache.json
CACHE_NAME=$(cat cache.json | grep '"name":' | cut -d '"' -f 4 | head -n 1)
echo "CACHE_NAME: ${CACHE_NAME}"
# Send the generateContent request using the cached content
curl -X POST "${BASE_URL}/${MODEL}:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"contents": [
{
"parts":[{
"text": "'$PROMPT'"
}],
"role": "user"
}
],
"cachedContent": "'$CACHE_NAME'"
}' > response.json
cat response.json
echo jq ".candidates[].content.parts[].text" response.json
Lista e memorjeve të përkohshme
Nuk është e mundur të rikuperosh ose shikosh përmbajtjen e ruajtur në memorien e përkohshme, por mund të rikuperosh meta të dhënat e memories së përkohshme ( name , model , display_name , usage_metadata , create_time , update_time dhe expire_time ).
Python
Për të listuar meta të dhënat për të gjitha memorjet e përkohshme të ngarkuara, përdorni CachedContent.list() :
for cache in client.caches.list():
print(cache)
Për të marrë meta të dhënat për një objekt të memories së përkohshme (cache), nëse e dini emrin e tij, përdorni get :
client.caches.get(name=name)
JavaScript
Për të listuar metadatat për të gjitha memorjet e përkohshme të ngarkuara, përdorni GoogleGenAI.caches.list() :
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
Shko
Shembulli i mëposhtëm rendit të gjitha memorjet e përkohshme.
caches, err := client.Caches.All(ctx)
if err != nil {
log.Fatal(err)
}
fmt.Println("Listing all caches:")
for _, item := range caches {
fmt.Println(" ", item.Name)
}
Shembulli i mëposhtëm rendit memorjet e përkohshme duke përdorur një madhësi faqeje prej 2.
page, err := client.Caches.List(ctx, &genai.ListCachedContentsConfig{PageSize: 2})
if err != nil {
log.Fatal(err)
}
pageIndex := 1
for {
fmt.Printf("Listing caches (page %d):\n", pageIndex)
for _, item := range page.Items {
fmt.Println(" ", item.Name)
}
if page.NextPageToken == "" {
break
}
page, err = page.Next(ctx)
if err == genai.ErrPageDone {
break
} else if err != nil {
return err
}
pageIndex++
}
PUSHTIM
curl "https://generativelanguage.googleapis.com/v1beta/cachedContents?key=$GEMINI_API_KEY"
Përditëso një memorje të përkohshme
Mund të caktoni një ttl të ri ose expire_time për një memorje të përkohshme. Ndryshimi i çdo gjëje tjetër në lidhje me memorjen e përkohshme nuk mbështetet.
Python
Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur client.caches.update() .
from google import genai
from google.genai import types
client.caches.update(
name = cache.name,
config = types.UpdateCachedContentConfig(
ttl='300s'
)
)
Për të vendosur kohën e skadimit, do të pranojë ose një objekt datetime ose një varg datetime të formatuar në ISO ( dt.isoformat() , si p.sh. 2025-01-27T16:02:36.473528+00:00 ). Ora juaj duhet të përfshijë një zonë kohore ( datetime.utcnow() nuk bashkëngjit një zonë kohore, datetime.now(datetime.timezone.utc) bashkëngjit një zonë kohore).
from google import genai
from google.genai import types
import datetime
# You must use a time zone-aware time.
in10min = datetime.datetime.now(datetime.timezone.utc) + datetime.timedelta(minutes=10)
client.caches.update(
name = cache.name,
config = types.UpdateCachedContentConfig(
expire_time=in10min
)
)
JavaScript
Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur GoogleGenAI.caches.update() .
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
Shko
Shembulli i mëposhtëm tregon se si të përditësohet TTL e një memorjeje të përkohshme.
// Update the TTL (2 hours).
cache, err = client.Caches.Update(ctx, cache.Name, &genai.UpdateCachedContentConfig{
TTL: 7200 * time.Second,
})
if err != nil {
log.Fatal(err)
}
fmt.Println("After update:")
fmt.Println(cache)
PUSHTIM
Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme.
curl -X PATCH "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{"ttl": "600s"}'
Fshi një memorie të përkohshme
Shërbimi i ruajtjes në memorje të përkohshme ofron një operacion fshirjeje për heqjen manuale të përmbajtjes nga memoria e përkohshme. Shembulli i mëposhtëm tregon se si të fshihet një memorje e përkohshme:
Python
client.caches.delete(cache.name)
JavaScript
await ai.caches.delete({ name: cache.name });
Shko
_, err = client.Caches.Delete(ctx, cache.Name, &genai.DeleteCachedContentConfig{})
if err != nil {
log.Fatal(err)
}
fmt.Println("Cache deleted:", cache.Name)
PUSHTIM
curl -X DELETE "https://generativelanguage.googleapis.com/v1beta/$CACHE_NAME?key=$GEMINI_API_KEY"
Ruajtje e qartë në memorje duke përdorur bibliotekën OpenAI
Nëse po përdorni një bibliotekë OpenAI , mund të aktivizoni ruajtjen në memorje të qartë duke përdorur pronën cached_content në extra_body .
Kur duhet të përdoret ruajtja në memorje e qartë
Ruajtja në memorje e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Konsideroni përdorimin e ruajtjes në memorje të kontekstit për raste përdorimi të tilla si:
- Chatbot me udhëzime të hollësishme të sistemit
- Analizë e përsëritur e skedarëve të gjatë video
- Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
- Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve
Si i zvogëlon kostot ruajtja në memorje të qartë
Ruajtja në memorje e kontekstit është një veçori me pagesë e projektuar për të ulur koston. Faturimi bazohet në faktorët e mëposhtëm:
- Numri i tokenëve të memories së përkohshme: Numri i tokenëve të hyrjes të ruajtur në memorien e përkohshme, të faturuar me një çmim të reduktuar kur përfshihen në njoftimet pasuese.
- Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen tokenët e ruajtur në memorje (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të tokenëve të ruajtur në memorje. Nuk ka kufij minimalë ose maksimalë në TTL.
- Faktorë të tjerë: Aplikohen tarifa të tjera, si për tokenët hyrës dhe tokenët dalës që nuk ruhen në memorien e përkohshme.
Për detaje të azhurnuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni tokenët, shihni udhëzuesin e Tokenëve .
Konsiderata shtesë
Mbani në mend konsideratat e mëposhtme kur përdorni ruajtjen e kontekstit në memorje:
- Numri minimal i tokenëve hyrës për ruajtjen në memorje të kontekstit ndryshon në varësi të modelit. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë informacion mbi numërimin e tokenëve, shihni udhëzuesin e tokenëve ).
- Modeli nuk bën asnjë dallim midis tokenëve të ruajtur në memorje dhe tokenëve të rregullt të hyrjes. Përmbajtja e ruajtur në memorje është një parashtesë për kërkesën.
- Nuk ka kufizime të veçanta çmimi ose përdorimi për ruajtjen në memorje kontekstuale; zbatohen kufizimet standarde të çmimit për
GenerateContentdhe kufizimet e tokenëve përfshijnë tokenët e ruajtur në memorje. - Numri i tokenëve të ruajtur në memorien e përkohshme kthehet në
usage_metadatanga operacionet create, get dhe list të shërbimit të memories së përkohshme, si dhe nëGenerateContentkur përdoret memoria e përkohshme.