Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron dy mekanizma të ndryshëm të ruajtjes në memorje:
- Ruajtje në memorje të fshehtë (aktivizohet automatikisht në modelet Gemini 2.5, pa garanci për kursimin e kostos)
- Ruajtje e qartë në memorje (mund të aktivizohet manualisht në shumicën e modeleve, garanci për kursimin e kostos)
Ruajtja në memorje e qartë është e dobishme në rastet kur doni të garantoni kursime të kostos, por me pak punë shtesë nga zhvilluesi.
Ruajtje e memorizuar e nënkuptuar
Ruajtja implicite në memorje është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Kjo hyn në fuqi që nga 8 maji 2025. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është 1,024 për 2.5 Flash dhe 4,096 për 2.5 Pro.
Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:
- Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
- Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër
Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata të objektit të përgjigjes.
Ruajtje e qartë në memorje
Duke përdorur veçorinë e ruajtjes në memorje të qartë të Gemini API, mund të kaloni një pjesë të përmbajtjes në model një herë, të ruani në memorje tokenët e hyrjes dhe më pas t'i referoheni tokenëve të ruajtur në memorje për kërkesat pasuese. Në vëllime të caktuara, përdorimi i tokenëve të ruajtur në memorje ka kosto më të ulët sesa kalimi i të njëjtit korpus tokenësh në mënyrë të përsëritur.
Kur ruani në memorien e përkohshme një grup tokenësh, mund të zgjidhni se për sa kohë dëshironi që memoria e përkohshme të ekzistojë para se tokenët të fshihen automatikisht. Kjo kohëzgjatje e ruajtjes në memorien e përkohshme quhet koha e ruajtjes (TTL). Nëse nuk është caktuar, TTL vendoset si parazgjedhje në 1 orë. Kostoja për ruajtjen në memorien e përkohshme varet nga madhësia e tokenit të futur dhe nga kohëzgjatja e ruajtjes në memorien e përkohshme.
Ky seksion supozon se keni instaluar një SDK Gemini (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në udhëzuesin e nisjes së shpejtë .
Gjeneroni përmbajtje duke përdorur një memorje të përkohshme
Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi dhe një skedar video të ruajtur në memorien e përkohshme.
Videot
import os
import pathlib
import requests
import time
from google import genai
from google.genai import types
client = genai.Client()
# Download video file
url = 'https://storage.googleapis.com/generativeai-downloads/data/SherlockJr._10min.mp4'
path_to_video_file = pathlib.Path('SherlockJr._10min.mp4')
if not path_to_video_file.exists():
with path_to_video_file.open('wb') as wf:
response = requests.get(url, stream=True)
for chunk in response.iter_content(chunk_size=32768):
wf.write(chunk)
# Upload the video using the Files API
video_file = client.files.upload(file=path_to_video_file)
# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
print('Waiting for video to be processed.')
time.sleep(2)
video_file = client.files.get(name=video_file.name)
print(f'Video processing complete: {video_file.uri}')
# You must use an explicit version suffix: "-flash-001", not just "-flash".
model='models/gemini-2.0-flash-001'
# Create a cache with a 5 minute TTL
cache = client.caches.create(
model=model,
config=types.CreateCachedContentConfig(
display_name='sherlock jr movie', # used to identify the cache
system_instruction=(
'You are an expert video analyzer, and your job is to answer '
'the user\'s query based on the video file you have access to.'
),
contents=[video_file],
ttl="300s",
)
)
# Construct a GenerativeModel which uses the created cache.
response = client.models.generate_content(
model = model,
contents= (
'Introduce different characters in the movie by describing '
'their personality, looks, and names. Also list the timestamps '
'they were introduced for the first time.'),
config=types.GenerateContentConfig(cached_content=cache.name)
)
print(response.usage_metadata)
# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433
print(response.text)
PDF-të
from google import genai
from google.genai import types
import io
import httpx
client = genai.Client()
long_context_pdf_path = "https://www.nasa.gov/wp-content/uploads/static/history/alsj/a17/A17_FlightPlan.pdf"
# Retrieve and upload the PDF using the File API
doc_io = io.BytesIO(httpx.get(long_context_pdf_path).content)
document = client.files.upload(
file=doc_io,
config=dict(mime_type='application/pdf')
)
model_name = "gemini-2.0-flash-001"
system_instruction = "You are an expert analyzing transcripts."
# Create a cached content object
cache = client.caches.create(
model=model_name,
config=types.CreateCachedContentConfig(
system_instruction=system_instruction,
contents=[document],
)
)
# Display the cache details
print(f'{cache=}')
# Generate content using the cached prompt and document
response = client.models.generate_content(
model=model_name,
contents="Please summarize this transcript",
config=types.GenerateContentConfig(
cached_content=cache.name
))
# (Optional) Print usage metadata for insights into the API call
print(f'{response.usage_metadata=}')
# Print the generated text
print('\n\n', response.text)
Lista e memorjeve të përkohshme
Nuk është e mundur të rikuperosh ose shikosh përmbajtjen e ruajtur në memorien e përkohshme, por mund të rikuperosh meta të dhënat e memories së përkohshme ( name , model , display_name , usage_metadata , create_time , update_time dhe expire_time ).
Për të listuar meta të dhënat për të gjitha memorjet e përkohshme të ngarkuara, përdorni CachedContent.list() :
for cache in client.caches.list():
print(cache)
Për të marrë meta të dhënat për një objekt të memories së përkohshme (cache), nëse e dini emrin e tij, përdorni get :
client.caches.get(name=name)
Përditëso një memorje të përkohshme
Mund të caktoni një ttl të ri ose expire_time për një memorje të përkohshme. Ndryshimi i çdo gjëje tjetër në lidhje me memorjen e përkohshme nuk mbështetet.
Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur client.caches.update() .
from google import genai
from google.genai import types
client.caches.update(
name = cache.name,
config = types.UpdateCachedContentConfig(
ttl='300s'
)
)
Për të vendosur kohën e skadimit, do të pranojë ose një objekt datetime ose një varg datetime të formatuar në ISO ( dt.isoformat() , si p.sh. 2025-01-27T16:02:36.473528+00:00 ). Ora juaj duhet të përfshijë një zonë kohore ( datetime.utcnow() nuk bashkëngjit një zonë kohore, datetime.now(datetime.timezone.utc) bashkëngjit një zonë kohore).
from google import genai
from google.genai import types
import datetime
# You must use a time zone-aware time.
in10min = datetime.datetime.now(datetime.timezone.utc) + datetime.timedelta(minutes=10)
client.caches.update(
name = cache.name,
config = types.UpdateCachedContentConfig(
expire_time=in10min
)
)
Fshi një memorie të përkohshme
Shërbimi i ruajtjes në memorje ofron një operacion fshirjeje për heqjen manuale të përmbajtjes nga memoria e përkohshme. Shembulli i mëposhtëm tregon se si të fshihet një memorje e përkohshme:
client.caches.delete(cache.name)
Ruajtje e qartë në memorje duke përdorur bibliotekën OpenAI
Nëse po përdorni një bibliotekë OpenAI , mund të aktivizoni ruajtjen në memorje të qartë duke përdorur pronën cached_content në extra_body .
Kur duhet të përdoret ruajtja në memorje e qartë
Ruajtja në memorje e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Konsideroni përdorimin e ruajtjes në memorje të kontekstit për raste përdorimi të tilla si:
- Chatbot me udhëzime të hollësishme të sistemit
- Analizë e përsëritur e skedarëve të gjatë video
- Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
- Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve
Si i zvogëlon kostot ruajtja në memorje të qartë
Ruajtja në memorje e kontekstit është një veçori me pagesë e projektuar për të ulur kostot e përgjithshme operative. Faturimi bazohet në faktorët e mëposhtëm:
- Numri i tokenëve të memories së përkohshme: Numri i tokenëve të hyrjes të ruajtur në memorien e përkohshme, të faturuar me një çmim të reduktuar kur përfshihen në njoftimet pasuese.
- Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen tokenët e ruajtur në memorje (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të tokenëve të ruajtur në memorje. Nuk ka kufij minimalë ose maksimalë në TTL.
- Faktorë të tjerë: Aplikohen tarifa të tjera, si për tokenët hyrës dhe tokenët dalës që nuk ruhen në memorien e përkohshme.
Për detaje të azhurnuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni tokenët, shihni udhëzuesin e Tokenëve .
Konsiderata shtesë
Mbani në mend konsideratat e mëposhtme kur përdorni ruajtjen e kontekstit në memorje:
- Numri minimal i tokenëve hyrës për ruajtjen në memorje të kontekstit është 1,024 për 2.5 Flash dhe 4,096 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë informacion mbi numërimin e tokenëve, shihni udhëzuesin e Tokenëve ).
- Modeli nuk bën asnjë dallim midis tokenëve të ruajtur në memorje dhe tokenëve të rregullt të hyrjes. Përmbajtja e ruajtur në memorje është një parashtesë për kërkesën.
- Nuk ka kufizime të veçanta çmimi ose përdorimi për ruajtjen në memorje kontekstuale; zbatohen kufizimet standarde të çmimit për
GenerateContentdhe kufizimet e tokenëve përfshijnë tokenët e ruajtur në memorje. - Numri i tokenëve të ruajtur në memorien e përkohshme kthehet në
usage_metadatanga operacionet create, get dhe list të shërbimit të memories së përkohshme, si dhe nëGenerateContentkur përdoret memoria e përkohshme.