Veo 3.1 është këtu! Lexoni rreth modelit të ri dhe karakteristikave të tij në postimin në blog dhe dokumentacion .

Kjo faqe është përkthyer nga Cloud Translation API.

Memoria e kontekstit

Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron dy mekanizma të ndryshëm të ruajtjes në memorje:

Ruajtje në memorje të fshehtë (aktivizohet automatikisht në modelet Gemini 2.5, pa garanci për kursimin e kostos)
Ruajtje e qartë në memorje (mund të aktivizohet manualisht në shumicën e modeleve, garanci për kursimin e kostos)

Ruajtja në memorje e qartë është e dobishme në rastet kur doni të garantoni kursime të kostos, por me pak punë shtesë nga zhvilluesi.

Ruajtje e memorizuar e nënkuptuar

Ruajtja implicite në memorje është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Kjo hyn në fuqi që nga 8 maji 2025. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është 1,024 për 2.5 Flash dhe 4,096 për 2.5 Pro.

Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:

Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër

Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata të objektit të përgjigjes.

Ruajtje e qartë në memorje

Duke përdorur veçorinë e ruajtjes në memorje të qartë të Gemini API, mund të kaloni një pjesë të përmbajtjes në model një herë, të ruani në memorje tokenët e hyrjes dhe më pas t'i referoheni tokenëve të ruajtur në memorje për kërkesat pasuese. Në vëllime të caktuara, përdorimi i tokenëve të ruajtur në memorje ka kosto më të ulët sesa kalimi i të njëjtit korpus tokenësh në mënyrë të përsëritur.

Kur ruani në memorien e përkohshme një grup tokenësh, mund të zgjidhni se për sa kohë dëshironi që memoria e përkohshme të ekzistojë para se tokenët të fshihen automatikisht. Kjo kohëzgjatje e ruajtjes në memorien e përkohshme quhet koha e ruajtjes (TTL). Nëse nuk është caktuar, TTL vendoset si parazgjedhje në 1 orë. Kostoja për ruajtjen në memorien e përkohshme varet nga madhësia e tokenit të futur dhe nga kohëzgjatja e ruajtjes në memorien e përkohshme.

Ky seksion supozon se keni instaluar një SDK Gemini (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në udhëzuesin e nisjes së shpejtë .

Gjeneroni përmbajtje duke përdorur një memorje të përkohshme

Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi dhe një skedar video të ruajtur në memorien e përkohshme.

Videot

import os
import pathlib
import requests
import time

from google import genai
from google.genai import types

client = genai.Client()

# Download video file
url = 'https://storage.googleapis.com/generativeai-downloads/data/SherlockJr._10min.mp4'
path_to_video_file = pathlib.Path('SherlockJr._10min.mp4')
if not path_to_video_file.exists():
  with path_to_video_file.open('wb') as wf:
    response = requests.get(url, stream=True)
    for chunk in response.iter_content(chunk_size=32768):
      wf.write(chunk)

# Upload the video using the Files API
video_file = client.files.upload(file=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
  print('Waiting for video to be processed.')
  time.sleep(2)
  video_file = client.files.get(name=video_file.name)

print(f'Video processing complete: {video_file.uri}')

# You must use an explicit version suffix: "-flash-001", not just "-flash".
model='models/gemini-2.0-flash-001'

# Create a cache with a 5 minute TTL
cache = client.caches.create(
    model=model,
    config=types.CreateCachedContentConfig(
      display_name='sherlock jr movie', # used to identify the cache
      system_instruction=(
          'You are an expert video analyzer, and your job is to answer '
          'the user\'s query based on the video file you have access to.'
      ),
      contents=[video_file],
      ttl="300s",
  )
)

# Construct a GenerativeModel which uses the created cache.
response = client.models.generate_content(
  model = model,
  contents= (
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.'),
  config=types.GenerateContentConfig(cached_content=cache.name)
)

print(response.usage_metadata)

# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433

print(response.text)

PDF-të

from google import genai
from google.genai import types
import io
import httpx

client = genai.Client()

long_context_pdf_path = "https://www.nasa.gov/wp-content/uploads/static/history/alsj/a17/A17_FlightPlan.pdf"

# Retrieve and upload the PDF using the File API
doc_io = io.BytesIO(httpx.get(long_context_pdf_path).content)

document = client.files.upload(
  file=doc_io,
  config=dict(mime_type='application/pdf')
)

model_name = "gemini-2.0-flash-001"
system_instruction = "You are an expert analyzing transcripts."

# Create a cached content object
cache = client.caches.create(
    model=model_name,
    config=types.CreateCachedContentConfig(
      system_instruction=system_instruction,
      contents=[document],
    )
)

# Display the cache details
print(f'{cache=}')

# Generate content using the cached prompt and document
response = client.models.generate_content(
  model=model_name,
  contents="Please summarize this transcript",
  config=types.GenerateContentConfig(
    cached_content=cache.name
  ))

# (Optional) Print usage metadata for insights into the API call
print(f'{response.usage_metadata=}')

# Print the generated text
print('\n\n', response.text)

Lista e memorjeve të përkohshme

Nuk është e mundur të rikuperosh ose shikosh përmbajtjen e ruajtur në memorien e përkohshme, por mund të rikuperosh meta të dhënat e memories së përkohshme ( name , model , display_name , usage_metadata , create_time , update_time dhe expire_time ).

Për të listuar meta të dhënat për të gjitha memorjet e përkohshme të ngarkuara, përdorni CachedContent.list() :

for cache in client.caches.list():
  print(cache)

Për të marrë meta të dhënat për një objekt të memories së përkohshme (cache), nëse e dini emrin e tij, përdorni get :

client.caches.get(name=name)

Përditëso një memorje të përkohshme

Mund të caktoni një ttl të ri ose expire_time për një memorje të përkohshme. Ndryshimi i çdo gjëje tjetër në lidhje me memorjen e përkohshme nuk mbështetet.

Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur client.caches.update() .

from google import genai
from google.genai import types

client.caches.update(
  name = cache.name,
  config  = types.UpdateCachedContentConfig(
      ttl='300s'
  )
)

Për të vendosur kohën e skadimit, do të pranojë ose një objekt datetime ose një varg datetime të formatuar në ISO ( dt.isoformat() , si p.sh. 2025-01-27T16:02:36.473528+00:00 ). Ora juaj duhet të përfshijë një zonë kohore ( datetime.utcnow() nuk bashkëngjit një zonë kohore, datetime.now(datetime.timezone.utc) bashkëngjit një zonë kohore).

from google import genai
from google.genai import types
import datetime

# You must use a time zone-aware time.
in10min = datetime.datetime.now(datetime.timezone.utc) + datetime.timedelta(minutes=10)

client.caches.update(
  name = cache.name,
  config  = types.UpdateCachedContentConfig(
      expire_time=in10min
  )
)

Fshi një memorie të përkohshme

Shërbimi i ruajtjes në memorje ofron një operacion fshirjeje për heqjen manuale të përmbajtjes nga memoria e përkohshme. Shembulli i mëposhtëm tregon se si të fshihet një memorje e përkohshme:

client.caches.delete(cache.name)

Ruajtje e qartë në memorje duke përdorur bibliotekën OpenAI

Nëse po përdorni një bibliotekë OpenAI , mund të aktivizoni ruajtjen në memorje të qartë duke përdorur pronën cached_content në extra_body .

Kur duhet të përdoret ruajtja në memorje e qartë

Ruajtja në memorje e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Konsideroni përdorimin e ruajtjes në memorje të kontekstit për raste përdorimi të tilla si:

Chatbot me udhëzime të hollësishme të sistemit
Analizë e përsëritur e skedarëve të gjatë video
Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Si i zvogëlon kostot ruajtja në memorje të qartë

Ruajtja në memorje e kontekstit është një veçori me pagesë e projektuar për të ulur kostot e përgjithshme operative. Faturimi bazohet në faktorët e mëposhtëm:

Numri i tokenëve të memories së përkohshme: Numri i tokenëve të hyrjes të ruajtur në memorien e përkohshme, të faturuar me një çmim të reduktuar kur përfshihen në njoftimet pasuese.
Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen tokenët e ruajtur në memorje (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të tokenëve të ruajtur në memorje. Nuk ka kufij minimalë ose maksimalë në TTL.
Faktorë të tjerë: Aplikohen tarifa të tjera, si për tokenët hyrës dhe tokenët dalës që nuk ruhen në memorien e përkohshme.

Për detaje të azhurnuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni tokenët, shihni udhëzuesin e Tokenëve .

Konsiderata shtesë

Mbani në mend konsideratat e mëposhtme kur përdorni ruajtjen e kontekstit në memorje:

Numri minimal i tokenëve hyrës për ruajtjen në memorje të kontekstit është 1,024 për 2.5 Flash dhe 4,096 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë informacion mbi numërimin e tokenëve, shihni udhëzuesin e Tokenëve ).
Modeli nuk bën asnjë dallim midis tokenëve të ruajtur në memorje dhe tokenëve të rregullt të hyrjes. Përmbajtja e ruajtur në memorje është një parashtesë për kërkesën.
Nuk ka kufizime të veçanta çmimi ose përdorimi për ruajtjen në memorje kontekstuale; zbatohen kufizimet standarde të çmimit për GenerateContent dhe kufizimet e tokenëve përfshijnë tokenët e ruajtur në memorje.
Numri i tokenëve të ruajtur në memorien e përkohshme kthehet në usage_metadata nga operacionet create, get dhe list të shërbimit të memories së përkohshme, si dhe në GenerateContent kur përdoret memoria e përkohshme.