Memoria e kontekstit

Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron dy mekanizma të ndryshëm të ruajtjes në memorje:

  • Ruajtje në memorje të fshehtë (aktivizohet automatikisht në modelet Gemini 2.5, pa garanci për kursimin e kostos)
  • Ruajtje e qartë në memorje (mund të aktivizohet manualisht në shumicën e modeleve, garanci për kursimin e kostos)

Ruajtja në memorje e qartë është e dobishme në rastet kur doni të garantoni kursime të kostos, por me pak punë shtesë nga zhvilluesi.

Ruajtje e memorizuar e nënkuptuar

Ruajtja implicite në memorje aktivizohet si parazgjedhje për të gjitha modelet Gemini 2.5. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Kjo hyn në fuqi që nga 8 maji 2025. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:

Model Limiti minimal i tokenëve
Pamje paraprake e Gemini 3 Pro 4096
Gemini 2.5 Pro 4096
Binjakët 2.5 Flash 1024

Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:

  • Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
  • Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër

Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata të objektit të përgjigjes.

Ruajtje e qartë në memorje

Duke përdorur veçorinë e ruajtjes në memorje të qartë të Gemini API, mund të kaloni një pjesë të përmbajtjes në model një herë, të ruani në memorje tokenët e hyrjes dhe më pas t'i referoheni tokenëve të ruajtur në memorje për kërkesat pasuese. Në vëllime të caktuara, përdorimi i tokenëve të ruajtur në memorje ka kosto më të ulët sesa kalimi i të njëjtit korpus tokenësh në mënyrë të përsëritur.

Kur ruani në memorien e përkohshme një grup tokenësh, mund të zgjidhni se për sa kohë dëshironi që memoria e përkohshme të ekzistojë para se tokenët të fshihen automatikisht. Kjo kohëzgjatje e ruajtjes në memorien e përkohshme quhet koha e ruajtjes (TTL). Nëse nuk është caktuar, TTL vendoset si parazgjedhje në 1 orë. Kostoja për ruajtjen në memorien e përkohshme varet nga madhësia e tokenit të futur dhe nga kohëzgjatja e ruajtjes në memorien e përkohshme.

Ky seksion supozon se keni instaluar një SDK Gemini (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në udhëzuesin e nisjes së shpejtë .

Gjeneroni përmbajtje duke përdorur një memorje të përkohshme

Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi të ruajtur në memorien e përkohshme dhe një skedar teksti.

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

async function main() {
  const doc = await ai.files.upload({
    file: "path/to/file.txt",
    config: { mimeType: "text/plain" },
  });
  console.log("Uploaded file name:", doc.name);

  const modelName = "gemini-2.0-flash-001";
  const cache = await ai.caches.create({
    model: modelName,
    config: {
      contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
      systemInstruction: "You are an expert analyzing transcripts.",
    },
  });
  console.log("Cache created:", cache);

  const response = await ai.models.generateContent({
    model: modelName,
    contents: "Please summarize this transcript",
    config: { cachedContent: cache.name },
  });
  console.log("Response text:", response.text);
}

await main();

Lista e memorjeve të përkohshme

Nuk është e mundur të rikuperosh ose shikosh përmbajtjen e ruajtur në memorien e përkohshme, por mund të rikuperosh meta të dhënat e memories së përkohshme ( name , model , displayName , usageMetadata , createTime , updateTime dhe expireTime ).

Për të listuar metadatat për të gjitha memorjet e përkohshme të ngarkuara, përdorni GoogleGenAI.caches.list() :

console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
  for (const c of page) {
    console.log("    ", c.name);
  }
  if (!pager.hasNextPage()) break;
  page = await pager.nextPage();
}

Përditëso një memorje të përkohshme

Mund të caktoni një ttl ose expireTime të re për një memorje të përkohshme. Ndryshimi i çdo gjëje tjetër në lidhje me memorjen e përkohshme nuk mbështetet.

Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur GoogleGenAI.caches.update() .

const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
  name: cache.name,
  config: { ttl },
});
console.log("After update (TTL):", updatedCache);

Fshi një memorie të përkohshme

Shërbimi i ruajtjes në memorje ofron një operacion fshirjeje për heqjen manuale të përmbajtjes nga memoria e përkohshme. Shembulli i mëposhtëm tregon se si të fshihet një memorje e përkohshme duke përdorur GoogleGenAI.caches.delete() .

await ai.caches.delete({ name: cache.name });

Ruajtje e qartë në memorje duke përdorur bibliotekën OpenAI

Nëse po përdorni një bibliotekë OpenAI , mund të aktivizoni ruajtjen në memorje të qartë duke përdorur pronën cached_contentextra_body .

Kur duhet të përdoret ruajtja në memorje e qartë

Ruajtja në memorje e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Konsideroni përdorimin e ruajtjes në memorje të kontekstit për raste përdorimi të tilla si:

  • Chatbot me udhëzime të hollësishme të sistemit
  • Analizë e përsëritur e skedarëve të gjatë video
  • Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
  • Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Si i zvogëlon kostot ruajtja në memorje të qartë

Ruajtja në memorje e kontekstit është një veçori me pagesë e projektuar për të ulur kostot e përgjithshme operative. Faturimi bazohet në faktorët e mëposhtëm:

  1. Numri i tokenëve të memories së përkohshme: Numri i tokenëve të hyrjes të ruajtur në memorien e përkohshme, të faturuar me një çmim të reduktuar kur përfshihen në njoftimet pasuese.
  2. Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen tokenët e ruajtur në memorje (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të tokenëve të ruajtur në memorje. Nuk ka kufij minimalë ose maksimalë për TTL-në.
  3. Faktorë të tjerë: Aplikohen tarifa të tjera, si për tokenët hyrës dhe tokenët dalës që nuk ruhen në memorien e përkohshme.

Për detaje të azhurnuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni tokenët, shihni udhëzuesin e Tokenëve .

Konsiderata shtesë

Mbani në mend konsideratat e mëposhtme kur përdorni ruajtjen e kontekstit në memorje:

  • Numri minimal i tokenëve hyrës për ruajtjen në memorje të kontekstit është 1,024 për 2.5 Flash, 4,096 për 2.5 Pro dhe 2,048 për 3 Pro Preview. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë informacion mbi numërimin e tokenëve, shihni udhëzuesin e Token-it ).
  • Modeli nuk bën asnjë dallim midis tokenëve të ruajtur në memorje dhe tokenëve të rregullt të hyrjes. Përmbajtja e ruajtur në memorje është një parashtesë për kërkesën.
  • Nuk ka kufizime të veçanta çmimi ose përdorimi për ruajtjen në memorje kontekstuale; zbatohen kufizimet standarde të çmimit për GenerateContent dhe kufizimet e tokenëve përfshijnë tokenët e ruajtur në memorje.
  • Numri i tokenëve të ruajtur në memorien e përkohshme kthehet në usage_metadata nga operacionet create, get dhe list të shërbimit të memories së përkohshme, si dhe në GenerateContent kur përdoret memoria e përkohshme.