Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron dy mekanizma të ndryshëm të ruajtjes në memorje:
- Ruajtje në memorje të fshehtë (aktivizohet automatikisht në modelet Gemini 2.5, pa garanci për kursimin e kostos)
- Ruajtje e qartë në memorje (mund të aktivizohet manualisht në shumicën e modeleve, garanci për kursimin e kostos)
Ruajtja në memorje e qartë është e dobishme në rastet kur doni të garantoni kursime të kostos, por me pak punë shtesë nga zhvilluesi.
Ruajtje e memorizuar e nënkuptuar
Ruajtja implicite në memorje aktivizohet si parazgjedhje për të gjitha modelet Gemini 2.5. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Kjo hyn në fuqi që nga 8 maji 2025. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:
| Model | Limiti minimal i tokenëve |
|---|---|
| Pamje paraprake e Gemini 3 Pro | 4096 |
| Gemini 2.5 Pro | 4096 |
| Binjakët 2.5 Flash | 1024 |
Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:
- Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
- Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër
Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata të objektit të përgjigjes.
Ruajtje e qartë në memorje
Duke përdorur veçorinë e ruajtjes në memorje të qartë të Gemini API, mund të kaloni një pjesë të përmbajtjes në model një herë, të ruani në memorje tokenët e hyrjes dhe më pas t'i referoheni tokenëve të ruajtur në memorje për kërkesat pasuese. Në vëllime të caktuara, përdorimi i tokenëve të ruajtur në memorje ka kosto më të ulët sesa kalimi i të njëjtit korpus tokenësh në mënyrë të përsëritur.
Kur ruani në memorien e përkohshme një grup tokenësh, mund të zgjidhni se për sa kohë dëshironi që memoria e përkohshme të ekzistojë para se tokenët të fshihen automatikisht. Kjo kohëzgjatje e ruajtjes në memorien e përkohshme quhet koha e ruajtjes (TTL). Nëse nuk është caktuar, TTL vendoset si parazgjedhje në 1 orë. Kostoja për ruajtjen në memorien e përkohshme varet nga madhësia e tokenit të futur dhe nga kohëzgjatja e ruajtjes në memorien e përkohshme.
Ky seksion supozon se keni instaluar një SDK Gemini (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në udhëzuesin e nisjes së shpejtë .
Gjeneroni përmbajtje duke përdorur një memorje të përkohshme
Shembulli i mëposhtëm tregon se si të gjenerohet përmbajtje duke përdorur një udhëzim sistemi të ruajtur në memorien e përkohshme dhe një skedar teksti.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
Lista e memorjeve të përkohshme
Nuk është e mundur të rikuperosh ose shikosh përmbajtjen e ruajtur në memorien e përkohshme, por mund të rikuperosh meta të dhënat e memories së përkohshme ( name , model , displayName , usageMetadata , createTime , updateTime dhe expireTime ).
Për të listuar metadatat për të gjitha memorjet e përkohshme të ngarkuara, përdorni GoogleGenAI.caches.list() :
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
Përditëso një memorje të përkohshme
Mund të caktoni një ttl ose expireTime të re për një memorje të përkohshme. Ndryshimi i çdo gjëje tjetër në lidhje me memorjen e përkohshme nuk mbështetet.
Shembulli i mëposhtëm tregon se si të përditësohet ttl e një memorjeje të përkohshme duke përdorur GoogleGenAI.caches.update() .
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
Fshi një memorie të përkohshme
Shërbimi i ruajtjes në memorje ofron një operacion fshirjeje për heqjen manuale të përmbajtjes nga memoria e përkohshme. Shembulli i mëposhtëm tregon se si të fshihet një memorje e përkohshme duke përdorur GoogleGenAI.caches.delete() .
await ai.caches.delete({ name: cache.name });
Ruajtje e qartë në memorje duke përdorur bibliotekën OpenAI
Nëse po përdorni një bibliotekë OpenAI , mund të aktivizoni ruajtjen në memorje të qartë duke përdorur pronën cached_content në extra_body .
Kur duhet të përdoret ruajtja në memorje e qartë
Ruajtja në memorje e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Konsideroni përdorimin e ruajtjes në memorje të kontekstit për raste përdorimi të tilla si:
- Chatbot me udhëzime të hollësishme të sistemit
- Analizë e përsëritur e skedarëve të gjatë video
- Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
- Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve
Si i zvogëlon kostot ruajtja në memorje të qartë
Ruajtja në memorje e kontekstit është një veçori me pagesë e projektuar për të ulur kostot e përgjithshme operative. Faturimi bazohet në faktorët e mëposhtëm:
- Numri i tokenëve të memories së përkohshme: Numri i tokenëve të hyrjes të ruajtur në memorien e përkohshme, të faturuar me një çmim të reduktuar kur përfshihen në njoftimet pasuese.
- Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen tokenët e ruajtur në memorje (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të tokenëve të ruajtur në memorje. Nuk ka kufij minimalë ose maksimalë për TTL-në.
- Faktorë të tjerë: Aplikohen tarifa të tjera, si për tokenët hyrës dhe tokenët dalës që nuk ruhen në memorien e përkohshme.
Për detaje të azhurnuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni tokenët, shihni udhëzuesin e Tokenëve .
Konsiderata shtesë
Mbani në mend konsideratat e mëposhtme kur përdorni ruajtjen e kontekstit në memorje:
- Numri minimal i tokenëve hyrës për ruajtjen në memorje të kontekstit është 1,024 për 2.5 Flash, 4,096 për 2.5 Pro dhe 2,048 për 3 Pro Preview. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë informacion mbi numërimin e tokenëve, shihni udhëzuesin e Token-it ).
- Modeli nuk bën asnjë dallim midis tokenëve të ruajtur në memorje dhe tokenëve të rregullt të hyrjes. Përmbajtja e ruajtur në memorje është një parashtesë për kërkesën.
- Nuk ka kufizime të veçanta çmimi ose përdorimi për ruajtjen në memorje kontekstuale; zbatohen kufizimet standarde të çmimit për
GenerateContentdhe kufizimet e tokenëve përfshijnë tokenët e ruajtur në memorje. - Numri i tokenëve të ruajtur në memorien e përkohshme kthehet në
usage_metadatanga operacionet create, get dhe list të shërbimit të memories së përkohshme, si dhe nëGenerateContentkur përdoret memoria e përkohshme.