Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron ruajtje të memorizuar implicite për të optimizuar performancën dhe kostot.
Ruajtje e memorizuar e nënkuptuar
Ruajtja implicite në memorje aktivizohet si parazgjedhje për të gjitha modelet Gemini 2.5 dhe më të reja. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:
Model
Limiti minimal i tokenëve
Pamje paraprake e shpejtë e Gemini 3
1024
Pamje paraprake e Gemini 3 Pro
4096
Binjakët 2.5 Flash
1024
Gemini 2.5 Pro
4096
Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:
Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër
Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata (Python) ose usageMetadata (JavaScript) të objektit të përgjigjes.
[[["E lehtë për t'u kuptuar","easyToUnderstand","thumb-up"],["E zgjidhi problemin tim","solvedMyProblem","thumb-up"],["Tjetër","otherUp","thumb-up"]],[["Mungojnë informacionet që më nevojiten","missingTheInformationINeed","thumb-down"],["Shumë e ndërlikuar/shumë hapa","tooComplicatedTooManySteps","thumb-down"],["E papërditësuar","outOfDate","thumb-down"],["Problem përkthimi","translationIssue","thumb-down"],["Problem me kampionët/kodin","samplesCodeIssue","thumb-down"],["Tjetër","otherDown","thumb-down"]],["Përditësimi i fundit: 2026-05-07 UTC."],[],[]]