API-ja e Ndërveprimeve tani është përgjithësisht e disponueshme. Ne rekomandojmë përdorimin e kësaj API-je për qasje në të gjitha veçoritë dhe modelet më të fundit.

Kjo faqe është përkthyer nga Cloud Translation API.

Memoria e kontekstit

Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron ruajtje të memorizuar implicite për të optimizuar performancën dhe kostot.

Ruajtje e memorizuar e nënkuptuar

Ruajtja implicite në memorje aktivizohet si parazgjedhje për të gjitha modelet Gemini 2.5 dhe më të reja. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:

Model	Limiti minimal i tokenëve
Binjakët 3.5 Flash	4096
Pamje paraprake e Gemini 3.1 Pro	4096
Binjakët 2.5 Flash	2048
Gemini 2.5 Pro	2048

Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:

Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër

Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata (Python) ose usageMetadata (JavaScript) të objektit të përgjigjes.