Ruajtja në memorje e kontekstit

Në një rrjedhë pune tipike të inteligjencës artificiale, mund t’i kaloni të njëjtat tokena hyrëse vazhdimisht një modeli. API-ja Gemini ofron ruajtje të memorizuar implicite për të optimizuar performancën dhe kostot.

Ruajtje e memorizuar e nënkuptuar

Ruajtja implicite në memorje aktivizohet si parazgjedhje për të gjitha modelet Gemini 2.5 dhe më të reja. Ne i kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në memorje. Nuk ka nevojë të bëni asgjë për ta aktivizuar këtë. Numri minimal i tokenëve të hyrjes për ruajtjen e kontekstit në memorje është renditur në tabelën e mëposhtme për secilin model:

Model Limiti minimal i tokenëve
Pamje paraprake e shpejtë e Gemini 3 1024
Pamje paraprake e Gemini 3 Pro 4096
Binjakët 2.5 Flash 1024
Gemini 2.5 Pro 4096

Për të rritur mundësinë e një goditjeje implicite në memorjen e përkohshme:

  • Mundohu të vendosësh përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës sate.
  • Mundohu të dërgosh kërkesa me prefiks të ngjashëm në një kohë të shkurtër

Mund ta shihni numrin e tokenëve që ishin goditje në memorien e përkohshme (cache) në fushën usage_metadata (Python) ose usageMetadata (JavaScript) të objektit të përgjigjes.