Në një rrjedhë pune tipike të AI, ju mund t'i kaloni të njëjtat argumente hyrëse vazhdimisht tek një model. Duke përdorur veçorinë e ruajtjes së kontekstit të Gemini API, mund t'i kaloni disa përmbajtje modelit një herë, të ruani në memorien e duhur shenjat hyrëse dhe më pas t'i referoheni argumenteve të ruajtura në memorie për kërkesat e mëvonshme. Në vëllime të caktuara, përdorimi i argumenteve të ruajtura në memorie është kosto më e ulët sesa kalimi në të njëjtin korpus tokenësh në mënyrë të përsëritur.
Kur ruani një grup argumentesh, mund të zgjidhni për sa kohë dëshironi të ekzistojë cache përpara se të fshihen automatikisht shenjat. Kjo kohëzgjatje memorie quhet koha për të jetuar (TTL). Nëse nuk është caktuar, TTL është parazgjedhur në 1 orë. Kostoja e ruajtjes në memorie varet nga madhësia e tokenit të hyrjes dhe nga sa kohë dëshironi që tokenët të vazhdojnë.
Memoria e kontekstit mbështet të dyja Gemini 1.5 Pro dhe Gemini 1.5 Flash.
Kur të përdorni memorien e kontekstit
Ruajtja në memorie e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst thelbësor fillestar referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Merrni parasysh përdorimin e memories së kontekstit për rastet e përdorimit të tilla si:
- Chatbots me udhëzime të gjera të sistemit
- Analiza e përsëritur e skedarëve video të gjatë
- Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
- Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve
Si zvogëlon kostot memoria e fshehtë
Ruajtja në memorie e kontekstit është një veçori me pagesë e krijuar për të reduktuar kostot e përgjithshme operacionale. Faturimi bazohet në faktorët e mëposhtëm:
- Numri i shenjave të memories së memories: Numri i shenjave hyrëse të ruajtura në memorie, të faturuar me një tarifë të reduktuar kur përfshihen në kërkesat pasuese.
- Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen argumentet e ruajtura në memorie (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të shenjave të ruajtura në memorie. Nuk ka kufij minimalë ose maksimalë në TTL.
- Faktorë të tjerë: Zbatohen tarifa të tjera, si p.sh. për shenjat hyrëse dhe ato dalëse jo të ruajtura në memorie të fshehtë.
Për detaje të përditësuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni shenjat, shihni udhëzuesin Token .
Si të përdorni memorien e kontekstit
Ky seksion supozon se keni instaluar një Gemini SDK (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në fillimin e shpejtë .
Konsiderata shtesë
Mbani parasysh konsideratat e mëposhtme kur përdorni memorien e kontekstit:
- Numri minimal i shenjave hyrëse për ruajtjen në memorien e kontekstit është 32,768, dhe maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë rreth numërimit të shenjave, shihni udhëzuesin Token ).
- Modeli nuk bën asnjë dallim midis argumenteve të ruajtura në memorie dhe shenjave të zakonshme të hyrjes. Përmbajtja e memorizuar është thjesht një parashtesë e kërkesës.
- Nuk ka kufizime të veçanta të tarifave ose përdorimit në memorien e kontekstit; zbatohen kufijtë standardë të tarifave për
GenerateContent
dhe kufijtë e tokenit përfshijnë argumentet e ruajtura në memorie të fshehtë. - Numri i shenjave të ruajtura në memorie kthehet në
usage_metadata
nga operacionet e krijimit, marrjes dhe listimit të shërbimit të memories së memories, dhe gjithashtu nëGenerateContent
kur përdorni cache.