Memoria e kontekstit

Në një rrjedhë pune tipike të AI, ju mund t'i kaloni të njëjtat argumente hyrëse vazhdimisht tek një model. Gemini API ofron dy mekanizma të ndryshëm të memorizimit:

  • Memoria e nënkuptuar (automatike, pa garanci për kursimin e kostos)
  • Memorie e qartë (manual, garanci për kursimin e kostos)

Memoria e nënkuptuar është aktivizuar në modelet Gemini 2.5 si parazgjedhje. Nëse një kërkesë përmban përmbajtje që është një hit i cache-it, ne jua kthejmë automatikisht kursimet e kostos.

Regjistrimi i qartë në memorie është i dobishëm në rastet kur dëshironi të garantoni kursime të kostos, por me një punë të shtuar të zhvilluesit.

Memorie e nënkuptuar

Memoria e nënkuptuar është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në cache. Nuk ka asgjë që duhet të bëni për ta mundësuar këtë. Është efektive që nga 8 maj 2025. Numri minimal i shenjave të hyrjes për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro.

Për të rritur mundësinë e një goditjeje të nënkuptuar të cache:

  • Provoni të vendosni përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës suaj
  • Përpiquni të dërgoni kërkesa me parashtesë të ngjashme në një kohë të shkurtër

Ju mund të shihni numrin e shenjave që ishin goditje në cache në fushën usage_metadata të objektit të përgjigjes.

Memorie e qartë

Duke përdorur veçorinë e ruajtjes eksplicite të Gemini API, ju mund t'i kaloni disa përmbajtje modelit një herë, të ruani memorien e shenjave të hyrjes dhe më pas t'i referoheni argumenteve të ruajtura në memorie për kërkesat e mëvonshme. Në vëllime të caktuara, përdorimi i argumenteve të ruajtura në memorie është kosto më e ulët sesa kalimi në të njëjtin korpus tokenësh në mënyrë të përsëritur.

Kur ruani një grup argumentesh, mund të zgjidhni për sa kohë dëshironi të ekzistojë cache përpara se të fshihen automatikisht shenjat. Kjo kohëzgjatje memorie quhet koha për të jetuar (TTL). Nëse nuk është caktuar, TTL është parazgjedhur në 1 orë. Kostoja e ruajtjes në memorie varet nga madhësia e tokenit të hyrjes dhe nga sa kohë dëshironi që tokenët të vazhdojnë.

Ky seksion supozon se keni instaluar një Gemini SDK (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në fillimin e shpejtë .

Kur të përdoret memoria specifike

Ruajtja në memorie e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst thelbësor fillestar referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Merrni parasysh përdorimin e memories së kontekstit për rastet e përdorimit të tilla si:

  • Chatbots me udhëzime të gjera të sistemit
  • Analiza e përsëritur e skedarëve video të gjatë
  • Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
  • Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Sa memorie e qartë zvogëlon kostot

Ruajtja në memorie e kontekstit është një veçori me pagesë e krijuar për të reduktuar kostot e përgjithshme operacionale. Faturimi bazohet në faktorët e mëposhtëm:

  1. Numri i shenjave të memories së memories: Numri i shenjave hyrëse të ruajtura në memorie, të faturuar me një tarifë të reduktuar kur përfshihen në kërkesat pasuese.
  2. Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen argumentet e ruajtura në memorie (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të shenjave të ruajtura në memorie. Nuk ka kufij minimalë ose maksimalë në TTL.
  3. Faktorë të tjerë: Zbatohen tarifa të tjera, si p.sh. për shenjat hyrëse dhe ato dalëse jo të ruajtura në memorie të fshehtë.

Për detaje të përditësuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni shenjat, shihni udhëzuesin Token .

Konsiderata shtesë

Mbani parasysh konsideratat e mëposhtme kur përdorni memorien e kontekstit:

  • Numri minimal i shenjave hyrëse për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë rreth numërimit të shenjave, shihni udhëzuesin Token ).
  • Modeli nuk bën asnjë dallim midis argumenteve të ruajtura në memorie dhe shenjave të zakonshme të hyrjes. Përmbajtja e memorizuar është një parashtesë e kërkesës.
  • Nuk ka kufizime të veçanta të tarifave ose përdorimit në memorien e kontekstit; zbatohen kufijtë standardë të tarifave për GenerateContent dhe kufijtë e tokenit përfshijnë argumentet e ruajtura në memorie të fshehtë.
  • Numri i shenjave të ruajtura në memorie kthehet në usage_metadata nga operacionet e krijimit, marrjes dhe listimit të shërbimit të memories së memories, dhe gjithashtu në GenerateContent kur përdorni cache.
,

Në një rrjedhë pune tipike të AI, ju mund t'i kaloni të njëjtat argumente hyrëse vazhdimisht tek një model. Gemini API ofron dy mekanizma të ndryshëm të memorizimit:

  • Memoria e nënkuptuar (automatike, pa garanci për kursimin e kostos)
  • Memorie e qartë (manual, garanci për kursimin e kostos)

Memoria e nënkuptuar është aktivizuar në modelet Gemini 2.5 si parazgjedhje. Nëse një kërkesë përmban përmbajtje që është një hit i cache-it, ne jua kthejmë automatikisht kursimet e kostos.

Regjistrimi i qartë në memorie është i dobishëm në rastet kur dëshironi të garantoni kursime të kostos, por me një punë të shtuar të zhvilluesit.

Memorie e nënkuptuar

Memoria e nënkuptuar është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në cache. Nuk ka asgjë që duhet të bëni për ta mundësuar këtë. Është efektive që nga 8 maj 2025. Numri minimal i shenjave të hyrjes për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro.

Për të rritur mundësinë e një goditjeje të nënkuptuar të cache:

  • Provoni të vendosni përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës suaj
  • Përpiquni të dërgoni kërkesa me parashtesë të ngjashme në një kohë të shkurtër

Ju mund të shihni numrin e shenjave që ishin goditje në cache në fushën usage_metadata të objektit të përgjigjes.

Memorie e qartë

Duke përdorur veçorinë e ruajtjes eksplicite të Gemini API, ju mund t'i kaloni disa përmbajtje modelit një herë, të ruani memorien e shenjave të hyrjes dhe më pas t'i referoheni argumenteve të ruajtura në memorie për kërkesat e mëvonshme. Në vëllime të caktuara, përdorimi i argumenteve të ruajtura në memorie është kosto më e ulët sesa kalimi në të njëjtin korpus tokenësh në mënyrë të përsëritur.

Kur ruani një grup argumentesh, mund të zgjidhni për sa kohë dëshironi të ekzistojë cache përpara se të fshihen automatikisht shenjat. Kjo kohëzgjatje memorie quhet koha për të jetuar (TTL). Nëse nuk është caktuar, TTL është parazgjedhur në 1 orë. Kostoja e ruajtjes në memorie varet nga madhësia e tokenit të hyrjes dhe nga sa kohë dëshironi që tokenët të vazhdojnë.

Ky seksion supozon se keni instaluar një Gemini SDK (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në fillimin e shpejtë .

Kur të përdoret memoria specifike

Ruajtja në memorie e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst thelbësor fillestar referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Merrni parasysh përdorimin e memories së kontekstit për rastet e përdorimit të tilla si:

  • Chatbots me udhëzime të gjera të sistemit
  • Analiza e përsëritur e skedarëve video të gjatë
  • Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
  • Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Sa memorie e qartë zvogëlon kostot

Ruajtja në memorie e kontekstit është një veçori me pagesë e krijuar për të reduktuar kostot e përgjithshme operacionale. Faturimi bazohet në faktorët e mëposhtëm:

  1. Numri i shenjave të memories së memories: Numri i shenjave hyrëse të ruajtura në memorie, të faturuar me një tarifë të reduktuar kur përfshihen në kërkesat pasuese.
  2. Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen argumentet e ruajtura në memorie (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të shenjave të ruajtura në memorie. Nuk ka kufij minimalë ose maksimalë në TTL.
  3. Faktorë të tjerë: Zbatohen tarifa të tjera, si p.sh. për shenjat hyrëse dhe ato dalëse jo të ruajtura në memorie të fshehtë.

Për detaje të përditësuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni shenjat, shihni udhëzuesin Token .

Konsiderata shtesë

Mbani parasysh konsideratat e mëposhtme kur përdorni memorien e kontekstit:

  • Numri minimal i shenjave hyrëse për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë rreth numërimit të shenjave, shihni udhëzuesin Token ).
  • Modeli nuk bën asnjë dallim midis argumenteve të ruajtura në memorie dhe shenjave të zakonshme të hyrjes. Përmbajtja e memorizuar është një parashtesë e kërkesës.
  • Nuk ka kufizime të veçanta të tarifave ose përdorimit në memorien e kontekstit; zbatohen kufijtë standardë të tarifave për GenerateContent dhe kufijtë e tokenit përfshijnë argumentet e ruajtura në memorie të fshehtë.
  • Numri i shenjave të ruajtura në memorie kthehet në usage_metadata nga operacionet e krijimit, marrjes dhe listimit të shërbimit të memories së memories, dhe gjithashtu në GenerateContent kur përdorni cache.
,

Në një rrjedhë pune tipike të AI, ju mund t'i kaloni të njëjtat argumente hyrëse vazhdimisht tek një model. Gemini API ofron dy mekanizma të ndryshëm të memorizimit:

  • Memoria e nënkuptuar (automatike, pa garanci për kursimin e kostos)
  • Memorie e qartë (manual, garanci për kursimin e kostos)

Memoria e nënkuptuar është aktivizuar në modelet Gemini 2.5 si parazgjedhje. Nëse një kërkesë përmban përmbajtje që është një hit i cache-it, ne jua kthejmë automatikisht kursimet e kostos.

Regjistrimi i qartë në memorie është i dobishëm në rastet kur dëshironi të garantoni kursime të kostos, por me një punë të shtuar të zhvilluesit.

Memorie e nënkuptuar

Memoria e nënkuptuar është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në cache. Nuk ka asgjë që duhet të bëni për ta mundësuar këtë. Është efektive që nga 8 maj 2025. Numri minimal i shenjave të hyrjes për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro.

Për të rritur mundësinë e një goditjeje të nënkuptuar të cache:

  • Provoni të vendosni përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës suaj
  • Përpiquni të dërgoni kërkesa me parashtesë të ngjashme në një kohë të shkurtër

Ju mund të shihni numrin e shenjave që ishin goditje në cache në fushën usage_metadata të objektit të përgjigjes.

Memorie e qartë

Duke përdorur veçorinë e ruajtjes eksplicite të Gemini API, ju mund t'i kaloni disa përmbajtje modelit një herë, të ruani memorien e shenjave të hyrjes dhe më pas t'i referoheni argumenteve të ruajtura në memorie për kërkesat e mëvonshme. Në vëllime të caktuara, përdorimi i argumenteve të ruajtura në memorie është kosto më e ulët sesa kalimi në të njëjtin korpus tokenësh në mënyrë të përsëritur.

Kur ruani një grup argumentesh, mund të zgjidhni për sa kohë dëshironi të ekzistojë cache përpara se të fshihen automatikisht shenjat. Kjo kohëzgjatje memorie quhet koha për të jetuar (TTL). Nëse nuk është caktuar, TTL është parazgjedhur në 1 orë. Kostoja e ruajtjes në memorie varet nga madhësia e tokenit të hyrjes dhe nga sa kohë dëshironi që tokenët të vazhdojnë.

Ky seksion supozon se keni instaluar një Gemini SDK (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në fillimin e shpejtë .

Kur të përdoret memoria specifike

Ruajtja në memorie e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst thelbësor fillestar referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Merrni parasysh përdorimin e memories së kontekstit për rastet e përdorimit të tilla si:

  • Chatbots me udhëzime të gjera të sistemit
  • Analiza e përsëritur e skedarëve video të gjatë
  • Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
  • Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Sa memorie e qartë zvogëlon kostot

Ruajtja në memorie e kontekstit është një veçori me pagesë e krijuar për të reduktuar kostot e përgjithshme operacionale. Faturimi bazohet në faktorët e mëposhtëm:

  1. Numri i shenjave të memories së memories: Numri i shenjave hyrëse të ruajtura në memorie, të faturuar me një tarifë të reduktuar kur përfshihen në kërkesat pasuese.
  2. Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen argumentet e ruajtura në memorie (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të shenjave të ruajtura në memorie. Nuk ka kufij minimalë ose maksimalë në TTL.
  3. Faktorë të tjerë: Zbatohen tarifa të tjera, si p.sh. për shenjat hyrëse dhe ato dalëse jo të ruajtura në memorie të fshehtë.

Për detaje të përditësuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni shenjat, shihni udhëzuesin Token .

Konsiderata shtesë

Mbani parasysh konsideratat e mëposhtme kur përdorni memorien e kontekstit:

  • Numri minimal i shenjave hyrëse për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë rreth numërimit të shenjave, shihni udhëzuesin Token ).
  • Modeli nuk bën asnjë dallim midis argumenteve të ruajtura në memorie dhe shenjave të zakonshme të hyrjes. Përmbajtja e memorizuar është një parashtesë e kërkesës.
  • Nuk ka kufizime të veçanta të tarifave ose përdorimit në memorien e kontekstit; zbatohen kufijtë standardë të tarifave për GenerateContent dhe kufijtë e tokenit përfshijnë argumentet e ruajtura në memorie të fshehtë.
  • Numri i shenjave të ruajtura në memorie kthehet në usage_metadata nga operacionet e krijimit, marrjes dhe listimit të shërbimit të memories së memories, dhe gjithashtu në GenerateContent kur përdorni cache.
,

Në një rrjedhë pune tipike të AI, ju mund t'i kaloni të njëjtat argumente hyrëse vazhdimisht tek një model. Gemini API ofron dy mekanizma të ndryshëm të memorizimit:

  • Memoria e nënkuptuar (automatike, pa garanci për kursimin e kostos)
  • Memorie e qartë (manual, garanci për kursimin e kostos)

Memoria e nënkuptuar është aktivizuar në modelet Gemini 2.5 si parazgjedhje. Nëse një kërkesë përmban përmbajtje që është një hit i cache-it, ne jua kthejmë automatikisht kursimet e kostos.

Regjistrimi i qartë në memorie është i dobishëm në rastet kur dëshironi të garantoni kursime të kostos, por me një punë të shtuar të zhvilluesit.

Memorie e nënkuptuar

Memoria e nënkuptuar është aktivizuar si parazgjedhje për të gjitha modelet Gemini 2.5. Ne kalojmë automatikisht kursimet e kostos nëse kërkesa juaj arrin në cache. Nuk ka asgjë që duhet të bëni për ta mundësuar këtë. Është efektive që nga 8 maj 2025. Numri minimal i shenjave të hyrjes për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro.

Për të rritur mundësinë e një goditjeje të nënkuptuar të cache:

  • Provoni të vendosni përmbajtje të mëdha dhe të zakonshme në fillim të kërkesës suaj
  • Përpiquni të dërgoni kërkesa me parashtesë të ngjashme në një kohë të shkurtër

Ju mund të shihni numrin e shenjave që ishin goditje në cache në fushën usage_metadata të objektit të përgjigjes.

Memorie e qartë

Duke përdorur veçorinë e ruajtjes eksplicite të Gemini API, ju mund t'i kaloni disa përmbajtje modelit një herë, të ruani memorien e shenjave të hyrjes dhe më pas t'i referoheni argumenteve të ruajtura në memorie për kërkesat e mëvonshme. Në vëllime të caktuara, përdorimi i argumenteve të ruajtura në memorie është kosto më e ulët sesa kalimi në të njëjtin korpus tokenësh në mënyrë të përsëritur.

Kur ruani një grup argumentesh, mund të zgjidhni për sa kohë dëshironi të ekzistojë cache përpara se të fshihen automatikisht shenjat. Kjo kohëzgjatje memorie quhet koha për të jetuar (TTL). Nëse nuk është caktuar, TTL është parazgjedhur në 1 orë. Kostoja e ruajtjes në memorie varet nga madhësia e tokenit të hyrjes dhe nga sa kohë dëshironi që tokenët të vazhdojnë.

Ky seksion supozon se keni instaluar një Gemini SDK (ose keni instaluar curl) dhe se keni konfiguruar një çelës API, siç tregohet në fillimin e shpejtë .

Kur të përdoret memoria specifike

Ruajtja në memorie e kontekstit është veçanërisht e përshtatshme për skenarët ku një kontekst thelbësor fillestar referohet në mënyrë të përsëritur nga kërkesa më të shkurtra. Merrni parasysh përdorimin e memories së kontekstit për rastet e përdorimit të tilla si:

  • Chatbots me udhëzime të gjera të sistemit
  • Analiza e përsëritur e skedarëve video të gjatë
  • Pyetje të përsëritura kundër grupeve të mëdha të dokumenteve
  • Analiza e shpeshtë e depove të kodit ose rregullimi i gabimeve

Sa memorie e qartë zvogëlon kostot

Ruajtja në memorie e kontekstit është një veçori me pagesë e krijuar për të reduktuar kostot e përgjithshme operacionale. Faturimi bazohet në faktorët e mëposhtëm:

  1. Numri i shenjave të memories së memories: Numri i shenjave hyrëse të ruajtura në memorie, të faturuar me një tarifë të reduktuar kur përfshihen në kërkesat pasuese.
  2. Kohëzgjatja e ruajtjes: Sasia e kohës që ruhen argumentet e ruajtura në memorie (TTL), e faturuar bazuar në kohëzgjatjen TTL të numrit të shenjave të ruajtura në memorie. Nuk ka kufij minimalë ose maksimalë në TTL.
  3. Faktorë të tjerë: Zbatohen tarifa të tjera, si p.sh. për shenjat hyrëse dhe ato dalëse jo të ruajtura në memorie të fshehtë.

Për detaje të përditësuara të çmimeve, referojuni faqes së çmimeve të Gemini API. Për të mësuar se si të numëroni shenjat, shihni udhëzuesin Token .

Konsiderata shtesë

Mbani parasysh konsideratat e mëposhtme kur përdorni memorien e kontekstit:

  • Numri minimal i shenjave hyrëse për ruajtjen në memorien e kontekstit është 1024 për 2.5 Flash dhe 2048 për 2.5 Pro. Maksimumi është i njëjtë me maksimumin për modelin e dhënë. (Për më shumë rreth numërimit të shenjave, shihni udhëzuesin Token ).
  • Modeli nuk bën asnjë dallim midis argumenteve të ruajtura në memorie dhe shenjave të zakonshme të hyrjes. Përmbajtja e memorizuar është një parashtesë e kërkesës.
  • Nuk ka kufizime të veçanta të tarifave ose përdorimit në memorien e kontekstit; zbatohen kufijtë standardë të tarifave për GenerateContent dhe kufijtë e tokenit përfshijnë argumentet e ruajtura në memorie të fshehtë.
  • Numri i shenjave të ruajtura në memorie kthehet në usage_metadata nga operacionet e krijimit, marrjes dhe listimit të shërbimit të memories së memories, dhe gjithashtu në GenerateContent kur përdorni cache.