API-ja e Ndërveprimeve tani është përgjithësisht e disponueshme. Ne rekomandojmë përdorimin e kësaj API-je për qasje në të gjitha veçoritë dhe modelet më të fundit.

Kjo faqe është përkthyer nga Cloud Translation API.

Optimizimi dhe nxjerrja e përfundimeve të API-t Gemini

API-ja Gemini ofron një sërë mekanizmash optimizimi për t'ju ndihmuar të balanconi shpejtësinë, koston dhe besueshmërinë bazuar në nevojat tuaja specifike të ngarkesës së punës. Pavarësisht nëse po ndërtoni robotë bisedorë në kohë reale ose po përdorni kanale të rënda përpunimi të të dhënave jashtë linje, zgjedhja e paradigmës së duhur mund të ulë ndjeshëm kostot ose të rrisë performancën.

Karakteristikë	Standard	Përkul	Prioritet	Grumbull	Ruajtja në memorje
Çmimet	Çmimi i plotë	50% zbritje	75% deri në 100% më shumë se standardi	50% zbritje	90% zbritje + Ruajtje proporcionale e tokenëve
Latencia	Sekonda në minuta	Minuta (objektivi 1–15 minuta)	Sekonda	Deri në 24 orë	Kohë më e shpejtë deri te shenja e parë
Besueshmëria	I lartë / Mesatar-i lartë	Përpjekja më e mirë (e shpërndarshme)	I lartë (i pathyeshëm)	I lartë (për rendiment)	N/A
Ndërfaqja	Sinkron	Sinkron	Sinkron	Asinkron	Gjendja e ruajtur
Rasti më i mirë i përdorimit	Flukset e përgjithshme të punës së aplikacionit	Zinxhirë sekuencialë jo-urgjentë	Prodhim, aplikacione të fokusuara te përdoruesi	Sete të dhënash masive, vlerësime jashtë linje	Pyetje të përsëritura mbi të njëjtin skedar

Nivelet e shërbimit të inferencës (Sinkrone)

Mund të kaloni midis trafikut sinkron të optimizuar për besueshmëri dhe atij të optimizuar për kosto duke kaluar parametrin service_tier në thirrjet tuaja standarde të gjenerimit.

Përfundimi standard (Parazgjedhur)

Niveli standard është opsioni parazgjedhur për gjenerimin e përmbajtjes sekuenciale. Ai ofron kohë normale përgjigjeje pa tarifa shtesë ose radhë të gjata pritjeje.

Besueshmëria: Kriticitet standard
Çmimi: Çmimet standarde.
Më e mira për: Shumica e aplikacioneve interaktive të përditshme.

Përfundimi i përparësisë (i optimizuar për vonesën)

Përpunimi prioritar i drejton kërkesat tuaja në radhë llogaritëse me kritikë të lartë. Ky trafik nuk mund të shpërndahet në mënyrë strikte (nuk parandalohet kurrë nga nivele të tjera) dhe ofron besueshmërinë më të lartë. Nëse tejkaloni kufijtë dinamikë të Prioritetit, sistemi do ta ulë kërkesën në mënyrë të hijshme në Përpunim Standard në vend që të dështojë me një gabim.

Besueshmëria: Kritikaliteti më i lartë
Çmimi: 75% deri në 100% mbi çmimet standarde.
Më e mira për: Chatbot-et e klientëve, zbulimin e mashtrimeve në kohë reale dhe bashkëpilotët kritikë për biznesin.

Përfundim fleksibël (i optimizuar për koston)

Flex inference ofron një zbritje prej 50% krahasuar me tarifat standarde duke shfrytëzuar kapacitetin llogaritës oportunist jashtë orarit të pikut. Kërkesat përpunohen në mënyrë sinkrone, që do të thotë se nuk keni nevojë të rishkruani kodin për të menaxhuar objektet e grupeve. Meqenëse është trafik i "shpërndarë", kërkesat mund të parandalohen nëse sistemi përjeton rritje standarde të trafikut.

Besueshmëria: Kriticitet i pagarantuar, i ndryshueshëm
Çmimi: 50% e Çmimit Standard (faturuar për token).
Më e mira për: Flukset e punës agjentike me shumë hapa ku thirrja N+1 varet nga rezultati i thirrjes N, përditësimet e CRM në sfond dhe vlerësimet jashtë linje.

API i grupeve (me shumicë, asinkron)

API-ja Batch është projektuar për të përpunuar vëllime të mëdha kërkesash në mënyrë asinkrone me 50% të kostos standarde. Ju mund të paraqisni kërkesa ose si fjalorë të integruar ose duke përdorur një skedar hyrës JSONL (deri në 2GB). Ai përpunon kërkesat duke përdorur radhë të përpunimit në sfond me një kohë të synuar kthimi prej 24 orësh.

Besueshmëria: Mund të hiqet, por me ripërpjekje automatike 24-orëshe dhe sistem radhe
Çmimi: 50% e çmimit standard.
Më e mira për: Përpunimin paraprak të grupeve të të dhënave masive, ekzekutimin e grupeve të testeve periodike të regresionit dhe gjenerimet e imazheve ose të ngulitura me vëllim të lartë.

Ruajtja në memorje e kontekstit (Kursime të të dhënave hyrëse)

Ruajtja në memorien e kontekstit përdoret kur një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra.

Ruajtja në memorje të fshehtë implicite: Aktivizohet automatikisht në Gemini 2.5 dhe modelet më të reja. Sistemi kalon kursimet e kostos nëse kërkesa juaj arrin në memorjet ekzistuese të fshehta bazuar në prefikset e zakonshme të kërkesave.
Ruajtja e memorjes në mënyrë eksplicite: Mund të krijoni manualisht një objekt të memorjes në memorien e përkohshme me një Kohëzgjatjeje specifike (TTL). Pasi të krijohet, ju i referoheni tokenëve të ruajtur në memorien e përkohshme për kërkesat pasuese për të shmangur kalimin e përsëritur të të njëjtit ngarkesë të korpusit.
Çmimi: Faturohet bazuar në numrin e tokenëve të memorjes së përkohshme dhe kohëzgjatjen e ruajtjes (TTL).
Më e mira për: Chatbot-e me udhëzime të gjera sistemi, analiza të përsëritura të skedarëve të gjatë video ose pyetje kundër grupeve të mëdha dokumentesh.