API-ja Gemini ofron një sërë mekanizmash optimizimi për t'ju ndihmuar të balanconi shpejtësinë, koston dhe besueshmërinë bazuar në nevojat tuaja specifike të ngarkesës së punës. Pavarësisht nëse po ndërtoni robotë bisedorë në kohë reale ose po përdorni kanale të rënda përpunimi të të dhënave jashtë linje, zgjedhja e paradigmës së duhur mund të ulë ndjeshëm kostot ose të rrisë performancën.
| Karakteristikë | Standard | Përkul | Prioritet | Grumbull | Ruajtja në memorje |
|---|---|---|---|---|---|
| Çmimet | Çmimi i plotë | 50% zbritje | 75% deri në 100% më shumë se standardi | 50% zbritje | Ruajtje proporcionale e tokenëve |
| Latencia | Sekonda në minuta | Minuta (objektivi 1–15 minuta) | I ulët (Sekonda) | Deri në 24 orë | Kohë më e shpejtë deri te shenja e parë |
| Besueshmëria | I lartë / Mesatar-i lartë | Përpjekja më e mirë (e shpërndarshme) | I lartë (nuk mund të ndahet) | I lartë (për rendiment) | N/A |
| Ndërfaqja | Sinkron | Sinkron | Sinkron | Asinkron | Gjendja e ruajtur |
| Rasti më i mirë i përdorimit | Flukset e përgjithshme të punës së aplikacionit | Zinxhirë sekuencialë jo-urgjentë | Prodhim, aplikacione të fokusuara te përdoruesi | Sete të dhënash masive, vlerësime jashtë linje | Pyetje të përsëritura mbi të njëjtin skedar |
Nivelet e shërbimit të inferencës (Sinkrone)
Mund të kaloni midis trafikut sinkron të optimizuar për latencë dhe trafikut sinkron të optimizuar për kosto duke kaluar parametrin service_tier në thirrjet tuaja standarde të gjenerimit.
Përfundimi standard (Parazgjedhur)
Niveli standard është opsioni parazgjedhur për gjenerimin e përmbajtjes sekuenciale. Ai ofron kohë normale përgjigjeje pa tarifa shtesë ose radhë të gjata pritjeje.
- Latencia: Nga sekonda në minuta.
- Çmimi: Çmimet standarde.
- Më e mira për: Shumica e aplikacioneve interaktive të përditshme.
Përfundimi i përparësisë (i optimizuar për vonesën)
Përpunimi prioritar i drejton kërkesat tuaja në radhë llogaritëse me kritikë të lartë. Ky trafik nuk mund të shpërndahet në mënyrë strikte (nuk parandalohet kurrë nga nivele të tjera) dhe ofron besueshmërinë më të lartë. Nëse tejkaloni kufijtë dinamikë të Prioritetit, sistemi do ta ulë kërkesën në mënyrë të hijshme në Përpunim Standard në vend që të dështojë me një gabim.
- Latencia: Ultra e ulët (nga milisekonda në sekonda).
- Çmimi: 75% deri në 100% mbi çmimet standarde.
- Më e mira për: Chatbot-e të klientëve të drejtpërdrejtë, zbulim të mashtrimeve në kohë reale dhe bashkëpilotë kritikë për biznesin.
Përfundim fleksibël (i optimizuar për koston)
Flex inference ofron një zbritje prej 50% krahasuar me tarifat standarde duke shfrytëzuar kapacitetin llogaritës oportunist jashtë orarit të pikut. Kërkesat përpunohen në mënyrë sinkrone, që do të thotë se nuk keni nevojë të rishkruani kodin për të menaxhuar objektet e grupeve. Meqenëse është trafik i "shpërndarë", kërkesat mund të parandalohen nëse sistemi përjeton rritje standarde të trafikut.
- Latencia: Jo e garantuar, objektivi është 1 deri në 15 minuta.
- Çmimi: 50% e Çmimit Standard (faturuar për token).
- Më e mira për: Flukset e punës agjentike me shumë hapa ku thirrja N+1 varet nga rezultati i thirrjes N, përditësimet e CRM në sfond dhe vlerësimet jashtë linje.
API i grupeve (me shumicë, asinkron)
API-ja Batch është projektuar për të përpunuar vëllime të mëdha kërkesash në mënyrë asinkrone me 50% të kostos standarde. Ju mund të paraqisni kërkesa ose si fjalorë të integruar ose duke përdorur një skedar hyrës JSONL (deri në 2GB). Ai përpunon kërkesat duke përdorur radhë të përpunimit në sfond me një kohë të synuar kthimi prej 24 orësh.
- Latencia: E lartë (deri në 24 orë).
- Çmimi: 50% e çmimit standard.
- Më e mira për: Përpunimin paraprak të grupeve të të dhënave masive, ekzekutimin e grupeve të testeve periodike të regresionit dhe gjenerimet e imazheve ose të ngulitura me vëllim të lartë.
Ruajtja në memorje e kontekstit (Kursime të të dhënave hyrëse)
Ruajtja në memorien e kontekstit përdoret kur një kontekst fillestar i konsiderueshëm referohet në mënyrë të përsëritur nga kërkesa më të shkurtra.
- Ruajtja në memorje të fshehtë implicite: Aktivizohet automatikisht në Gemini 2.5 dhe modelet më të reja. Sistemi kalon kursimet e kostos nëse kërkesa juaj arrin në memorjet ekzistuese të fshehta bazuar në prefikset e zakonshme të kërkesave.
- Ruajtja e memorjes në mënyrë eksplicite: Mund të krijoni manualisht një objekt të memorjes në memorien e përkohshme me një Kohëzgjatjeje specifike (TTL). Pasi të krijohet, ju i referoheni tokenëve të ruajtur në memorien e përkohshme për kërkesat pasuese për të shmangur kalimin e përsëritur të të njëjtit ngarkesë të korpusit.
- Çmimi: Faturohet bazuar në numrin e tokenëve të memorjes së përkohshme dhe kohëzgjatjen e ruajtjes (TTL).
- Më e mira për: Chatbot me udhëzime të gjera sistemi, analiza të përsëritura të skedarëve të gjatë video ose pyetje kundër grupeve të mëdha dokumentesh.