API-ja e Ndërveprimeve tani është përgjithësisht e disponueshme. Ne rekomandojmë përdorimin e kësaj API-je për qasje në të gjitha veçoritë dhe modelet më të fundit.

Kjo faqe është përkthyer nga Cloud Translation API.

Përfundimi i përparësisë

Përshkrim: Mësoni si të optimizoni vonesën me nivelin e përfundimit të përparësisë në API-në e Ndërveprimeve

API-ja Gemini Priority është një nivel inference premium i projektuar për ngarkesa pune kritike për biznesin që kërkojnë vonesë më të ulët dhe besueshmëri më të lartë në një çmim premium. Trafiku i nivelit prioritar ka përparësi mbi trafikun e API-t standard dhe atij Flex.

Përfundimi i përparësisë është i disponueshëm në të gjitha pikat fundore të Interactions API.

Si të përdorni Prioritetin

Për të përdorur nivelin Priority (Priority level), caktoni fushën service_tier në kërkesën tuaj në priority (priority). Niveli i parazgjedhur është standard nëse fusha lihet jashtë.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Si funksionon përfundimi i përparësisë

Përfundimi i përparësisë i drejton kërkesat në radhë llogaritëse me kritikë të lartë, duke ofruar performancë të parashikueshme dhe të shpejtë për aplikacionet që përballen me përdoruesin. Mekanizmi i tij kryesor është një ulje e hijshme nga ana e serverit në përpunim standard për trafikun që tejkalon kufijtë dinamikë, duke siguruar stabilitetin e aplikacionit në vend që të dështojë kërkesa.

Karakteristikë	Prioritet	Standard	Përkul	Grumbull
Çmimet	75-100% më shumë se Standardi	Çmimi i plotë	50% zbritje	50% zbritje
Latencia	Sekonda	Sekonda në minuta	Minuta (objektivi 1–15 minuta)	Deri në 24 orë
Besueshmëria	I lartë (i pathyeshëm)	I lartë / Mesatar-i lartë	Përpjekja më e mirë (e shpërndarshme)	I lartë (për rendiment)
Ndërfaqja	Sinkron	Sinkron	Sinkron	Asinkron

Përfitimet kryesore

Latenci e ulët : I projektuar për kohë të dyta përgjigjeje për mjete IA interaktive, të fokusuara te përdoruesi.
Besueshmëri e lartë : Trafiku trajtohet me kritikalitetin më të lartë dhe është rreptësisht i pandashëm nga njëri-tjetri.
Degradim i hijshëm : Rritja e trafikut që tejkalon kufijtë dinamikë degradohet automatikisht në nivelin Standard për përpunim në vend që të dështojë, duke parandaluar ndërprerjet e shërbimit.
Fërkim i ulët : Përdor të njëjtën metodë create sinkron si nivelet standarde dhe Flex.

Rastet e përdorimit

Përpunimi me përparësi është ideal për rrjedhat e punës kritike për biznesin, ku performanca dhe besueshmëria janë parësore.

Aplikacione interaktive të IA-së : Chatbot-e dhe bashkëpilotë të shërbimit ndaj klientit ku përdoruesit paguajnë një çmim më të lartë dhe presin përgjigje të shpejta dhe të qëndrueshme.
Motorë vendimmarrjeje në kohë reale : Sisteme që kërkojnë rezultate shumë të besueshme dhe me latencë të ulët, të tilla si triagimi i biletave të drejtpërdrejta ose zbulimi i mashtrimeve.
Karakteristikat premium të klientit : Zhvilluesit që duhet të garantojnë objektiva më të larta të nivelit të shërbimit (SLO) për klientët që paguajnë.

Limitet e tarifave

Konsumi prioritar mban kufijtë e vet të normës edhe pse konsumi llogaritet në kufijtë e përgjithshëm të normës së trafikut interaktiv . Kufijtë e normës së parazgjedhur për nxjerrjen e Prioritetit janë 0.3x kufiri standard i normës për Modelin / Nivelin.

Logjikë e këndshme e uljes së nivelit

Nëse limitet e Prioritetit tejkalohen për shkak të mbingarkesës, kërkesat e tejmbushjes automatikisht dhe me elegancë degradohen në përpunim standard në vend që të dështojnë me një gabim 503 ose 429. Kërkesat e ulura faturohen me tarifën standarde, jo me tarifën premium të Prioritetit.

Përgjegjësia e klientit

Monitorimi i përgjigjes : Zhvilluesit duhet të monitorojnë kokën x-gemini-service-tier në përgjigjen e API-t për të zbuluar nëse kërkesat po ulen shpesh në standard .
Ripërpjekjet : Klientët duhet të zbatojnë logjikën e ripërpjekjes/mbrapsjen eksponenciale për gabimet standarde, siç është DEADLINE_EXCEEDED .

Çmimet

Përfundimi i përparësisë ka një çmim 75-100% më të lartë se API-ja standarde dhe faturohet për token.

Modelet e mbështetura

Modelet e mëposhtme mbështesin përfundimin e përparësisë:

Model	Përfundimi i përparësisë
Binjakët 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Pamje paraprake e Gemini 3.1 Pro	✔️
Pamje paraprake e shpejtë e Gemini 3	✔️
Gemini 2.5 Pro	✔️
Binjakët 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Çfarë vjen më pas

Përfundim fleksibël për uljen e kostos.
Tokenat : Kuptoni tokenat.