Përfundimi i përparësisë
API-ja Gemini Priority është një nivel inference premium i projektuar për ngarkesa pune kritike për biznesin që kërkojnë vonesë më të ulët dhe besueshmëri më të lartë në një çmim premium. Trafiku i nivelit prioritar ka përparësi mbi trafikun e API-t standard dhe atij Flex.
Përfundimi i përparësisë është i disponueshëm në të gjitha pikat fundore të Interactions API.
Si të përdorni Prioritetin
Për të përdorur nivelin Priority (Priority level), caktoni fushën service_tier në kërkesën tuaj në priority (priority). Niveli i parazgjedhur është standard nëse fusha lihet jashtë.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
PUSHTIM
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Si funksionon përfundimi i përparësisë
Përfundimi i përparësisë i drejton kërkesat në radhë llogaritëse me kritikë të lartë, duke ofruar performancë të parashikueshme dhe të shpejtë për aplikacionet që përballen me përdoruesin. Mekanizmi i tij kryesor është një ulje e hijshme nga ana e serverit në përpunim standard për trafikun që tejkalon kufijtë dinamikë, duke siguruar stabilitetin e aplikacionit në vend që të dështojë kërkesa.
| Karakteristikë | Prioritet | Standard | Përkul | Grumbull |
|---|---|---|---|---|
| Çmimet | 75-100% më shumë se Standardi | Çmimi i plotë | 50% zbritje | 50% zbritje |
| Latencia | Sekonda | Sekonda në minuta | Minuta (objektivi 1–15 minuta) | Deri në 24 orë |
| Besueshmëria | I lartë (i pathyeshëm) | I lartë / Mesatar-i lartë | Përpjekja më e mirë (e shpërndarshme) | I lartë (për rendiment) |
| Ndërfaqja | Sinkron | Sinkron | Sinkron | Asinkron |
Përfitimet kryesore
- Latenci e ulët : I projektuar për kohë të dyta përgjigjeje për mjete IA interaktive, të fokusuara te përdoruesi.
- Besueshmëri e lartë : Trafiku trajtohet me kritikalitetin më të lartë dhe është rreptësisht i pandashëm nga njëri-tjetri.
- Degradim i hijshëm : Rritja e trafikut që tejkalon kufijtë dinamikë degradohet automatikisht në nivelin Standard për përpunim në vend që të dështojë, duke parandaluar ndërprerjet e shërbimit.
- Fërkim i ulët : Përdor të njëjtën metodë
createsinkron si nivelet standarde dhe Flex.
Rastet e përdorimit
Përpunimi me përparësi është ideal për rrjedhat e punës kritike për biznesin, ku performanca dhe besueshmëria janë parësore.
- Aplikacione interaktive të IA-së : Chatbot-e dhe bashkëpilotë të shërbimit ndaj klientit ku përdoruesit paguajnë një çmim më të lartë dhe presin përgjigje të shpejta dhe të qëndrueshme.
- Motorë vendimmarrjeje në kohë reale : Sisteme që kërkojnë rezultate shumë të besueshme dhe me latencë të ulët, të tilla si triagimi i biletave të drejtpërdrejta ose zbulimi i mashtrimeve.
- Karakteristikat premium të klientit : Zhvilluesit që duhet të garantojnë objektiva më të larta të nivelit të shërbimit (SLO) për klientët që paguajnë.
Limitet e tarifave
Konsumi prioritar mban kufijtë e vet të normës edhe pse konsumi llogaritet në kufijtë e përgjithshëm të normës së trafikut interaktiv . Kufijtë e normës së parazgjedhur për nxjerrjen e Prioritetit janë 0.3x kufiri standard i normës për Modelin / Nivelin.
Logjikë e këndshme e uljes së nivelit
Nëse limitet e Prioritetit tejkalohen për shkak të mbingarkesës, kërkesat e tejmbushjes automatikisht dhe me elegancë degradohen në përpunim standard në vend që të dështojnë me një gabim 503 ose 429. Kërkesat e ulura faturohen me tarifën standarde, jo me tarifën premium të Prioritetit.
Përgjegjësia e klientit
- Monitorimi i përgjigjes : Zhvilluesit duhet të monitorojnë kokën
x-gemini-service-tiernë përgjigjen e API-t për të zbuluar nëse kërkesat po ulen shpesh nëstandard. - Ripërpjekjet : Klientët duhet të zbatojnë logjikën e ripërpjekjes/mbrapsjen eksponenciale për gabimet standarde, siç është
DEADLINE_EXCEEDED.
Çmimet
Përfundimi i përparësisë ka një çmim 75-100% më të lartë se API-ja standarde dhe faturohet për token.
Modelet e mbështetura
Modelet e mëposhtme mbështesin përfundimin e përparësisë:
| Model | Përfundimi i përparësisë |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Pamje paraprake e Gemini 3.1 Flash-Lite | ✔️ |
| Pamje paraprake e Gemini 3.1 Pro | ✔️ |
| Pamje paraprake e shpejtë e Gemini 3 | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Binjakët 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Çfarë vjen më pas
- Përfundim fleksibël për uljen e kostos.
- Tokenat : Kuptoni tokenat.