API-ja Gemini Priority është një nivel inference premium i projektuar për ngarkesa pune kritike për biznesin që kërkojnë vonesë më të ulët dhe besueshmëri më të lartë në një çmim premium. Trafiku i nivelit prioritar ka përparësi mbi trafikun e API-t standard dhe atij Flex.
Përfundimi i përparësisë është i disponueshëm për përdoruesit e Nivelit 2 dhe Nivelit 3 në të gjitha pikat fundore të GenerateContent API dhe Interactions API.
Si të përdorni Prioritetin
Për të përdorur nivelin e përparësisë, caktoni fushën service_tier në trupin e kërkesës në priority . Niveli i parazgjedhur është standard nëse fusha lihet jashtë.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Shko
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
PUSHTIM
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Si funksionon përfundimi i përparësisë
Përfundimi i përparësisë i drejton kërkesat në radhë llogaritëse me kritikë të lartë, duke ofruar performancë të parashikueshme dhe të shpejtë për aplikacionet që përballen me përdoruesin. Mekanizmi i tij kryesor është një ulje e hijshme nga ana e serverit në përpunim standard për trafikun që tejkalon kufijtë dinamikë, duke siguruar stabilitetin e aplikacionit në vend që të dështojë kërkesa.
| Karakteristikë | Prioritet | Standard | Përkul | Grumbull |
|---|---|---|---|---|
| Çmimet | 75-100% më shumë se Standardi | Çmimi i plotë | 50% zbritje | 50% zbritje |
| Latencia | I ulët (Sekonda) | Sekonda në minuta | Minuta (objektivi 1–15 minuta) | Deri në 24 orë |
| Besueshmëria | I lartë (nuk mund të ndahet) | I lartë / Mesatar-i lartë | Përpjekja më e mirë (e shpërndarshme) | I lartë (për rendiment) |
| Ndërfaqja | Sinkron | Sinkron | Sinkron | Asinkron |
Përfitimet kryesore
- Latenci e ulët : I projektuar për kohë reagimi ms-sekondë për mjete interaktive të inteligjencës artificiale që drejtohen nga përdoruesi.
- Besueshmëri e lartë : Trafiku trajtohet me kritikalitetin më të lartë dhe është rreptësisht i pandashëm nga njëri-tjetri.
- Degradim i hijshëm : Rritja e trafikut që tejkalon kufijtë dinamikë degradohet automatikisht në nivelin Standard për përpunim në vend që të dështojë, duke parandaluar ndërprerjet e shërbimit.
- Fërkim i ulët : Përdor të njëjtën metodë sinkrone
generateContentsi nivelet standarde dhe Flex.
Rastet e përdorimit
Përpunimi me përparësi është ideal për rrjedhat e punës kritike për biznesin, ku performanca dhe besueshmëria janë parësore.
- Aplikacione interaktive të IA-së : Chatbot-e dhe bashkëpilotë të shërbimit ndaj klientit ku përdoruesit paguajnë një çmim më të lartë dhe presin përgjigje të shpejta dhe të qëndrueshme.
- Motorë vendimmarrjeje në kohë reale : Sisteme që kërkojnë rezultate shumë të besueshme dhe me latencë të ulët, të tilla si triagimi i biletave të drejtpërdrejta ose zbulimi i mashtrimeve.
- Karakteristikat premium të klientit : Zhvilluesit që duhet të garantojnë objektiva më të larta të nivelit të shërbimit (SLO) për klientët që paguajnë.
Limitet e tarifave
Konsumi prioritar mban kufijtë e vet të normës edhe pse konsumi llogaritet në kufijtë e përgjithshëm të normës së trafikut interaktiv . Kufijtë e normës së parazgjedhur për nxjerrjen e Prioritetit janë 0.3x kufiri standard i normës për Modelin / Nivelin.
Logjikë e këndshme e uljes së nivelit
Nëse limitet e Prioritetit tejkalohen për shkak të mbingarkesës, kërkesat e tejmbushjes automatikisht dhe me elegancë degradohen në përpunim standard në vend që të dështojnë me një gabim 503 ose 429. Kërkesat e ulura faturohen me tarifën standarde, jo me tarifën premium të Prioritetit.
Përgjegjësia e klientit
- Monitorimi i përgjigjes : Zhvilluesit duhet të monitorojnë vlerën
service_tiernë trupin e përgjigjes së API-t për të zbuluar nëse kërkesat po ulen shpesh nëstandard. - Ripërpjekjet : Klientët duhet të zbatojnë logjikën e ripërpjekjes/mbrapsjen eksponenciale për gabimet standarde, siç është
DEADLINE_EXCEEDED.
Çmimet
Përfundimi i përparësisë ka një çmim 75-100% më të lartë se API-ja standarde dhe faturohet për token.
Modelet e mbështetura
Modelet e mëposhtme mbështesin përfundimin e përparësisë:
| Model | Përfundimi i përparësisë |
|---|---|
| Pamje paraprake e Gemini 3.1 Flash-Lite | ✔️ |
| Pamje paraprake e Gemini 3.1 Pro | ✔️ |
| Pamje paraprake e shpejtë e Gemini 3 | ✔️ |
| Pamje paraprake e imazhit të Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Binjakët 2.5 Flash | ✔️ |
| Imazh Flash i Gemini 2.5 | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Çfarë vjen më pas
Lexoni rreth opsioneve të tjera të përfundimit dhe optimizimit të Gemini:
- Përfundim fleksibël për ulje të kostos me 50%.
- API i grupeve për përpunim asinkron brenda 24 orëve.
- Ruajtja në memorje e kontekstit për kosto të reduktuara të tokenëve të hyrjes.