Interfejs Gemini Priority API to poziom wnioskowania premium przeznaczony dla krytycznych zbiorów zadań biznesowych, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie Priority ma wyższy priorytet niż ruch na poziomie Standard API i Flex.
Określanie priorytetów wnioskowania jest dostępne dla użytkowników poziomu 2 i 3 w przypadku interfejsu GenerateContent API i punktów końcowych interfejsu Interactions API.
Jak korzystać z priorytetu
Aby użyć poziomu priorytetu, ustaw w treści żądania pole service_tier na wartość SERVICE_TIER_PRIORITY. Jeśli pole zostanie pominięte, domyślnym poziomem jest standardowy.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
W JavaScript biblioteka klienta automatycznie obsługuje przejście na niższą wersję. Jeśli pojemność zostanie przekroczona, wystąpi błąd lub przetwarzanie odbędzie się w ramach standardowej wersji usługi. Obiekt odpowiedzi nie udostępnia bezpośrednio nagłówków, aby można było sprawdzić, czy nastąpiło obniżenie wersji.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
W Go obniżenie wersji jest obsługiwane automatycznie przez bibliotekę klienta. Jeśli pojemność zostanie przekroczona, wystąpi błąd lub przetwarzanie odbędzie się w ramach standardowej wersji usługi. Obiekt odpowiedzi nie udostępnia bezpośrednio nagłówków, aby można było sprawdzić, czy nastąpiło obniżenie wersji.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Jak działa wnioskowanie priorytetowe
Routowanie wnioskowania priorytetowego kieruje żądania do kolejek obliczeniowych o wysokim znaczeniu, zapewniając przewidywalną i szybką wydajność w przypadku aplikacji dostępnych dla użytkowników. Jego głównym mechanizmem jest płynne przejście po stronie serwera do standardowego przetwarzania ruchu, który przekracza limity dynamiczne, co zapewnia stabilność aplikacji zamiast odrzucania żądania.
| Funkcja | Priorytet | Standardowe | Flex | Wsad |
|---|---|---|---|---|
| Ceny | 75–100% więcej niż w przypadku wersji Standard | Bilet normalny | 50% zniżki | 50% zniżki |
| Opóźnienie | Niska (sekundy) | Sekundy na minuty | Minuty (docelowo 1–15 min) | Do 24 godzin |
| Niezawodność | Wysoka (niezrzucająca sierści) | Wysoka / dość wysoka | Możliwie najlepsza obsługa (z możliwością odrzucenia) | Wysoki (dla przepustowości) |
| Interfejs | Synchroniczna | Synchroniczna | Synchroniczna | Asynchroniczny |
Główne zalety
- Niskie opóźnienie: zaprojektowane z myślą o czasie reakcji w milisekundach w przypadku interaktywnych narzędzi AI przeznaczonych dla użytkowników.
- Wysoka niezawodność: ruch jest traktowany jako najważniejszy i nie może być odrzucany.
- Łagodna degradacja: skoki ruchu przekraczające limity dynamiczne są automatycznie obniżane do poziomu Standard w celu przetworzenia zamiast powodować błędy, co zapobiega przerwom w działaniu usługi.
- Niskie tarcie: używa tej samej synchronicznej metody
generateContentco w przypadku poziomów standardowego i Flex.
Przypadki użycia
Przetwarzanie priorytetowe jest idealne w przypadku procesów o kluczowym znaczeniu dla firmy, w których wydajność i niezawodność mają największe znaczenie.
- Interaktywne aplikacje AI: czatboty i kopiloty obsługi klienta, w przypadku których użytkownicy płacą wyższą cenę i oczekują szybkich, spójnych odpowiedzi.
- Silniki decyzyjne działające w czasie rzeczywistym: systemy wymagające bardzo wiarygodnych wyników o niskim poziomie opóźnień, takie jak systemy triage zgłoszeń lub wykrywania oszustw.
- Funkcje dla klientów premium: dla programistów, którzy muszą zagwarantować wyższe docelowe poziomy usług (SLO) dla klientów płacących.
Ograniczenia liczby żądań
Zużycie priorytetowe ma własne limity szybkości, mimo że jest wliczane do ogólnych limitów szybkości ruchu interaktywnego. Domyślne limity szybkości dla wnioskowania priorytetowego to 0,3x standardowego limitu szybkości dla modelu lub poziomu.
Logika przejścia na niższą wersję
Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, nadmiarowe żądania zostaną automatycznie i bezproblemowo obniżone do przetwarzania standardowego zamiast zakończyć się niepowodzeniem z błędem 503 lub 429. Obniżone żądania są rozliczane według stawki standardowej, a nie według stawki premium Priority.
Odpowiedzialność klienta
- Monitorowanie odpowiedzi: deweloperzy powinni monitorować wartość
service_tierw treści odpowiedzi interfejsu API, aby wykrywać, czy żądania są często obniżane do poziomustandard. - Ponowne próby: w przypadku standardowych błędów, takich jak
DEADLINE_EXCEEDED, klienci muszą wdrożyć logikę ponawiania prób lub wykładniczy czas do ponowienia.
Ceny
Wnioskowanie priorytetowe jest o 75–100% droższe niż standardowy interfejs API i jest rozliczane za token.
Obsługiwane modele
Priorytetowe wnioskowanie jest obsługiwane w tych modelach:
| Model | Wnioskowanie o priorytecie |
|---|---|
| Gemini 3.1 Flash-Lite (wersja testowa) | ✔️ |
| Gemini 3.1 Pro (wersja testowa) | ✔️ |
| Wersja testowa Gemini 3 Flash | ✔️ |
| Wersja testowa Gemini 3 Pro Image | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Co dalej?
Dowiedz się więcej o innych opcjach wnioskowania i optymalizacji Gemini:
- Elastyczne wnioskowanie, które pozwala obniżyć koszty o 50%.
- Interfejs Batch API do przetwarzania asynchronicznego w ciągu 24 godzin.
- Buforowanie kontekstu w celu obniżenia kosztów tokenów wejściowych.