Gemini Priority API to warstwa wnioskowania Premium przeznaczona do zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają krótszego czasu oczekiwania i najwyższej niezawodności w cenie Premium. Ruch w warstwie Priority ma wyższy priorytet niż ruch w standardowym interfejsie API i warstwie Flex.
Wnioskowanie Priority jest dostępne dla użytkowników warstwy 2 i 3 w przypadku punktów końcowych interfejsu GenerateContent API i Interactions API.
Jak korzystać z warstwy Priority
Aby korzystać z warstwy Priority, ustaw w treści żądania wartość priority w polu service_tier. Jeśli to pole zostanie pominięte, domyślną warstwą będzie Standard.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3.5-flash",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
Jak działa wnioskowanie Priority
Wnioskowanie Priority kieruje żądania do kolejek obliczeniowych o wysokim priorytecie, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji dostępnych dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.
| Funkcja | Priorytet | Standardowe | Flex | Wsad |
|---|---|---|---|---|
| Ceny | 75–100% więcej niż w przypadku warstwy Standard | Bilet normalny | 50% rabatu | 50% rabatu |
| Czas oczekiwania | Sekundy | Sekundy do minut | Minuty (docelowo 1–15 min) | Do 24 godzin |
| Niezawodność | Wysoka (nie można jej obniżyć) | Wysoka / średnio wysoka | Bez gwarancji (można ją obniżyć) | Wysoka (w przypadku przepustowości) |
| Interfejs | Synchroniczna | Synchroniczna | Synchroniczna | Asynchroniczny |
Główne korzyści
- Krótki czas oczekiwania: zaprojektowana pod kątem czasu odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI dostępnych dla użytkowników.
- Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieobniżalny.
- Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie do warstwy Standard, co zapobiega przerwom w działaniu usługi.
- Niewielkie utrudnienia: używa tej samej synchronicznej
generateContentmetody co warstwy Standard i Flex.
Przypadki użycia
Przetwarzanie Priority jest idealne w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.
- Interaktywne aplikacje AI: czatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich, spójnych odpowiedzi.
- Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające wysoce niezawodnych wyników o niskim czasie oczekiwania , takich jak triage zgłoszeń na żywo czy wykrywanie oszustw.
- Funkcje Premium dla klientów: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.
Ograniczenia liczby żądań
Zużycie Priority ma własne ograniczenia liczby żądań, mimo że jest wliczane do ogólnych ograniczeń liczby żądań dotyczących ruchu interaktywnego. Domyślne ograniczenia liczby żądań w przypadku wnioskowania Priority to 0,3-krotność standardowego ograniczenia liczby żądań dla modelu / warstwy.
Logika łagodnego obniżania jakości
Jeśli limity Priority zostaną przekroczone z powodu przeciążenia, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania o obniżonym priorytecie są rozliczane według stawki standardowej, a nie stawki Premium Priority.
Odpowiedzialność klienta
- Monitorowanie odpowiedzi: deweloperzy powinni monitorować
x-gemini-service-tiernagłówek w odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomustandard. - Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób/wzrastający czas do ponowienia w przypadku standardowych błędów, takich jak
DEADLINE_EXCEEDED.
Ceny
Wnioskowanie Priority jest o 75–100% droższe niż standardowy interfejs API i jest rozliczane za token.
Obsługiwane modele
Wnioskowanie Priority jest obsługiwane w tych modelach:
| Model | Wnioskowanie Priority |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro (wersja testowa) | ✔️ |
| Gemini 3 Flash (wersja testowa) | ✔️ |
| Gemini 3 Pro Image (wersja testowa) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Co dalej?
Przeczytaj o innych opcjach wnioskowania i optymalizacji Gemini:
- Wnioskowanie Flex, które pozwala obniżyć koszty o 50%.
- Interfejs Batch API do przetwarzania asynchronicznego w ciągu 24 godzin.
- Buforowanie kontekstu, które pozwala obniżyć koszty tokenów wejściowych.