Wnioskowanie z priorytetem
Gemini Priority API to poziom wnioskowania premium przeznaczony dla zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie priorytetowym ma wyższy priorytet niż ruch na poziomie standardowym i Flex.
Wnioskowanie z priorytetem jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.
Jak korzystać z priorytetu
Aby korzystać z poziomu priorytetowego, ustaw w żądaniu wartość priority w polu service_tier. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie standardowy.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Jak działa wnioskowanie z priorytetem
Wnioskowanie z priorytetem kieruje żądania do kolejek obliczeniowych o wysokim priorytecie, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.
| Funkcja | Priorytet | Standardowe | Flex | Wsad |
|---|---|---|---|---|
| Ceny | 75–100% więcej niż w przypadku wersji Standard | Bilet normalny | 50% zniżki | 50% zniżki |
| Czas oczekiwania | Sekundy | Sekundy do minut | Minuty (docelowo 1–15 min) | Do 24 godzin |
| Niezawodność | Wysoka (nie można jej zmniejszyć) | Wysoka / średnio wysoka | Bez gwarancji (można ją zmniejszyć) | Wysoka (w przypadku przepustowości) |
| Interfejs | Synchroniczna | Synchroniczna | Synchroniczna | Asynchroniczny |
Główne korzyści
- Niskie opóźnienie: zaprojektowane z myślą o czasie odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI dla użytkowników.
- Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieodrzucalny.
- Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie poziomu do standardowego przetwarzania zamiast odrzucenia żądania, co zapobiega przerwom w działaniu usługi.
- Niewielkie utrudnienia: używa tej samej synchronicznej
createmetody co poziomy standardowy i Flex.
Przypadki użycia
Przetwarzanie z priorytetem idealnie sprawdza się w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.
- Interaktywne aplikacje AI: czatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich, spójnych odpowiedzi.
- Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające wysoce niezawodnych wyników o niskim opóźnieniu , takich jak triage zgłoszeń na żywo czy wykrywanie oszustw.
- Funkcje premium dla klientów: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.
Ograniczenia liczby żądań
Zużycie z priorytetem ma własne ograniczenia liczby żądań, mimo że jest wliczane do ogólnych ograniczeń liczby żądań dotyczących ruchu interaktywnego. Domyślne ograniczenia liczby żądań w przypadku wnioskowania z priorytetem to 0,3-krotność standardowego ograniczenia liczby żądań dla modelu / poziomu.
Logika łagodnej degradacji
Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania obniżone do poziomu standardowego są rozliczane według stawki standardowej, a nie stawki premium za priorytet.
Odpowiedzialność klienta
- Monitorowanie odpowiedzi: deweloperzy powinni monitorować
x-gemini-service-tiernagłówek w odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomustandard. - Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób lub wzrastający czas do ponowienia w przypadku standardowych błędów, takich jak
DEADLINE_EXCEEDED.
Ceny
Wnioskowanie z priorytetem jest o 75–100% droższe niż standardowy interfejs API i rozliczane za token.
Obsługiwane modele
Wnioskowanie z priorytetem jest obsługiwane w tych modelach:
| Model | Wnioskowanie z priorytetem |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite (wersja testowa) | ✔️ |
| Gemini 3.1 Pro (wersja testowa) | ✔️ |
| Gemini 3 Flash (wersja testowa) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Co dalej?
- Wnioskowanie Flex w celu zmniejszenia kosztów.
- Tokeny: informacje o tokenach.