Interfejs Gemini Priority API to poziom wnioskowania premium przeznaczony dla krytycznych zbiorów zadań biznesowych, które wymagają krótszego czasu oczekiwania i najwyższej niezawodności w wyższej cenie. Ruch na poziomie Priority ma wyższy priorytet niż ruch na poziomie Standard API i Flex.
Wnioskowanie priorytetowe jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.
Jak korzystać z priorytetu
Aby używać poziomu Priorytet, ustaw w żądaniu pole service_tier na wartość priority. Jeśli pole zostanie pominięte, domyślnym poziomem jest standardowy.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Jak działa wnioskowanie priorytetowe
Wnioskowanie priorytetowe kieruje żądania do kolejek obliczeniowych o wysokim znaczeniu, zapewniając przewidywalną i szybką wydajność w przypadku aplikacji dostępnych dla użytkowników. Jego głównym mechanizmem jest płynne przejście po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza dynamiczne limity, co zapewnia stabilność aplikacji zamiast odrzucania żądania.
| Funkcja | Priorytet | Standardowe | Flex | Wsad |
|---|---|---|---|---|
| Ceny | 75–100% więcej niż w przypadku wersji Standard | Pełna cena | 50% zniżki | 50% zniżki |
| Opóźnienie | Sekundy | Sekundy na minuty | Minuty (docelowo 1–15 minut) | Do 24 godzin |
| Niezawodność | Wysoka (nie gubią sierści) | Wysoki / dość wysoki | Możliwie najlepsza obsługa (możliwość odrzucenia) | Wysoki (przepustowość) |
| Interfejs | Synchroniczna | Synchroniczna | Synchroniczna | Asynchroniczny |
Główne zalety
- Niskie opóźnienie: zaprojektowany z myślą o czasie reakcji wynoszącym kilka sekund w przypadku interaktywnych narzędzi AI przeznaczonych dla użytkowników.
- Wysoka niezawodność: ruch jest traktowany jako najważniejszy i nie może być odrzucany.
- Łagodna degradacja: skoki ruchu przekraczające dynamiczne limity są automatycznie obniżane do poziomu Standard w celu przetworzenia zamiast niepowodzenia, co zapobiega przerwom w działaniu usługi.
- Niskie tarcie: korzysta z tej samej synchronicznej metody
createco w przypadku poziomów standardowego i Flex.
Przypadki użycia
Przetwarzanie priorytetowe jest idealne w przypadku procesów o kluczowym znaczeniu dla firmy, w których wydajność i niezawodność mają największe znaczenie.
- Interaktywne aplikacje AI: czatboty i kopiloty obsługi klienta, w przypadku których użytkownicy płacą wyższą cenę i oczekują szybkich, spójnych odpowiedzi.
- Silniki decyzyjne działające w czasie rzeczywistym: systemy wymagające bardzo wiarygodnych wyników o niskim opóźnieniu, takie jak systemy triage zgłoszeń lub wykrywania oszustw.
- Funkcje dla klientów premium: deweloperzy, którzy muszą zagwarantować wyższe docelowe poziomy usług (SLO) dla klientów płacących.
Ograniczenia liczby żądań
Zużycie priorytetowe ma własne limity szybkości, mimo że jest wliczane do ogólnych limitów szybkości ruchu interaktywnego. Domyślne limity szybkości dla wnioskowania priorytetowego to 0,3x standardowego limitu szybkości dla modelu lub poziomu.
Logika łagodnego przejścia na niższą wersję
Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, nadmiarowe żądania zostaną automatycznie i bezproblemowo obniżone do przetwarzania standardowego zamiast zakończyć się niepowodzeniem z błędem 503 lub 429. Obniżone żądania są rozliczane według stawki standardowej, a nie według stawki premium za priorytet.
Odpowiedzialność klienta
- Monitorowanie odpowiedzi: deweloperzy powinni monitorować
x-gemini-service-tiernagłówek w odpowiedzi interfejsu API, aby wykrywać, czy żądania są często obniżane do poziomustandard. - Ponowne próby: klienci muszą w przypadku standardowych błędów, takich jak
DEADLINE_EXCEEDED, zaimplementować logikę ponawiania lub wzrastający czas do ponowienia.
Ceny
Wnioskowanie priorytetowe jest o 75–100% droższe niż standardowy interfejs API i jest rozliczane za token.
Obsługiwane modele
Priorytetowe wnioskowanie jest obsługiwane w tych modelach:
| Model | Wnioskowanie o priorytecie |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro (wersja testowa) | ✔️ |
| Gemini 3 Flash (wersja testowa) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Co dalej?
- Elastyczne wnioskowanie w celu obniżenia kosztów.
- Tokeny: dowiedz się więcej o tokenach.