Prioritätsinferenz
Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premiumpreis verfügbar. Der Traffic der Prioritätsstufe wird gegenüber dem Traffic der Standard-API und der Flex-Stufe priorisiert.
Die Prioritätsinferenz ist für alle Endpunkte der Interactions API verfügbar.
Priorität verwenden
Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier in Ihrer Anfrage auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe die Standardeinstellung.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Funktionsweise der Prioritätsinferenz
Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Priorität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein ordnungsgemäßes serverseitiges Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt die Anfrage abzulehnen.
| Funktion | Priorität | Standard | Flex | Batch |
|---|---|---|---|---|
| Preise | 75–100% mehr als Standard | Standardpreis | 50% Rabatt | 50% Rabatt |
| Latenz | Sekunden | Sekunden bis Minuten | Minuten (Ziel: 1–15 Minuten) | Bis zu 24 Stunden |
| Zuverlässigkeit | Hoch (nicht abwerfbar) | Hoch / mittel bis hoch | Best-Effort-Ansatz (abwerfbar) | Hoch (für Durchsatz) |
| Schnittstelle | Synchron | Synchron | Synchron | Asynchron |
Hauptvorteile
- Geringe Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI-Tools.
- Hohe Zuverlässigkeit: Traffic wird mit höchster Priorität behandelt und ist nicht abwerfbar.
- Graceful Degradation: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt abzulehnen. So werden Dienstausfälle verhindert.
- Geringe Reibung: Verwendet dieselbe synchrone
createMethode wie die Standard- und Flex-Stufen.
Anwendungsfälle
Die Prioritätsverarbeitung ist ideal für geschäftskritische Arbeitsabläufe, bei denen Leistung und Zuverlässigkeit von größter Bedeutung sind.
- Interaktive KI-Anwendungen: Kundenservice-Chatbots und -Copiloten, bei denen Nutzer einen Aufpreis zahlen und schnelle, konsistente Antworten erwarten.
- Entscheidungsmaschinen in Echtzeit: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. Live-Ticket-Triage oder Betrugserkennung.
- Premium-Kundenfunktionen: Entwickler, die höhere Service Level Objectives (SLOs) für zahlende Kunden garantieren müssen.
Ratenlimits
Für die Prioritätsnutzung gelten eigene Ratenlimits, auch wenn die Nutzung auf die allgemeinen Ratenlimits für interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Stufe.
Logik für ordnungsgemäßes Downgrade
Wenn die Prioritätslimits aufgrund von Überlastung überschritten werden, werden Überlauflimits automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler abzulehnen. Herabgestufte Anfragen werden zum Standardpreis und nicht zum Premiumpreis für die Prioritätsstufe abgerechnet.
Verantwortung des Clients
- Monitoring der Antworten: Entwickler sollten den
x-gemini-service-tierHeader in der API-Antwort beobachten, um festzustellen, ob Anfragen häufig aufstandardherabgestuft werden. - Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für
Standardfehler wie
DEADLINE_EXCEEDEDimplementieren.
Preise
Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.
Unterstützte Modelle
Die folgenden Modelle unterstützen die Prioritätsinferenz:
| Modell | Prioritätsinferenz |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash Lite | ✔️ |
| Gemini 3.1 Pro (Vorabversion) | ✔️ |
| Gemini 3 Flash (Vorabversion) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Lite | ✔️ |
Nächste Schritte
- Flex-Inferenz zur Kostenreduzierung
- Tokens: Informationen zu Tokens