Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premium-Preis erhältlich. Traffic der Prioritätsstufe wird gegenüber Traffic der Standard-API- und Flex-Stufe priorisiert.
Die Prioritätsinferenz ist für Nutzer der Stufen 2 und 3 für die API-Endpunkte „GenerateContent“ und „Interactions“ verfügbar.
Priority verwenden
Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier im Anfragetext auf SERVICE_TIER_PRIORITY fest. Wenn das Feld ausgelassen wird, ist die Standardstufe „Standard“.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
In JavaScript wird das Downgrade automatisch von der Clientbibliothek verarbeitet. Wenn die Kapazität überschritten wird, wird ein Fehler ausgegeben oder die Anfrage wird auf der Standardebene verarbeitet. Das Antwortobjekt macht keine Header direkt verfügbar, um nach einem Downgrade zu suchen.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Ok
In Go wird das Downgrade automatisch von der Clientbibliothek verarbeitet. Wenn die Kapazität überschritten wird, wird ein Fehler ausgegeben oder die Anfrage wird auf der Standardebene verarbeitet. Das Antwortobjekt macht keine Header direkt verfügbar, um nach einem Downgrade zu suchen.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Funktionsweise der Prioritätsinferenz
Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein reibungsloses serverseitiges Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt die Anfrage abzulehnen.
| Funktion | Priorität | Standard | Flex | Batch |
|---|---|---|---|---|
| Preise | 75–100% mehr als bei Standard | Standardpreis | 50% Rabatt | 50% Rabatt |
| Latenz | Niedrig (Sekunden) | Sekunden bis Minuten | Minuten (Ziel: 1–15 Minuten) | Bis zu 24 Stunden |
| Zuverlässigkeit | Hoch (nicht abwerfbar) | Hoch / Mittel bis hoch | Best-Effort-Ansatz (reduzierbar) | Hoch (für Durchsatz) |
| Schnittstelle | Synchron | Synchron | Synchron | Asynchron |
Hauptvorteile
- Niedrige Latenz: Entwickelt für Reaktionszeiten im Millisekundenbereich für interaktive, nutzerorientierte KI‑Tools.
- Hohe Zuverlässigkeit: Traffic wird mit der höchsten Kritikalität behandelt und darf nicht reduziert werden.
- Sanfte Herabstufung: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt zu einem Fehler zu führen. So werden Dienstausfälle verhindert.
- Geringer Aufwand: Es wird dieselbe synchrone
generateContent-Methode wie bei den Standard- und Flex-Tarifen verwendet.
Anwendungsfälle
Die Prioritätsverarbeitung ist ideal für geschäftskritische Workflows, bei denen Leistung und Zuverlässigkeit von entscheidender Bedeutung sind.
- Interaktive KI-Anwendungen: Kundenservice-Chatbots und Copiloten, für die Nutzer eine Prämie zahlen und schnelle, konsistente Antworten erwarten.
- Echtzeit-Entscheidungsmaschinen: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. die Live-Ticket-Triage oder die Betrugserkennung.
- Premium-Kundenfunktionen: Entwickler, die für zahlende Kunden höhere Service Level Objectives (SLOs) garantieren müssen.
Ratenlimits
Für die Prioritätsnutzung gelten eigene Ratenbegrenzungen, obwohl die Nutzung auf die Ratenbegrenzungen für den gesamten interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Tier.
Logik für ordnungsgemäßes Downgrade
Wenn Prioritätslimits aufgrund von Überlastung überschritten werden, werden Overflow-Anfragen automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler zu fehlschlagen. Herabgestufte Anfragen werden zum Standardtarif und nicht zum Priority-Premiumtarif abgerechnet.
Verantwortung des Kunden
- Antwortüberwachung: Entwickler sollten den
service_tier-Wert im API-Antworttext überwachen, um festzustellen, ob Anfragen häufig aufstandardherabgestuft werden. - Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für Standardfehler wie
DEADLINE_EXCEEDEDimplementieren.
Preise
Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.
Unterstützte Modelle
Die folgenden Modelle unterstützen Priority Inference:
| Modell | Prioritätsinferenz |
|---|---|
| Gemini 3.1 Flash-Lite (Vorschau) | ✔️ |
| Gemini 3.1 Pro (Vorschau) | ✔️ |
| Gemini 3 Flash (Vorschau) | ✔️ |
| Gemini 3 Pro Image Preview | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Nächste Schritte
Weitere Informationen zu den anderen Inferenz- und Optimierungsoptionen von Gemini:
- Flex-Inferenz für 50% Kostenreduzierung.
- Batch-API für die asynchrone Verarbeitung innerhalb von 24 Stunden.
- Kontext-Caching für geringere Kosten für Eingabetokens.