Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premiumpreis erhältlich. Der Traffic der Prioritätsstufe hat Vorrang vor dem Traffic der Standard-API und der Flex-Stufe.
Die Prioritätsinferenz ist für Nutzer der Stufen 2 und 3 über die Endpunkte der GenerateContent API und der Interactions API verfügbar.
Priorität verwenden
Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier im Anfragetext auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe die Standardeinstellung.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Ok
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
Funktionsweise der Prioritätsinferenz
Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der Hauptmechanismus ist ein reibungsloser serverseitiger Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt dass die Anfrage fehlschlägt.
| Funktion | Priorität | Standard | Flex | Batch |
|---|---|---|---|---|
| Preise | 75–100% mehr als Standard | Standardpreis | 50% Rabatt | 50% Rabatt |
| Latenz | Sekunden | Sekunden bis Minuten | Minuten (Ziel: 1–15 Minuten) | Bis zu 24 Stunden |
| Zuverlässigkeit | Hoch (nicht abwerfbar) | Hoch / mittel bis hoch | Best-Effort-Ansatz (abwerfbar) | Hoch (für Durchsatz) |
| Schnittstelle | Synchron | Synchron | Synchron | Asynchron |
Hauptvorteile
- Geringe Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI-Tools.
- Hohe Zuverlässigkeit: Traffic wird mit höchster Kritikalität behandelt und ist nicht abwerfbar.
- Graceful Degradation: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt dass sie fehlschlagen. So werden Dienstausfälle verhindert.
- Geringe Reibung: Verwendet dieselbe synchrone
generateContentMethode wie die Standard- und Flex-Stufen.
Anwendungsfälle
Die Prioritätsverarbeitung ist ideal für geschäftskritische Arbeitsabläufe, bei denen Leistung und Zuverlässigkeit von größter Bedeutung sind.
- Interaktive KI-Anwendungen: Kundenservice-Chatbots und -Copiloten, bei denen Nutzer einen Aufpreis zahlen und schnelle, konsistente Antworten erwarten.
- Echtzeit-Entscheidungsmaschinen: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. Live-Ticket-Triage oder Betrugserkennung.
- Premium-Kundenfunktionen: Entwickler, die höhere Service Level Objectives (SLOs) für zahlende Kunden garantieren müssen.
Ratenlimits
Für die Prioritätsnutzung gelten eigene Ratenlimits, auch wenn die Nutzung auf die allgemeinen Ratenlimits für interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Stufe.
Logik für reibungslosen Downgrade
Wenn die Prioritätslimits aufgrund von Überlastung überschritten werden, werden Anfragen, die das Limit überschreiten, automatisch und reibungslos auf die Standardverarbeitung herabgestuft, anstatt dass sie mit einem 503- oder 429-Fehler fehlschlagen. Herabgestufte Anfragen werden zum Standardpreis und nicht zum Premiumpreis für die Prioritätsstufe abgerechnet.
Verantwortung des Clients
- Monitoring der Antworten: Entwickler sollten den
x-gemini-service-tierHeader in der API-Antwort beobachten, um festzustellen, ob Anfragen häufig aufstandardherabgestuft werden. - Wiederholungen: Clients müssen eine Logik für Wiederholungen/exponentiellen Backoff für
Standardfehler wie
DEADLINE_EXCEEDEDimplementieren.
Preise
Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.
Unterstützte Modelle
Die folgenden Modelle unterstützen die Prioritätsinferenz:
| Modell | Prioritätsinferenz |
|---|---|
| Gemini 3.1 Flash Lite | ✔️ |
| Gemini 3.1 Flash Lite (Vorabversion) | ✔️ |
| Gemini 3.1 Pro (Vorabversion) | ✔️ |
| Gemini 3 Flash (Vorabversion) | ✔️ |
| Gemini 3 Pro Image (Vorabversion) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash Lite | ✔️ |
Nächste Schritte
Weitere Informationen zu den anderen Inferenz- und Optimierungsoptionen von Gemini:
- Flex-Inferenz für eine Kostenreduzierung von 50 %.
- Batch-API für die asynchrone Verarbeitung innerhalb von 24 Stunden.
- Kontext-Caching für geringere Kosten für Eingabetokens.