Prioritätsinferenz

Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premiumpreis erhältlich. Der Traffic der Prioritätsstufe hat Vorrang vor dem Traffic der Standard-API und der Flex-Stufe.

Die Prioritätsinferenz ist für Nutzer der Stufen 2 und 3 über die Endpunkte der GenerateContent API und der Interactions API verfügbar.

Priorität verwenden

Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier im Anfragetext auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe die Standardeinstellung.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Ok

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Funktionsweise der Prioritätsinferenz

Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der Hauptmechanismus ist ein reibungsloser serverseitiger Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt dass die Anfrage fehlschlägt.

Funktion Priorität Standard Flex Batch
Preise 75–100% mehr als Standard Standardpreis 50% Rabatt 50% Rabatt
Latenz Sekunden Sekunden bis Minuten Minuten (Ziel: 1–15 Minuten) Bis zu 24 Stunden
Zuverlässigkeit Hoch (nicht abwerfbar) Hoch / mittel bis hoch Best-Effort-Ansatz (abwerfbar) Hoch (für Durchsatz)
Schnittstelle Synchron Synchron Synchron Asynchron

Hauptvorteile

  • Geringe Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI-Tools.
  • Hohe Zuverlässigkeit: Traffic wird mit höchster Kritikalität behandelt und ist nicht abwerfbar.
  • Graceful Degradation: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt dass sie fehlschlagen. So werden Dienstausfälle verhindert.
  • Geringe Reibung: Verwendet dieselbe synchrone generateContent Methode wie die Standard- und Flex-Stufen.

Anwendungsfälle

Die Prioritätsverarbeitung ist ideal für geschäftskritische Arbeitsabläufe, bei denen Leistung und Zuverlässigkeit von größter Bedeutung sind.

  • Interaktive KI-Anwendungen: Kundenservice-Chatbots und -Copiloten, bei denen Nutzer einen Aufpreis zahlen und schnelle, konsistente Antworten erwarten.
  • Echtzeit-Entscheidungsmaschinen: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. Live-Ticket-Triage oder Betrugserkennung.
  • Premium-Kundenfunktionen: Entwickler, die höhere Service Level Objectives (SLOs) für zahlende Kunden garantieren müssen.

Ratenlimits

Für die Prioritätsnutzung gelten eigene Ratenlimits, auch wenn die Nutzung auf die allgemeinen Ratenlimits für interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Stufe.

Logik für reibungslosen Downgrade

Wenn die Prioritätslimits aufgrund von Überlastung überschritten werden, werden Anfragen, die das Limit überschreiten, automatisch und reibungslos auf die Standardverarbeitung herabgestuft, anstatt dass sie mit einem 503- oder 429-Fehler fehlschlagen. Herabgestufte Anfragen werden zum Standardpreis und nicht zum Premiumpreis für die Prioritätsstufe abgerechnet.

Verantwortung des Clients

  • Monitoring der Antworten: Entwickler sollten den x-gemini-service-tier Header in der API-Antwort beobachten, um festzustellen, ob Anfragen häufig auf standard herabgestuft werden.
  • Wiederholungen: Clients müssen eine Logik für Wiederholungen/exponentiellen Backoff für Standardfehler wie DEADLINE_EXCEEDED implementieren.

Preise

Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.

Unterstützte Modelle

Die folgenden Modelle unterstützen die Prioritätsinferenz:

Modell Prioritätsinferenz
Gemini 3.1 Flash Lite ✔️
Gemini 3.1 Flash Lite (Vorabversion) ✔️
Gemini 3.1 Pro (Vorabversion) ✔️
Gemini 3 Flash (Vorabversion) ✔️
Gemini 3 Pro Image (Vorabversion) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash Lite ✔️

Nächste Schritte

Weitere Informationen zu den anderen Inferenz- und Optimierungsoptionen von Gemini: