Prioritätsinferenz

Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premium-Preis erhältlich. Traffic der Prioritätsstufe wird gegenüber Traffic der Standard-API- und Flex-Stufe priorisiert.

Die Prioritätsinferenz ist für Nutzer der Stufen 2 und 3 für die API-Endpunkte „GenerateContent“ und „Interactions“ verfügbar.

Priority verwenden

Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier im Anfragetext auf SERVICE_TIER_PRIORITY fest. Wenn das Feld ausgelassen wird, ist die Standardstufe „Standard“.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'SERVICE_TIER_PRIORITY'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

In JavaScript wird das Downgrade automatisch von der Clientbibliothek verarbeitet. Wenn die Kapazität überschritten wird, wird ein Fehler ausgegeben oder die Anfrage wird auf der Standardebene verarbeitet. Das Antwortobjekt macht keine Header direkt verfügbar, um nach einem Downgrade zu suchen.

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Ok

In Go wird das Downgrade automatisch von der Clientbibliothek verarbeitet. Wenn die Kapazität überschritten wird, wird ein Fehler ausgegeben oder die Anfrage wird auf der Standardebene verarbeitet. Das Antwortobjekt macht keine Header direkt verfügbar, um nach einem Downgrade zu suchen.

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Funktionsweise der Prioritätsinferenz

Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein reibungsloses serverseitiges Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt die Anfrage abzulehnen.

Funktion Priorität Standard Flex Batch
Preise 75–100% mehr als bei Standard Standardpreis 50% Rabatt 50% Rabatt
Latenz Niedrig (Sekunden) Sekunden bis Minuten Minuten (Ziel: 1–15 Minuten) Bis zu 24 Stunden
Zuverlässigkeit Hoch (nicht abwerfbar) Hoch / Mittel bis hoch Best-Effort-Ansatz (reduzierbar) Hoch (für Durchsatz)
Schnittstelle Synchron Synchron Synchron Asynchron

Hauptvorteile

  • Niedrige Latenz: Entwickelt für Reaktionszeiten im Millisekundenbereich für interaktive, nutzerorientierte KI‑Tools.
  • Hohe Zuverlässigkeit: Traffic wird mit der höchsten Kritikalität behandelt und darf nicht reduziert werden.
  • Sanfte Herabstufung: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt zu einem Fehler zu führen. So werden Dienstausfälle verhindert.
  • Geringer Aufwand: Es wird dieselbe synchrone generateContent-Methode wie bei den Standard- und Flex-Tarifen verwendet.

Anwendungsfälle

Die Prioritätsverarbeitung ist ideal für geschäftskritische Workflows, bei denen Leistung und Zuverlässigkeit von entscheidender Bedeutung sind.

  • Interaktive KI-Anwendungen: Kundenservice-Chatbots und Copiloten, für die Nutzer eine Prämie zahlen und schnelle, konsistente Antworten erwarten.
  • Echtzeit-Entscheidungsmaschinen: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. die Live-Ticket-Triage oder die Betrugserkennung.
  • Premium-Kundenfunktionen: Entwickler, die für zahlende Kunden höhere Service Level Objectives (SLOs) garantieren müssen.

Ratenlimits

Für die Prioritätsnutzung gelten eigene Ratenbegrenzungen, obwohl die Nutzung auf die Ratenbegrenzungen für den gesamten interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Tier.

Logik für ordnungsgemäßes Downgrade

Wenn Prioritätslimits aufgrund von Überlastung überschritten werden, werden Overflow-Anfragen automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler zu fehlschlagen. Herabgestufte Anfragen werden zum Standardtarif und nicht zum Priority-Premiumtarif abgerechnet.

Verantwortung des Kunden

  • Antwortüberwachung: Entwickler sollten den service_tier-Wert im API-Antworttext überwachen, um festzustellen, ob Anfragen häufig auf standard herabgestuft werden.
  • Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für Standardfehler wie DEADLINE_EXCEEDED implementieren.

Preise

Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.

Unterstützte Modelle

Die folgenden Modelle unterstützen Priority Inference:

Modell Prioritätsinferenz
Gemini 3.1 Flash-Lite (Vorschau) ✔️
Gemini 3.1 Pro (Vorschau) ✔️
Gemini 3 Flash (Vorschau) ✔️
Gemini 3 Pro Image Preview ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

Nächste Schritte

Weitere Informationen zu den anderen Inferenz- und Optimierungsoptionen von Gemini: