Priorität ableiten

Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premium-Preis erhältlich. Traffic der Prioritätsstufe wird gegenüber Traffic der Standard-API- und Flex-Stufe priorisiert.

Die Prioritätsinferenz ist für alle Interactions API-Endpunkte verfügbar.

Priority verwenden

Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier in Ihrer Anfrage auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe „Standard“.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Funktionsweise der Prioritätsinferenz

Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein reibungsloser serverseitiger Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt dass die Anfrage fehlschlägt.

Funktion Priorität Standard Flex Batch
Preise 75–100% mehr als bei Standard Standardpreis 50% Rabatt 50% Rabatt
Latenz Sekunden Sekunden bis Minuten Minuten (Ziel: 1–15 Minuten) Bis zu 24 Stunden
Zuverlässigkeit Hoch (nicht weitergebbar) Hoch / Mittel bis hoch Best-Effort-Ansatz (reduzierbar) Hoch (für Durchsatz)
Schnittstelle Synchron Synchron Synchron Asynchron

Hauptvorteile

  • Niedrige Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI‑Tools.
  • Hohe Zuverlässigkeit: Traffic wird mit der höchsten Priorität behandelt und darf nicht reduziert werden.
  • Sanfte Herabstufung: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt zu einem Fehler zu führen. So werden Dienstausfälle verhindert.
  • Geringer Aufwand: Es wird dieselbe synchrone create-Methode wie bei den Standard- und Flex-Tarifen verwendet.

Anwendungsfälle

Die Verarbeitung mit Priorität ist ideal für geschäftskritische Workflows, bei denen Leistung und Zuverlässigkeit von entscheidender Bedeutung sind.

  • Interaktive KI-Anwendungen: Kundenservice-Chatbots und Copiloten, für die Nutzer eine Prämie zahlen und schnelle, konsistente Antworten erwarten.
  • Echtzeit-Entscheidungsmaschinen: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. die Live-Ticket-Triage oder die Betrugserkennung.
  • Premium-Kundenfunktionen: Entwickler, die für zahlende Kunden höhere Service Level Objectives (SLOs) garantieren müssen.

Ratenlimits

Für die Nutzung mit Priorität gelten eigene Ratenbegrenzungen, auch wenn die Nutzung auf die Ratenbegrenzungen für den gesamten interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Tier.

Logik für ordnungsgemäßes Downgrade

Wenn Prioritätslimits aufgrund von Überlastung überschritten werden, werden Overflow-Anfragen automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler zu fehlschlagen. Herabgestufte Anfragen werden zum Standardtarif und nicht zum Priority-Premiumtarif abgerechnet.

Verantwortung des Kunden

  • Monitoring der Antwort: Entwickler sollten den x-gemini-service-tier-Header in der API-Antwort überwachen, um festzustellen, ob Anfragen häufig auf standard herabgestuft werden.
  • Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für Standardfehler wie DEADLINE_EXCEEDED implementieren.

Preise

Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.

Unterstützte Modelle

Die folgenden Modelle unterstützen Priority Inference:

Modell Priorität ableiten
Gemini 3.1 Flash Lite ✔️
Gemini 3.1 Flash Lite (Vorschau) ✔️
Gemini 3.1 Pro (Vorabversion) ✔️
Gemini 3 Flash (Vorabversion) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Lite ✔️

Nächste Schritte