Prioritätsinferenz

Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premiumpreis verfügbar. Der Traffic der Prioritätsstufe wird gegenüber dem Traffic der Standard-API und der Flex-Stufe priorisiert.

Die Prioritätsinferenz ist für alle Endpunkte der Interactions API verfügbar.

Priorität verwenden

Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier in Ihrer Anfrage auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe die Standardeinstellung.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Funktionsweise der Prioritätsinferenz

Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Priorität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein ordnungsgemäßes serverseitiges Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt die Anfrage abzulehnen.

Funktion Priorität Standard Flex Batch
Preise 75–100% mehr als Standard Standardpreis 50% Rabatt 50% Rabatt
Latenz Sekunden Sekunden bis Minuten Minuten (Ziel: 1–15 Minuten) Bis zu 24 Stunden
Zuverlässigkeit Hoch (nicht abwerfbar) Hoch / mittel bis hoch Best-Effort-Ansatz (abwerfbar) Hoch (für Durchsatz)
Schnittstelle Synchron Synchron Synchron Asynchron

Hauptvorteile

  • Geringe Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI-Tools.
  • Hohe Zuverlässigkeit: Traffic wird mit höchster Priorität behandelt und ist nicht abwerfbar.
  • Graceful Degradation: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt abzulehnen. So werden Dienstausfälle verhindert.
  • Geringe Reibung: Verwendet dieselbe synchrone create Methode wie die Standard- und Flex-Stufen.

Anwendungsfälle

Die Prioritätsverarbeitung ist ideal für geschäftskritische Arbeitsabläufe, bei denen Leistung und Zuverlässigkeit von größter Bedeutung sind.

  • Interaktive KI-Anwendungen: Kundenservice-Chatbots und -Copiloten, bei denen Nutzer einen Aufpreis zahlen und schnelle, konsistente Antworten erwarten.
  • Entscheidungsmaschinen in Echtzeit: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. Live-Ticket-Triage oder Betrugserkennung.
  • Premium-Kundenfunktionen: Entwickler, die höhere Service Level Objectives (SLOs) für zahlende Kunden garantieren müssen.

Ratenlimits

Für die Prioritätsnutzung gelten eigene Ratenlimits, auch wenn die Nutzung auf die allgemeinen Ratenlimits für interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Stufe.

Logik für ordnungsgemäßes Downgrade

Wenn die Prioritätslimits aufgrund von Überlastung überschritten werden, werden Überlauflimits automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler abzulehnen. Herabgestufte Anfragen werden zum Standardpreis und nicht zum Premiumpreis für die Prioritätsstufe abgerechnet.

Verantwortung des Clients

  • Monitoring der Antworten: Entwickler sollten den x-gemini-service-tier Header in der API-Antwort beobachten, um festzustellen, ob Anfragen häufig auf standard herabgestuft werden.
  • Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für Standardfehler wie DEADLINE_EXCEEDED implementieren.

Preise

Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.

Unterstützte Modelle

Die folgenden Modelle unterstützen die Prioritätsinferenz:

Modell Prioritätsinferenz
Gemini 3.5 Flash ✔️
Gemini 3.1 Flash Lite ✔️
Gemini 3.1 Pro (Vorabversion) ✔️
Gemini 3 Flash (Vorabversion) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Lite ✔️

Nächste Schritte