Gemini Deep Research ist jetzt in der Vorabversion mit Funktionen wie gemeinsamer Planung, Visualisierung und MCP-Unterstützung verfügbar.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Prioritätsinferenz

Hinweis: Diese Version der Seite behandelt die neue Interactions API, die sich derzeit in der Betaphase befindet.
Für stabile Produktionsbereitstellungen empfehlen wir, weiterhin die generateContent API zu verwenden. Über die Schaltfläche auf dieser Seite können Sie zwischen den Versionen wechseln.

Die Gemini Priority API ist eine Premium-Inferenzstufe, die für geschäftskritische Arbeitslasten entwickelt wurde, die eine geringere Latenz und höchste Zuverlässigkeit erfordern. Sie ist zu einem Premiumpreis verfügbar. Der Traffic der Prioritätsstufe wird gegenüber dem Traffic der Standard-API und der Flex-Stufe priorisiert.

Die Prioritätsinferenz ist für alle Endpunkte der Interactions API verfügbar.

Priorität verwenden

Wenn Sie die Prioritätsstufe verwenden möchten, legen Sie das Feld service_tier in Ihrer Anfrage auf priority fest. Wenn das Feld ausgelassen wird, ist die Standardstufe die Standardeinstellung.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Funktionsweise der Prioritätsinferenz

Bei der Prioritätsinferenz werden Anfragen an Rechenwarteschlangen mit hoher Priorität weitergeleitet, was eine vorhersehbare, schnelle Leistung für nutzerorientierte Anwendungen ermöglicht. Der primäre Mechanismus ist ein ordnungsgemäßes serverseitiges Downgrade auf die Standardverarbeitung für Traffic, der dynamische Limits überschreitet. So wird die Anwendungsstabilität gewährleistet, anstatt die Anfrage abzulehnen.

Funktion	Priorität	Standard	Flex	Batch
Preise	75–100% mehr als Standard	Standardpreis	50% Rabatt	50% Rabatt
Latenz	Sekunden	Sekunden bis Minuten	Minuten (Ziel: 1–15 Minuten)	Bis zu 24 Stunden
Zuverlässigkeit	Hoch (nicht abwerfbar)	Hoch / mittel bis hoch	Best-Effort-Ansatz (abwerfbar)	Hoch (für Durchsatz)
Schnittstelle	Synchron	Synchron	Synchron	Asynchron

Hauptvorteile

Geringe Latenz: Entwickelt für Reaktionszeiten im Sekundenbereich für interaktive, nutzerorientierte KI-Tools.
Hohe Zuverlässigkeit: Traffic wird mit höchster Priorität behandelt und ist nicht abwerfbar.
Graceful Degradation: Trafficspitzen, die dynamische Limits überschreiten, werden automatisch auf die Standardstufe für die Verarbeitung herabgestuft, anstatt abzulehnen. So werden Dienstausfälle verhindert.
Geringe Reibung: Verwendet dieselbe synchrone create Methode wie die Standard- und Flex-Stufen.

Anwendungsfälle

Die Prioritätsverarbeitung ist ideal für geschäftskritische Arbeitsabläufe, bei denen Leistung und Zuverlässigkeit von größter Bedeutung sind.

Interaktive KI-Anwendungen: Kundenservice-Chatbots und -Copiloten, bei denen Nutzer einen Aufpreis zahlen und schnelle, konsistente Antworten erwarten.
Entscheidungsmaschinen in Echtzeit: Systeme, die hochzuverlässige Ergebnisse mit geringer Latenz erfordern, z. B. Live-Ticket-Triage oder Betrugserkennung.
Premium-Kundenfunktionen: Entwickler, die höhere Service Level Objectives (SLOs) für zahlende Kunden garantieren müssen.

Ratenlimits

Für die Prioritätsnutzung gelten eigene Ratenlimits, auch wenn die Nutzung auf die allgemeinen Ratenlimits für interaktiven Traffic angerechnet wird. Die Standardratenlimits für die Prioritätsinferenz sind 0,3-mal das Standardratenlimit für Modell / Stufe.

Logik für ordnungsgemäßes Downgrade

Wenn die Prioritätslimits aufgrund von Überlastung überschritten werden, werden Überlauflimits automatisch und ordnungsgemäß auf die Standardverarbeitung herabgestuft, anstatt mit einem 503- oder 429-Fehler abzulehnen. Herabgestufte Anfragen werden zum Standardpreis und nicht zum Premiumpreis für die Prioritätsstufe abgerechnet.

Verantwortung des Clients

Monitoring der Antworten: Entwickler sollten den x-gemini-service-tier Header in der API-Antwort beobachten, um festzustellen, ob Anfragen häufig auf standard herabgestuft werden.
Wiederholungen: Clients müssen eine Wiederholungslogik/einen exponentiellen Backoff für Standardfehler wie DEADLINE_EXCEEDED implementieren.

Preise

Die Prioritätsinferenz kostet 75–100% mehr als die Standard-API und wird pro Token abgerechnet.

Unterstützte Modelle

Die folgenden Modelle unterstützen die Prioritätsinferenz:

Modell	Prioritätsinferenz
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash Lite	✔️
Gemini 3.1 Pro (Vorabversion)	✔️
Gemini 3 Flash (Vorabversion)	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Lite	✔️

Nächste Schritte

Flex-Inferenz zur Kostenreduzierung
Tokens: Informationen zu Tokens