Testen Sie das neue Modell Gemini 3.1 Flash TTS Preview für die expressive, mehrsprachige Sprachgenerierung.

Gemini API – Optimierung und Inferenz

Die Gemini API bietet eine Vielzahl von Optimierungsmechanismen, mit denen Sie Geschwindigkeit, Kosten und Zuverlässigkeit an die Anforderungen Ihrer jeweiligen Arbeitslast anpassen können. Ganz gleich, ob Sie Konversationsbots in Echtzeit entwickeln oder umfangreiche Offline-Pipelines für die Datenverarbeitung ausführen – die Wahl des richtigen Paradigmas kann die Kosten erheblich senken oder die Leistung steigern.

Funktion	Standard	Flex	Priorität	Batch	Caching
Preise	Standardpreis	50% Rabatt	75% bis 100% mehr als Standard	50% Rabatt	90% Rabatt + anteilige Speicherung von Tokens
Latenz	Sekunden bis Minuten	Minuten (Ziel: 1–15 Minuten)	Sekunden	Bis zu 24 Stunden	Schnellere Zeit bis zum ersten Token
Zuverlässigkeit	Hoch / Mittel bis hoch	Best-Effort-Ansatz (reduzierbar)	Hoch (nicht entfernbar)	Hoch (für Durchsatz)	–
Schnittstelle	Synchron	Synchron	Synchron	Asynchron	Gespeicherter Status
Geeigneter Anwendungsfall	Allgemeine Anwendungs-Workflows	Nicht dringende sequenzielle Ketten	Produktions-Apps für Nutzer	Umfangreiche Datasets, Offline-Auswertungen	Wiederkehrende Abfragen derselben Datei

Dienststufen für Inferenz (synchron)

Sie können zwischen zuverlässigkeits- und kostenoptimiertem synchronen Traffic wechseln, indem Sie den Parameter service_tier in Ihren Standardgenerierungsaufrufen übergeben.

Standardinferenz (Standardeinstellung)

Die Standardstufe ist die Standardoption für die sequenzielle Inhaltserstellung. Sie erhalten normale Reaktionszeiten ohne zusätzliche Prämien oder lange Wartezeiten.

Zuverlässigkeit:Standardkritikalität
Preis:Standardpreise.
Am besten geeignet für:die meisten interaktiven Alltagsanwendungen.

Prioritätsinferenz (für Latenz optimiert)

Bei der Verarbeitung mit Priorität werden Ihre Anfragen an Rechenwarteschlangen mit hoher Kritikalität weitergeleitet. Dieser Traffic ist nicht unterbrechbar (wird nie durch andere Stufen unterbrochen) und bietet die höchste Zuverlässigkeit. Wenn Sie die dynamischen Prioritätslimits überschreiten, wird die Anfrage vom System auf die Standardverarbeitung herabgestuft, anstatt dass ein Fehler auftritt.

Zuverlässigkeit:Höchste Kritikalität
Preis:75% bis 100% über den Standardpreisen.
Am besten geeignet für:Kunden-Chatbots, Echtzeit-Betrugserkennung und geschäftskritische Copiloten.

Flex-Inferenz (kostenoptimiert)

Flex Inference bietet einen Rabatt von 50% im Vergleich zu Standardpreisen, da opportunistische Compute-Kapazität außerhalb der Spitzenzeiten genutzt wird. Anfragen werden synchron verarbeitet. Sie müssen also keinen Code neu schreiben, um Batch-Objekte zu verwalten. Da es sich um „sheddable“ Traffic handelt, können Anfragen bei normalen Traffic-Spitzen im System unterbrochen werden.

Zuverlässigkeit:Nicht garantiert, unterbrechungsfähig
Preis:50% des Standardpreises (Abrechnung pro Token).
Optimal für:Agentenbasierte Workflows mit mehreren Schritten, bei denen der Aufruf N+1 vom Ergebnis des Aufrufs N, von CRM-Updates im Hintergrund und von Offlinebewertungen abhängt.

Batch API (Bulk, asynchron)

Die Batch API wurde für die asynchrone Verarbeitung großer Mengen von Anfragen zu 50% der Standardkosten entwickelt. Sie können Anfragen entweder als Inline-Dictionaries oder über eine JSONL-Eingabedatei (bis zu 2 GB) senden. Anfragen werden über Hintergrund-Durchsatzwarteschlangen mit einer angestrebten Bearbeitungszeit von 24 Stunden verarbeitet.

Zuverlässigkeit:Kann unterbrochen werden, aber mit automatischen Wiederholungsversuchen alle 24 Stunden und einem Warteschlangensystem
Preis:50% des Standardpreises.
Am besten geeignet für:Vorverarbeitung großer Datasets, Ausführung regelmäßiger Regressions-Testsuites und Generierung großer Mengen von Bildern oder Einbettungen.

Kontext-Caching (Einsparungen bei der Eingabe)

Kontext-Caching wird verwendet, wenn in kürzeren Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird.

Implizites Caching:Automatisch für Gemini 2.5 und neuere Modelle aktiviert. Das System gibt Kosteneinsparungen weiter, wenn Ihre Anfrage auf vorhandene Caches auf Grundlage gängiger Prompt-Präfixe trifft.
Explizites Caching:Sie können manuell ein Cache-Objekt mit einer bestimmten Gültigkeitsdauer (Time-To-Live, TTL) erstellen. Nachdem Sie die gecachten Tokens erstellt haben, können Sie in nachfolgenden Anfragen darauf verweisen, um zu vermeiden, dass dieselbe Corpus-Nutzlast wiederholt übergeben wird.
Preis:Die Abrechnung erfolgt auf Grundlage der Anzahl der Cache-Tokens und der Speicherdauer (TTL).
Am besten geeignet für:Chatbots mit ausführlichen Systemanweisungen, wiederholte Analysen langer Videodateien oder Abfragen großer Dokumentgruppen.