Die Gemini API bietet eine Vielzahl von Optimierungsmechanismen, mit denen Sie Geschwindigkeit, Kosten und Zuverlässigkeit basierend auf den spezifischen Anforderungen Ihrer Arbeitslasten in Einklang bringen können. Ob Sie nun Konversationsbots in Echtzeit entwickeln oder umfangreiche Offline-Datenverarbeitungspipelines ausführen – die Wahl des richtigen Paradigmas kann die Kosten erheblich senken oder die Leistung steigern.
| Funktion | Standard | Flex | Priorität | Batch | Caching |
|---|---|---|---|---|---|
| Preise | Standardpreis | 50% Rabatt | 75% bis 100% mehr als Standard | 50% Rabatt | Anteilsmäßige Speicherung von Tokens |
| Latenz | Sekunden bis Minuten | Minuten (Ziel: 1–15 Minuten) | Niedrig (Sekunden) | Bis zu 24 Stunden | Schnellere Zeit bis zum ersten Token |
| Zuverlässigkeit | Hoch / Mittel bis hoch | Best-Effort-Ansatz (kann unterbrochen werden) | Hoch (kann nicht unterbrochen werden) | Hoch (für Durchsatz) | – |
| Schnittstelle | Synchron | Synchron | Synchron | Asynchron | Gespeicherter Status |
| Bester Anwendungsfall | Allgemeine Anwendungs-Workflows | Nicht dringende sequenzielle Ketten | Produktions- und nutzerorientierte Apps | Umfangreiche Datasets, Offline-Bewertungen | Wiederkehrende Abfragen derselben Datei |
Dienstleistungsvarianten für Inferenz (synchron)
Sie können zwischen latenzoptimiertem und kostenoptimiertem synchronem Traffic wechseln, indem Sie den Parameter service_tier in Ihren Standardgenerierungsaufrufen übergeben.
Standardinferenz (Standardeinstellung)
Die Standardvariante ist die Standardoption für die sequenzielle Inhaltserstellung. Sie bietet normale Reaktionszeiten ohne zusätzliche Aufschläge oder lange Warteschlangen.
- Latenz:Sekunden bis Minuten
- Preis:Standardpreise
- Am besten geeignet für:Die meisten interaktiven Alltagsanwendungen
Prioritätsinferenz (latenzoptimiert)
Bei der Prioritätsverarbeitung werden Ihre Anfragen an Rechenwarteschlangen mit hoher Priorität weitergeleitet. Dieser Traffic kann nicht unterbrochen werden (wird nie von anderen Varianten unterbrochen) und bietet die höchste Zuverlässigkeit. Wenn Sie die dynamischen Prioritätslimits überschreiten, wird die Anfrage vom System auf die Standardverarbeitung herabgestuft, anstatt dass ein Fehler auftritt.
- Latenz:Sehr niedrig (Millisekunden bis Sekunden)
- Preis:75% bis 100% über den Standardpreisen
- Am besten geeignet für:Live-Chatbots für Kunden, Betrugserkennung in Echtzeit und geschäftskritische Copiloten
Flexible Inferenz (kostenoptimiert)
Die flexible Inferenz bietet einen Rabatt von 50% im Vergleich zu den Standardpreisen, da opportunistische Rechenkapazität außerhalb der Spitzenzeiten genutzt wird. Anfragen werden synchron verarbeitet. Sie müssen also keinen Code neu schreiben, um Batchobjekte zu verwalten. Da es sich um „unterbrechbaren“ Traffic handelt, können Anfragen unterbrochen werden, wenn im System Standard-Trafficspitzen auftreten.
- Latenz : Nicht garantiert, Ziel: 1 bis 15 Minuten
- Preis:50% des Standardpreises (Abrechnung pro Token)
- Am besten geeignet für:Mehrstufige agentenbasierte Workflows, bei denen der Aufruf N+1 von der Ausgabe des Aufrufs N abhängt, CRM-Updates im Hintergrund und Offline-Bewertungen
Batch API (Bulk, asynchron)
Die Batch API wurde entwickelt, um große Mengen von Anfragen asynchron zu 50% der Standardkosten zu verarbeiten. Sie können Anfragen entweder als Inline-Wörterbücher oder mit einer JSONL-Eingabedatei (bis zu 2 GB) senden. Anfragen werden mit Hintergrund-Durchsatzwarteschlangen mit einer Zielbearbeitungszeit von 24 Stunden verarbeitet.
- Latenz:Hoch (bis zu 24 Stunden)
- Preis:50% des Standardpreises
- Am besten geeignet für:Vorverarbeitung großer Datasets, Ausführung regelmäßiger Regressionstest-Suites und Erstellung großer Mengen von Bildern oder Einbettungen
Kontext-Caching (Einsparungen bei der Eingabe)
Kontext-Caching wird verwendet, wenn in kürzeren Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird.
- Implizites Caching:Automatisch für Gemini 2.5 und neuere Modelle aktiviert Das System gibt Kosteneinsparungen weiter, wenn Ihre Anfrage vorhandene Caches auf Grundlage gängiger Prompt-Präfixe trifft.
- Explizites Caching:Sie können manuell ein Cacheobjekt mit einer bestimmten Gültigkeitsdauer (Time-To-Live, TTL) erstellen. Nach der Erstellung können Sie für nachfolgende Anfragen auf die im Cache gespeicherten Tokens verweisen, um nicht wiederholt dieselbe Corpus-Nutzlast zu übergeben.
- Preis:Abrechnung basierend auf der Anzahl der Cache-Tokens und der Speicherdauer (TTL)
- Am besten geeignet für:Chatbots mit ausführlichen Systemanweisungen, wiederholte Analysen langer Videodateien oder Abfragen großer Dokumentgruppen