In einem typischen KI-Workflow werden möglicherweise immer wieder dieselben Eingabetokens an ein Modell übergeben. Die Gemini API bietet implizites Caching, um Leistung und Kosten zu optimieren.
Implizites Caching
Implizites Caching ist standardmäßig für alle Gemini 2.5-Modelle und neuere Modelle aktiviert. Wir geben Kosteneinsparungen automatisch weiter, wenn Ihre Anfrage auf Caches trifft. Sie müssen nichts tun, um diese Funktion zu aktivieren. Die Mindestanzahl an Eingabetokens für das Kontext-Caching ist in der folgenden Tabelle für jedes Modell aufgeführt:
Modell
Mindest-Tokenlimit
Gemini 3.5 Flash
4.096
Gemini 3.1 Pro (Vorabversion)
4.096
Gemini 2.5 Flash
2048
Gemini 2.5 Pro
2048
So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers:
Große und gängige Inhalte am Anfang des Prompts platzieren
Versuchen Sie, Anfragen mit ähnlichem Präfix innerhalb kurzer Zeit zu senden.
Die Anzahl der Tokens, die Cache-Treffer waren, finden Sie im Feld usage_metadata (Python) oder usageMetadata (JavaScript) des Antwortobjekts.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2026-06-02 (UTC)."],[],[]]