Die Interactions API ist jetzt allgemein verfügbar. Wir empfehlen, diese API zu verwenden, um auf alle aktuellen Funktionen und Modelle zuzugreifen.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kontext-Caching

In einem typischen KI-Workflow werden dieselben Eingabetokens möglicherweise immer wieder an ein Modell übergeben. Die Gemini API bietet implizites Caching zur Optimierung von Leistung und Kosten.

Implizites Caching

Implizites Caching ist standardmäßig für alle Gemini 2.5-Modelle und neuere Modelle aktiviert. Wir geben Kosteneinsparungen automatisch weiter, wenn Ihre Anfrage auf Caches trifft. Sie müssen nichts tun, um diese Funktion zu aktivieren. Die Mindestanzahl von Eingabetokens für das Kontext-Caching ist in der folgenden Tabelle für jedes Modell aufgeführt:

Modell	Mindestanzahl von Tokens
Gemini 3.5 Flash	4.096
Gemini 3.1 Pro (Vorabversion)	4.096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers:

Platzieren Sie große und häufig verwendete Inhalte am Anfang Ihrer Eingabeaufforderung.
Senden Sie Anfragen mit ähnlichem Präfix in kurzer Zeit.

Die Anzahl der Tokens, die Cache-Treffer waren, finden Sie im Feld usage_metadata (Python) oder usageMetadata (JavaScript) des Antwortobjekts.