Gemini Deep Research ist jetzt in der Vorabversion mit Funktionen wie gemeinsamer Planung, Visualisierung und MCP-Unterstützung verfügbar.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kontext-Caching

Hinweis: Diese Version der Seite behandelt die neue Interactions API, die sich derzeit in der Betaphase befindet.
Für stabile Produktionsbereitstellungen empfehlen wir, weiterhin die generateContent API zu verwenden. Über die Schaltfläche auf dieser Seite können Sie zwischen den Versionen wechseln.

In einem typischen KI-Workflow übergeben Sie möglicherweise immer wieder dieselben Eingabetokens an ein Modell. Die Gemini API bietet implizites Caching, um Leistung und Kosten zu optimieren.

Implizites Caching

Implizites Caching ist standardmäßig für alle Gemini 2.5-Modelle und neuere Modelle aktiviert. Wir geben Kosteneinsparungen automatisch weiter, wenn Ihre Anfrage auf Caches trifft. Sie müssen nichts tun, um diese Funktion zu aktivieren. Die Mindestanzahl an Eingabetokens für das Kontext-Caching ist in der folgenden Tabelle für jedes Modell aufgeführt:

Modell	Mindestanzahl an Tokens
Gemini 3 Flash (Vorabversion)	1024
Gemini 3 Pro (Vorabversion)	4.096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4.096

So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers:

Platzieren Sie große und häufig verwendete Inhalte am Anfang Ihrer Anfrage.
Senden Sie Anfragen mit ähnlichem Präfix in kurzer Zeit.

Die Anzahl der Tokens, die Cache-Treffer waren, finden Sie im Feld usage_metadata (Python) oder usageMetadata (JavaScript) des Antwortobjekts.