L'API Interactions est désormais en disponibilité générale. Nous vous recommandons d'utiliser cette API pour accéder à toutes les dernières fonctionnalités et tous les derniers modèles.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mise en cache du contexte

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose la mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et versions ultérieures. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action n'est requise de votre part pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle	Limite minimale de jetons
Gemini 3.5 Flash	4096
Preview Gemini 3.1 Pro	4096
Gemini 2.0 Flash	2048
Gemini 2.5 Pro	2048

Pour augmenter les chances d'atteindre un succès de cache implicite :

Essayez de placer des contenus volumineux et courants au début de votre invite.
Essayez d'envoyer des requêtes avec un préfixe similaire dans un court laps de temps.

Vous pouvez voir le nombre de jetons qui ont été mis en cache dans le champ usage_metadata (Python) ou usageMetadata (JavaScript) de l'objet de réponse.