L'API Interactions est désormais en disponibilité générale. Nous vous recommandons d'utiliser cette API pour accéder à toutes les dernières fonctionnalités et tous les derniers modèles.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mise en cache du contexte

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose une mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et ultérieurs. Il est compatible avec les modes de conversation avec état (à l'aide de previous_interaction_id) et sans état. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action n'est requise de votre part pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle	Limite minimale de jetons
Gemini 3.5 Flash	4096
Preview Gemini 3.1 Pro	4096
Gemini 2.0 Flash	2048
Gemini 2.5 Pro	2048

Pour augmenter les chances d'un accès implicite au cache :

Essayez de placer les contenus volumineux et courants au début de votre requête.
Essayer d'envoyer des requêtes avec un préfixe similaire en peu de temps

Vous pouvez voir le nombre de jetons qui ont été des accès au cache dans le champ usage.total_cached_tokens (Python et JavaScript) de l'objet de réponse.