La recherche approfondie Gemini est désormais disponible en preview avec la planification collaborative, la visualisation, la compatibilité MCP et plus encore.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

mise en cache du contexte

Remarque : Cette version de la page couvre la nouvelle API Interactions, qui est actuellement en version bêta.
Pour les déploiements de production stables, nous vous recommandons de continuer à utiliser l'API generateContent. Vous pouvez utiliser le bouton bascule sur cette page pour passer d'une version à l'autre.

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose une mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et ultérieurs. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action de votre part n'est requise pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle	Limite de jetons minimale
Gemini 3.5 Flash	1024
Preview Gemini 3 Pro	4096
Gemini 2.0 Flash	1024
Gemini 2.5 Pro	4096

Pour augmenter les chances d'un succès de cache implicite :

Essayez de placer les contenus volumineux et courants au début de votre requête.
Essayer d'envoyer des requêtes avec un préfixe similaire en peu de temps

Vous pouvez voir le nombre de jetons qui ont été des accès au cache dans le champ usage_metadata (Python) ou usageMetadata (JavaScript) de l'objet de réponse.