mise en cache du contexte

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose une mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et versions ultérieures. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action n'est requise de votre part pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle Limite minimale de jetons
Preview Gemini 3 Flash 1024
Gemini 3 Pro Preview 4096
Gemini 2.0 Flash 1024
Gemini 2.5 Pro 4096

Pour augmenter les chances d'atteindre un succès de cache implicite :

  • Essayez de placer des contenus volumineux et courants au début de votre invite.
  • Essayez d'envoyer des requêtes avec un préfixe similaire dans un court laps de temps.

Vous pouvez voir le nombre de jetons qui ont été mis en cache dans le champ usage_metadata (Python) ou usageMetadata (JavaScript) de l'objet de réponse.