Mise en cache du contexte

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose la mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et versions ultérieures. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action n'est requise de votre part pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle Limite minimale de jetons
Gemini 3.5 Flash 4096
Preview Gemini 3.1 Pro 4096
Gemini 2.0 Flash 2048
Gemini 2.5 Pro 2048

Pour augmenter les chances d'atteindre un succès de cache implicite :

  • Essayez de placer des contenus volumineux et courants au début de votre invite.
  • Essayez d'envoyer des requêtes avec un préfixe similaire dans un court laps de temps.

Vous pouvez voir le nombre de jetons qui ont été mis en cache dans le champ usage_metadata (Python) ou usageMetadata (JavaScript) de l'objet de réponse.