mise en cache du contexte

Dans un workflow d'IA typique, vous pouvez transmettre les mêmes jetons d'entrée à un modèle à plusieurs reprises. L'API Gemini propose une mise en cache implicite pour optimiser les performances et les coûts.

Mise en cache implicite

La mise en cache implicite est activée par défaut pour tous les modèles Gemini 2.5 et ultérieurs. Nous répercutons automatiquement les économies de coûts si votre requête atteint les caches. Aucune action de votre part n'est requise pour activer cette fonctionnalité. Le nombre minimal de jetons d'entrée pour la mise en cache du contexte est indiqué dans le tableau suivant pour chaque modèle :

Modèle Limite de jetons minimale
Gemini 3.5 Flash 1024
Preview Gemini 3 Pro 4096
Gemini 2.0 Flash 1024
Gemini 2.5 Pro 4096

Pour augmenter les chances d'un succès de cache implicite :

  • Essayez de placer les contenus volumineux et courants au début de votre requête.
  • Essayer d'envoyer des requêtes avec un préfixe similaire en peu de temps

Vous pouvez voir le nombre de jetons qui ont été des accès au cache dans le champ usage_metadata (Python) ou usageMetadata (JavaScript) de l'objet de réponse.