L'API Gemini propose différents mécanismes d'optimisation pour vous aider à équilibrer la vitesse, le coût et la fiabilité en fonction des besoins spécifiques de votre charge de travail. Que vous créiez des bots conversationnels en temps réel ou que vous exécutiez des pipelines de traitement de données hors connexion lourds, le choix du bon paradigme peut réduire considérablement les coûts ou améliorer les performances.
| Fonctionnalité | Standard | Flex | Priorité | Lot | Mise en cache |
|---|---|---|---|---|---|
| Tarifs | Plein tarif | 50 % de remise | 75 à 100 % de plus que le tarif standard | 50 % de remise | Stockage des jetons au prorata |
| Latence | De quelques secondes à quelques minutes | Quelques minutes (1 à 15 minutes) | Faible (quelques secondes) | Jusqu'à 24 heures | Délai d'émission du premier jeton raccourci |
| Fiabilité | Élevée / Moyenne haute | Optimisation limitée (supprimable) | Élevée (non supprimable) | Élevée (pour le débit) | N/A |
| Interface | Synchrone | Synchrone | Synchrone | Asynchrone | État enregistré |
| Cas d'utilisation recommandé | Workflows d'application généraux | Chaînes séquentielles non urgentes | Applications de production visibles par les utilisateurs | Ensembles de données volumineux, évaluations hors connexion | Requêtes récurrentes sur le même fichier |
Niveaux de service d'inférence (synchrone)
Vous pouvez passer d'un trafic synchrone optimisé pour la latence à un trafic synchrone optimisé pour les coûts en transmettant le paramètre service_tier dans vos appels de génération standards.
Inférence standard (par défaut)
Le niveau standard est l'option par défaut pour la génération de contenu séquentiel. Il offre des temps de réponse normaux sans frais supplémentaires ni mise en file d'attente importante.
- Latence : de quelques secondes à quelques minutes.
- Prix : tarification standard.
- Recommandé pour : la plupart des applications interactives quotidiennes.
Inférence prioritaire (optimisée pour la latence)
Le traitementprioritaire achemine vos requêtes vers des files d'attente de calcul à haute criticité. Ce trafic est strictement non supprimable (il n'est jamais préempté par d'autres niveaux) et offre la plus haute fiabilité. Si vous dépassez les limites dynamiques de priorité, le système rétrogradera gracieusement la requête vers un traitement standard au lieu d'échouer avec une erreur.
- Latence : très faible (de quelques millisecondes à quelques secondes).
- Prix : 75 à 100 % de plus que les tarifs standards.
- Recommandé pour : les chatbots clients en direct, la détection de fraude en temps réel et les copilotes essentiels à l'entreprise.
Inférence flexible (optimisée pour les coûts)
L'inférence flexible offre une remise de 50 % par rapport aux tarifs standards en utilisant une capacité de calcul opportuniste en dehors des heures de pointe. Les requêtes sont traitées de manière synchrone, ce qui signifie que vous n'avez pas besoin de réécrire le code pour gérer les objets par lot. Comme il s'agit d'un trafic "supprimable", les requêtes peuvent être préemptées si le système connaît des pics de trafic standards.
- Latence : non garantie, cible de 1 à 15 minutes.
- Prix : 50 % de la tarification standard (facturé par jeton).
- Recommandé pour : les workflows d'agent en plusieurs étapes où l'appel N+1 dépend de la sortie de l'appel N, les mises à jour CRM en arrière-plan et les évaluations hors connexion.
API Batch (en bloc, asynchrone)
L'API Batch est conçue pour traiter de grands volumes de requêtes de manière asynchrone à 50 % du coût standard. Vous pouvez envoyer des requêtes sous forme de dictionnaires intégrés ou à l'aide d'un fichier d'entrée JSONL (jusqu'à 2 Go). Elle traite les requêtes à l'aide de files d'attente de débit en arrière-plan avec un délai de traitement cible de 24 heures.
- Latence : élevée (jusqu'à 24 heures).
- Prix : 50 % de la tarification standard.
- Recommandé pour : le prétraitement d'ensembles de données volumineux, l'exécution de suites de tests de régression périodiques et la génération d'images ou d'embeddings à volume élevé.
Mise en cache du contexte (économies sur les entrées)
La mise en cache du contexte est utilisée lorsqu'un contexte initial important est référencé à plusieurs reprises par des requêtes plus courtes.
- Mise en cache implicite : activée automatiquement sur les modèles Gemini 2.5 et versions ultérieures. Le système répercute les économies si votre requête atteint des caches existants en fonction de préfixes d'invite courants.
- Mise en cache explicite : vous pouvez créer manuellement un objet de cache avec une valeur TTL (Time-To-Live) spécifique. Une fois créé, vous référencez les jetons mis en cache pour les requêtes suivantes afin d'éviter de transmettre le même corpus de charge utile à plusieurs reprises.
- Prix : facturé en fonction du nombre de jetons mis en cache et de la durée de stockage (TTL).
- Recommandé pour : les chatbots avec des instructions système détaillées, l'analyse répétitive de longs fichiers vidéo ou les requêtes sur des ensembles de documents volumineux.