La recherche approfondie Gemini est désormais disponible en preview avec la planification collaborative, la visualisation, la compatibilité MCP et plus encore.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inférence prioritaire

Remarque : Cette version de la page couvre la nouvelle API Interactions, qui est actuellement en version bêta.
Pour les déploiements de production stables, nous vous recommandons de continuer à utiliser l'API generateContent. Vous pouvez utiliser le bouton bascule de cette page pour passer d'une version à l'autre.

L'API Gemini Priority est un niveau d'inférence premium conçu pour les charges de travail critiques qui nécessitent une latence plus faible et une fiabilité maximale à un prix premium. Le trafic du niveau Priority est prioritaire sur le trafic des niveaux Standard et Flex de l'API.

L'inférence prioritaire est disponible sur tous les points de terminaison de l'API Interactions.

Utiliser la priorité

Pour utiliser le niveau Priority, définissez le champ service_tier de votre requête sur priority. Le niveau par défaut est Standard si le champ est omis.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Fonctionnement de l'inférence prioritaire

L'inférence prioritaire achemine les requêtes vers des files d'attente de calcul à haute criticité, offrant des performances rapides et prévisibles pour les applications destinées aux utilisateurs. Son mécanisme principal est une rétrogradation progressive côté serveur vers le traitement standard pour le trafic qui dépasse les limites dynamiques, ce qui garantit la stabilité de l'application au lieu de faire échouer la requête.

Fonctionnalité	Priorité	Standard	Flex	Lot
Tarifs	75 à 100% de plus que le niveau Standard	Plein tarif	50% de remise	50% de remise
Latence	Secondes	Secondes à minutes	Minutes (1 à 15 minutes cibles)	Jusqu'à 24 heures
Fiabilité	Élevée (non supprimable)	Élevée / Moyenne-élevée	Optimisation limitée (supprimable)	Élevée (pour le débit)
Interface	Synchrone	Synchrone	Synchrone	Asynchrone

Principaux avantages

Faible latence : conçu pour des temps de réponse de l'ordre de la seconde pour les outils d'IA interactifs destinés aux utilisateurs.
Haute fiabilité : le trafic est traité avec la plus haute criticité et n'est strictement pas supprimable.
Dégradation élégante : les pics de trafic dépassant les limites dynamiques sont automatiquement rétrogradés au niveau Standard pour le traitement au lieu d'échouer, ce qui évite les indisponibilités de service.
Faible friction : utilise la même méthode create synchrone que les niveaux Standard et Flex.

Cas d'utilisation

Le traitement prioritaire est idéal pour les workflows critiques où les performances et la fiabilité sont primordiales.

Applications d'IA interactives : chatbots et copilotes de service client où les utilisateurs paient un prix premium et s'attendent à des réponses rapides et cohérentes.
Moteurs de décision en temps réel : systèmes nécessitant des résultats très fiables et à faible latence tels que le tri des demandes d'assistance en direct ou la détection des fraudes.
Fonctionnalités client premium : développeurs qui doivent garantir des objectifs de niveau de service (SLO) plus élevés pour les clients payants.

Limites de débit

La consommation prioritaire a ses propres limites de débit, même si la consommation est comptabilisée dans les limites de débit globales du trafic interactif. Les limites de débit par défaut pour l'inférence prioritaire sont 0,3 fois la limite de débit standard pour le modèle / niveau.

Logique de rétrogradation progressive

Si les limites de priorité sont dépassées en raison d'une congestion, les requêtes en dépassement sont automatiquement et progressivement rétrogradées vers le traitement standard au lieu d'échouer avec une erreur 503 ou 429. Les requêtes rétrogradées sont facturées au tarif standard, et non au tarif premium prioritaire.

Responsabilité du client

Surveillance des réponses : les développeurs doivent surveiller l'x-gemini-service-tier en-tête dans la réponse de l'API pour détecter si les requêtes sont fréquemment rétrogradées vers standard.
Nouvelles tentatives : les clients doivent implémenter une logique de nouvelle tentative/intervalle exponentiel entre les tentatives pour les erreurs standards, telles que DEADLINE_EXCEEDED.

Tarification

L'inférence prioritaire coûte 75 à 100% de plus que l'API standard et est facturée par jeton.

Modèles compatibles

Les modèles suivants sont compatibles avec l'inférence prioritaire :

Modèle	Inférence prioritaire
Gemini 3.1 Flash-Lite	✔️
Preview Gemini 3.1 Flash-Lite	✔️
Preview Gemini 3.1 Pro	✔️
Preview Gemini 3 Flash	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Étape suivante

Inférence Flex pour réduire les coûts.
Jetons : consultez la documentation sur les jetons.