La recherche approfondie Gemini est désormais disponible en preview avec la planification collaborative, la visualisation, la compatibilité MCP et plus encore.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inférence de la priorité

L'API Gemini Priority est un niveau d'inférence premium conçu pour les charges de travail critiques qui nécessitent une latence plus faible et une fiabilité maximale à un prix premium. Le trafic du niveau Priority est prioritaire sur le trafic des niveaux Standard et Flex de l'API.

L'inférence Priority est disponible pour les utilisateurs des niveaux 2 et 3 sur les points de terminaison des API GenerateContent et Interactions.

Utiliser Priority

Pour utiliser le niveau Priority, définissez le champ service_tier sur priority dans le corps de la requête. Le niveau par défaut est Standard si le champ est omis.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

Fonctionnement de l'inférence Priority

L'inférence Priority achemine les requêtes vers des files d'attente de calcul hautement critiques, offrant des performances rapides et prévisibles pour les applications destinées aux utilisateurs. Son mécanisme principal est une rétrogradation progressive côté serveur vers le traitement standard pour le trafic qui dépasse les limites dynamiques, ce qui garantit la stabilité de l'application au lieu de faire échouer la requête.

Fonctionnalité	Priorité	Standard	Flex	Lot
Tarifs	75 à 100% de plus que le niveau Standard	Plein tarif	50% de remise	50% de remise
Latence	Secondes	De quelques secondes à quelques minutes	Minutes (cible de 1 à 15 minutes)	Jusqu'à 24 heures
Fiabilité	Élevée (non supprimable)	Élevée / Moyenne haute	Optimisation limitée (supprimable)	Élevée (pour le débit)
Interface	Synchrone	Synchrone	Synchrone	Asynchrone

Principaux avantages

Faible latence : conçu pour des temps de réponse de quelques secondes pour les outils d'IA interactifs, destinés aux utilisateurs.
Haute fiabilité : le trafic est traité avec la plus haute criticité et n'est absolument pas supprimable.
Dégradation élégante : les pics de trafic dépassant les limites dynamiques sont automatiquement rétrogradés au niveau Standard pour le traitement au lieu d'échouer, ce qui évite les indisponibilités de service.
Faible friction : utilise la même méthode synchrone generateContent que les niveaux Standard et Flex.

Cas d'utilisation

Le traitement Priority est idéal pour les workflows critiques où les performances et la fiabilité sont primordiales.

Applications d'IA interactives : chatbots et copilotes de service client où les utilisateurs paient un prix premium et s'attendent à des réponses rapides et cohérentes.
Moteurs de décision en temps réel : systèmes nécessitant des résultats très fiables et à faible latence tels que le tri des tickets en direct ou la détection des fraudes.
Fonctionnalités client premium : développeurs qui doivent garantir des objectifs de niveau de service (SLO) plus élevés pour les clients payants.

Limites de débit

La consommation Priority a ses propres limites de débit, même si la consommation est comptabilisée dans les limites de débit globales du trafic interactif. Les limites de débit par défaut pour l'inférence Priority sont 0,3 fois la limite de débit standard pour le modèle / niveau.

Logique de rétrogradation progressive

Si les limites Priority sont dépassées en raison d'une congestion, les requêtes en dépassement sont automatiquement et progressivement rétrogradées vers le traitement Standard au lieu d'échouer avec une erreur 503 ou 429. Les requêtes rétrogradées sont facturées au tarif standard, et non au tarif premium Priority.

Responsabilité du client

Surveillance des réponses : les développeurs doivent surveiller l'x-gemini-service-tier en-tête dans la réponse de l'API pour détecter si les requêtes sont fréquemment rétrogradées vers standard.
Nouvelles tentatives : les clients doivent implémenter une logique de nouvelles tentatives/intervalle exponentiel entre les tentatives pour les erreurs standards, telles que DEADLINE_EXCEEDED.

Tarification

L'inférence Priority coûte 75 à 100% de plus que l'API standard et est facturée par jeton.

Modèles compatibles

Les modèles suivants sont compatibles avec l'inférence Priority :

Modèle	Inférence Priority
Gemini 3.1 Flash-Lite	✔️
Preview Gemini 3.1 Flash-Lite	✔️
Preview Gemini 3.1 Pro	✔️
Preview Gemini 3 Flash	✔️
Preview Gemini 3 Pro Image	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Image	✔️
Gemini 2.5 Flash-Lite	✔️

Étape suivante

Découvrez les autres options d' inférence et d'optimisation de Gemini :

Inférence Flex pour une réduction des coûts de 50 %
API Batch pour un traitement asynchrone sous 24 heures
Mise en cache du contexte pour réduire les coûts liés aux jetons d'entrée