Inférence de la priorité

L'API Gemini Priority est un niveau d'inférence premium conçu pour les charges de travail critiques qui nécessitent une latence plus faible et une fiabilité maximale à un prix premium. Le trafic du niveau Priority est prioritaire sur le trafic des niveaux Standard et Flex de l'API.

L'inférence Priority est disponible pour les utilisateurs des niveaux 2 et 3 sur les points de terminaison de l'API GenerateContent et de l'API Interactions.

Utiliser Priority

Pour utiliser le niveau Priority, définissez le champ service_tier dans le corps de la requête sur SERVICE_TIER_PRIORITY. Le niveau par défaut est Standard si le champ est omis.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'SERVICE_TIER_PRIORITY'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

En JavaScript, la rétrogradation est gérée automatiquement par la bibliothèque cliente. Si la capacité est dépassée, une erreur est renvoyée ou la requête est traitée au niveau Standard. L'objet de réponse n'expose pas directement les en-têtes pour vérifier la rétrogradation.

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

En Go, la rétrogradation est gérée automatiquement par la bibliothèque cliente. Si la capacité est dépassée, une erreur est renvoyée ou la requête est traitée au niveau Standard. L'objet de réponse n'expose pas directement les en-têtes pour vérifier la rétrogradation.

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Fonctionnement de l'inférence Priority

L'inférence Priority achemine les requêtes vers des files d'attente de calcul à haute criticité, offrant des performances prévisibles et rapides pour les applications destinées aux utilisateurs. Son mécanisme principal est une rétrogradation progressive côté serveur vers le traitement standard pour le trafic qui dépasse les limites dynamiques, ce qui garantit la stabilité de l'application au lieu de faire échouer la requête.

Fonctionnalité Priorité Standard Flex Lot
Tarifs 75 à 100 % de plus que le niveau Standard Plein tarif 50 % de remise 50 % de remise
Latence Faible (secondes) De quelques secondes à quelques minutes Quelques minutes (cible de 1 à 15 minutes) Jusqu'à 24 heures
Fiabilité Élevée (non supprimable) Élevée / Moyenne-élevée Au mieux (supprimable) Élevée (pour le débit)
Interface Synchrone Synchrone Synchrone Asynchrone

Principaux avantages

  • Faible latence : conçu pour des temps de réponse de l'ordre de la milliseconde à la seconde pour les outils d'IA interactifs destinés aux utilisateurs.
  • Haute fiabilité : le trafic est traité avec la plus haute criticité et n'est absolument pas supprimable.
  • Dégradation progressive : les pics de trafic dépassant les limites dynamiques sont automatiquement rétrogradés au niveau Standard pour le traitement au lieu d'échouer, ce qui évite les pannes de service.
  • Faible friction : utilise la même méthode synchrone generateContent que les niveaux Standard et Flex.

Cas d'utilisation

Le traitement Priority est idéal pour les workflows critiques où les performances et la fiabilité sont primordiales.

  • Applications d'IA interactives : chatbots et copilotes de service client où les utilisateurs paient un prix premium et s'attendent à des réponses rapides et cohérentes.
  • Moteurs de décision en temps réel : systèmes nécessitant des résultats très fiables et à faible latence tels que le tri des demandes d'assistance en direct ou la détection des fraudes.
  • Fonctionnalités client premium : développeurs qui doivent garantir des objectifs de niveau de service (SLO) plus élevés pour les clients payants.

Limites de débit

La consommation Priority a ses propres limites de débit, même si la consommation est comptabilisée dans les limites de débit globales du trafic interactif. Les limites de débit par défaut pour l'inférence Priority sont 0,3 fois la limite de débit standard pour le modèle / niveau.

Logique de rétrogradation progressive

Si les limites Priority sont dépassées en raison d'une congestion, les requêtes en dépassement sont automatiquement et progressivement rétrogradées vers le traitement Standard au lieu d'échouer avec une erreur 503 ou 429. Les requêtes rétrogradées sont facturées au tarif standard, et non au tarif premium Priority.

Responsabilité du client

  • Surveillance des réponses : les développeurs doivent surveiller la valeur service_tier dans le corps de la réponse de l’API pour détecter si les requêtes sont fréquemment rétrogradées vers standard.
  • Nouvelles tentatives : les clients doivent implémenter une logique de nouvelles tentatives/intervalle exponentiel entre les tentatives pour les erreurs standards, telles que DEADLINE_EXCEEDED.

Tarifs

L'inférence Priority coûte 75 à 100 % de plus que l'API standard et est facturée par jeton.

Modèles compatibles

Les modèles suivants sont compatibles avec l'inférence Priority :

Modèle Inférence Priority
Gemini 3.1 Flash-Lite (preview) ✔️
Gemini 3.1 Pro (preview) ✔️
Gemini 3 Flash (preview) ✔️
Gemini 3 Pro Image (preview) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

Étape suivante

Découvrez les autres options d' inférence et d'optimisation de Gemini :