L'API Gemini Priority est un niveau d'inférence premium conçu pour les charges de travail critiques qui nécessitent une latence plus faible et une fiabilité maximale, à un prix premium. Le trafic de niveau Priorité est prioritaire sur le trafic de niveau Standard et Flex.
L'inférence de priorité est disponible pour les utilisateurs de niveau 2 et 3 dans les points de terminaison de l'API GenerateContent et de l'API Interactions.
Utiliser la priorité
Pour utiliser le niveau de priorité, définissez le champ service_tier dans le corps de la requête sur priority. Si le champ est omis, le niveau par défaut est "standard".
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
Fonctionnement de l'inférence prioritaire
L'inférence prioritaire achemine les requêtes vers des files d'attente de calcul de haute criticité, ce qui permet d'obtenir des performances rapides et prévisibles pour les applications destinées aux utilisateurs. Son mécanisme principal est une rétrogradation côté serveur vers un traitement standard pour le trafic qui dépasse les limites dynamiques, ce qui garantit la stabilité de l'application au lieu de faire échouer la requête.
| Fonctionnalité | Priorité | Standard | Flex | Lot |
|---|---|---|---|---|
| Tarifs | 75 à 100% de plus que Standard | Plein tarif | 50% de remise | 50% de remise |
| Latence | Secondes | De secondes à minutes | Minutes (objectif de 1 à 15 min) | Jusqu'à 24 heures |
| Fiabilité | Élevée (non amovible) | Élevée / Moyenne-haute | Optimisation limitée (désactivable) | Élevée (pour le débit) |
| Interface | Synchrone | Synchrone | Synchrone | Asynchrone |
Principaux avantages
- Faible latence : conçu pour des temps de réponse de l'ordre de la seconde pour les outils d'IA interactifs destinés aux utilisateurs.
- Fiabilité élevée : le trafic est traité avec la plus haute criticité et ne peut en aucun cas être abandonné.
- Dégradation élégante : les pics de trafic dépassant les limites dynamiques sont automatiquement rétrogradés au niveau Standard pour être traités au lieu d'échouer, ce qui évite les interruptions de service.
- Friction réduite : utilise la même méthode
generateContentsynchrone que les niveaux Standard et Flex.
Cas d'utilisation
Le traitement prioritaire est idéal pour les workflows critiques pour l'entreprise, où les performances et la fiabilité sont primordiales.
- Applications d'IA interactives : chatbots et copilotes du service client où les utilisateurs paient un supplément et s'attendent à des réponses rapides et cohérentes.
- Moteurs de décision en temps réel : systèmes nécessitant des résultats très fiables et à faible latence, comme le triage des tickets en direct ou la détection des fraudes.
- Fonctionnalités Premium pour les clients : pour les développeurs qui doivent garantir des objectifs de niveau de service (SLO) plus élevés pour les clients payants.
Limites de débit
La consommation prioritaire possède ses propres limites de débit, même si la consommation est comptabilisée dans les limites de débit du trafic interactif global. Les limites de débit par défaut pour l'inférence prioritaire sont 0,3 fois la limite de débit standard pour le modèle / le niveau.
Logique de rétrogradation progressive
Si les limites de priorité sont dépassées en raison de la congestion, les demandes excédentaires sont automatiquement et correctement rétrogradées au traitement standard au lieu d'échouer avec une erreur 503 ou 429. Les demandes rétrogradées sont facturées au tarif standard, et non au tarif premium Priority.
Responsabilité du client
- Surveillance des réponses : les développeurs doivent surveiller l'en-tête
x-gemini-service-tierdans la réponse de l'API pour détecter si les requêtes sont fréquemment rétrogradées àstandard. - Nouvelles tentatives : les clients doivent implémenter une logique de nouvelle tentative/un intervalle exponentiel entre les tentatives pour les erreurs standards, telles que
DEADLINE_EXCEEDED.
Tarifs
L'inférence prioritaire coûte 75 à 100% de plus que l'API standard et est facturée par jeton.
Modèles compatibles
Les modèles suivants sont compatibles avec l'inférence prioritaire :
| Modèle | Inférence de la priorité |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Aperçu de Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro (preview) | ✔️ |
| Preview Gemini 3 Flash | ✔️ |
| Aperçu de l'image Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Image Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Étape suivante
Découvrez les autres options d'inférence et d'optimisation de Gemini :
- Flex Inference pour réduire les coûts de 50 %.
- L'API Batch pour le traitement asynchrone sous 24 heures.
- Mise en cache du contexte pour réduire les coûts liés aux jetons d'entrée.