La API de Gemini Priority es un nivel de inferencia premium diseñado para cargas de trabajo críticas para el negocio que requieren una latencia más baja y la mayor confiabilidad a un precio premium. El tráfico del nivel de prioridad tiene prioridad sobre el tráfico de la API estándar y del nivel Flex.
La inferencia de prioridad está disponible para los usuarios de nivel 2 y nivel 3 en los extremos de la API de GenerateContent y la API de Interactions.
Cómo usar la prioridad
Para usar el nivel de prioridad, establece el campo service_tier en priority en el cuerpo de la solicitud. El nivel predeterminado es estándar si se omite el campo.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Cómo funciona la inferencia de prioridad
El enrutamiento de inferencia de prioridad dirige las solicitudes a colas de procesamiento de alta criticidad, lo que ofrece un rendimiento rápido y predecible para las aplicaciones orientadas al usuario. Su mecanismo principal es una degradación correcta del servidor al procesamiento estándar para el tráfico que supera los límites dinámicos, lo que garantiza la estabilidad de la aplicación en lugar de fallar la solicitud.
| Función | Prioridad | Estándar | Flexible | Lote |
|---|---|---|---|---|
| Precios | Entre un 75% y un 100% más que el nivel Estándar | Precio completo | 50% de descuento | 50% de descuento |
| Latencia | Segundos | De segundos a minutos | Minutos (objetivo de 1 a 15 min) | Hasta 24 horas |
| Confiabilidad | Alta (no se desprende) | Alta / media-alta | Mejor esfuerzo (descartable) | Alta (para la capacidad de procesamiento) |
| Interfaz | Síncrona | Síncrona | Síncrona | Asíncrono |
Ventajas clave
- Latencia baja: Diseñado para tiempos de respuesta de segundos en herramientas de IA interactivas y orientadas al usuario.
- Alta confiabilidad: El tráfico se trata con la mayor criticidad y no se puede descartar.
- Degradación gradual: Los picos de tráfico que superan los límites dinámicos se degradan automáticamente al nivel Estándar para su procesamiento en lugar de fallar, lo que evita interrupciones del servicio.
- Baja fricción: Usa el mismo método
generateContentsíncrono que los niveles estándar y Flex.
Casos de uso
El procesamiento prioritario es ideal para los flujos de trabajo críticos para la empresa en los que el rendimiento y la confiabilidad son fundamentales.
- Aplicaciones interactivas de IA: Chatbots y copilotos de atención al cliente en los que los usuarios pagan una tarifa premium y esperan respuestas rápidas y coherentes.
- Motores de decisiones en tiempo real: Sistemas que requieren resultados altamente confiables y de baja latencia, como la clasificación de tickets en vivo o la detección de fraude.
- Funciones para clientes premium: Desarrolladores que necesitan garantizar objetivos de nivel de servicio (SLO) más altos para los clientes que pagan.
Límites de frecuencia
El consumo de prioridad tiene sus propios límites de frecuencia, aunque el consumo se contabiliza para los límites de frecuencia de tráfico interactivo general. Los límites de frecuencia predeterminados para la inferencia de prioridad son 0.3 veces el límite de frecuencia estándar para el modelo o el nivel.
Lógica de cambio a una versión anterior correcta
Si se exceden los límites de prioridad debido a la congestión, las solicitudes de desbordamiento se degradan de forma automática y correcta al procesamiento estándar en lugar de fallar con un error 503 o 429. Las solicitudes degradadas se facturan a la tarifa estándar, no a la tarifa premium de prioridad.
Responsabilidad del cliente
- Supervisión de respuestas: Los desarrolladores deben supervisar el valor de
service_tieren el cuerpo de la respuesta de la API para detectar si las solicitudes se degradan con frecuencia astandard. - Reintentos: Los clientes deben implementar una lógica de reintentos o una retirada exponencial para los errores estándar, como
DEADLINE_EXCEEDED.
Precios
La inferencia de prioridad tiene un precio entre un 75% y un 100% más alto que la API estándar y se factura por token.
Modelos compatibles
Los siguientes modelos admiten la inferencia de prioridad:
| Modelo | Inferencia de prioridad |
|---|---|
| Versión preliminar de Gemini 3.1 Flash-Lite | ✔️ |
| Versión preliminar de Gemini 3.1 Pro | ✔️ |
| Versión preliminar de Gemini 3 Flash | ✔️ |
| Versión preliminar de Gemini 3 Pro Image | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
¿Qué sigue?
Obtén más información sobre otras opciones de inferencia y optimización de Gemini:
- Flex inference para una reducción del 50% en los costos
- API de Batch para el procesamiento asíncrono en un plazo de 24 horas
- Almacenamiento en caché del contexto para reducir los costos de los tokens de entrada