Inferencia de prioridad
La API de Gemini Priority es un nivel de inferencia premium diseñado para cargas de trabajo fundamentales para la empresa que requieren una latencia más baja y la mayor confiabilidad a un precio premium. El tráfico del nivel Priority tiene prioridad sobre el tráfico de la API estándar y el nivel Flex.
La inferencia de prioridad está disponible en todos los extremos de la API de Interactions.
Cómo usar Priority
Para usar el nivel Priority, establece el campo service_tier en tu solicitud como priority. El nivel predeterminado es estándar si se omite el campo.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Cómo funciona la inferencia de prioridad
La inferencia de prioridad enruta las solicitudes a colas de procesamiento de alta criticidad, lo que ofrece un rendimiento predecible y rápido para las aplicaciones orientadas al usuario. Su mecanismo principal es una degradación correcta del servidor al procesamiento estándar para el tráfico que excede los límites dinámicos, lo que garantiza la estabilidad de la aplicación en lugar de fallar la solicitud.
| Función | Prioridad | Estándar | Flexible | Lote |
|---|---|---|---|---|
| Precios | Entre un 75% y un 100% más que el nivel Estándar | Precio completo | 50% de descuento | 50% de descuento |
| Latencia | Segundos | Segundos a minutos | Minutos (objetivo de 1 a 15 min) | Hasta 24 horas |
| Confiabilidad | Alta (no se puede descartar) | Alta / media alta | Mejor esfuerzo (se puede descartar) | Alta (para la capacidad de procesamiento) |
| Interfaz | Síncrona | Síncrona | Síncrona | Asíncrona |
Ventajas clave
- Latencia baja: Diseñada para tiempos de respuesta de segundos para herramientas de IA interactivas, orientadas al usuario.
- Alta confiabilidad: El tráfico se trata con la mayor criticidad y es estrictamente no descartable.
- Degradación elegante: Los aumentos repentinos de tráfico que exceden los límites dinámicos se degradan automáticamente al nivel Estándar para el procesamiento en lugar de fallar, lo que evita interrupciones del servicio.
- Baja fricción: Usa el mismo método síncrono
createque los niveles Estándar y Flexible.
Casos de uso
El procesamiento de prioridad es ideal para flujos de trabajo fundamentales para la empresa en los que el rendimiento y la confiabilidad son primordiales.
- Aplicaciones de IA interactivas: Chatbots y copilotos de atención al cliente en los que los usuarios pagan un precio premium y esperan respuestas rápidas y coherentes.
- Motores de decisión en tiempo real: Sistemas que requieren resultados altamente confiables y de baja latencia como la clasificación de tickets en vivo o la detección de fraude.
- Funciones premium para clientes: Desarrolladores que necesitan garantizar objetivos de nivel de servicio (SLO) más altos para los clientes que pagan.
Límites de frecuencia
El consumo de prioridad tiene sus propios límites de frecuencia, aunque el consumo se cuenta para los límites de frecuencia generales del tráfico interactivo. Los límites de frecuencia predeterminados para la inferencia de prioridad son 0.3 veces el límite de frecuencia estándar para el modelo o el nivel.
Lógica de degradación correcta
Si se exceden los límites de prioridad debido a la congestión, las solicitudes de desbordamiento se degradan automática y correctamente al procesamiento estándar en lugar de fallar con un error 503 o 429. Las solicitudes degradadas se facturan a la tarifa estándar, no a la tarifa premium de prioridad.
Responsabilidad del cliente
- Supervisión de respuestas: Los desarrolladores deben supervisar el
x-gemini-service-tierencabezado en la respuesta de la API para detectar si las solicitudes se degradan con frecuencia astandard. - Reintentos: Los clientes deben implementar la lógica de reintento o la retirada exponencial para los
errores estándar, como
DEADLINE_EXCEEDED.
Precios
La inferencia de prioridad tiene un precio entre un 75% y un 100% más que la API estándar y se factura por token.
Modelos compatibles
Los siguientes modelos admiten la inferencia de prioridad:
| Modelo | Inferencia de prioridad |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Versión preliminar de Gemini 3.1 Pro | ✔️ |
| Versión preliminar de Gemini 3 Flash | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
¿Qué sigue?
- Inferencia flexible para reducir costos
- Tokens: Comprende los tokens