Inferencia de prioridad

La API de Gemini Priority es un nivel de inferencia premium diseñado para cargas de trabajo fundamentales para la empresa que requieren una latencia más baja y la mayor confiabilidad a un precio premium. El tráfico del nivel Priority tiene prioridad sobre el tráfico de la API estándar y del nivel Flex.

La inferencia de Priority está disponible para los usuarios de los niveles 2 y 3 en los extremos de la API de GenerateContent y la API de Interactions.

Cómo usar Priority

Para usar el nivel Priority, establece el campo service_tier en el cuerpo de la solicitud como SERVICE_TIER_PRIORITY. El nivel predeterminado es estándar si se omite el campo.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'SERVICE_TIER_PRIORITY'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

En JavaScript, la biblioteca cliente controla automáticamente la degradación. Si se excede la capacidad, se mostrará un error o se procesará en el nivel estándar. El objeto de respuesta no expone directamente los encabezados para verificar la degradación.

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

En Go, la biblioteca cliente controla automáticamente la degradación. Si se excede la capacidad, se mostrará un error o se procesará en el nivel estándar. El objeto de respuesta no expone directamente los encabezados para verificar la degradación.

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Cómo funciona la inferencia de Priority

La inferencia de Priority enruta las solicitudes a colas de procesamiento de alta criticidad, lo que ofrece un rendimiento predecible y rápido para las aplicaciones orientadas al usuario. Su mecanismo principal es una degradación correcta del servidor al procesamiento estándar para el tráfico que excede los límites dinámicos, lo que garantiza la estabilidad de la aplicación en lugar de fallar la solicitud.

Función Priority Estándar Flexible Lote
Precios Entre un 75% y un 100% más que el nivel Estándar Precio completo 50% de descuento 50% de descuento
Latencia Baja (segundos) De segundos a minutos Minutos (objetivo de 1 a 15 min) Hasta 24 horas
Confiabilidad Alta (no se puede descartar) Alta o media-alta Mejor esfuerzo (se puede descartar) Alta (para el rendimiento)
Interface Síncrona Síncrona Síncrona Asíncrona

Ventajas clave

  • Baja latencia: Diseñada para tiempos de respuesta de milisegundos a segundos para herramientas de IA interactivas, orientadas al usuario.
  • Alta confiabilidad: El tráfico se trata con la mayor criticidad y es estrictamente no descartable.
  • Degradación correcta: Los aumentos repentinos de tráfico que exceden los límites dinámicos se degradan automáticamente al nivel Estándar para su procesamiento en lugar de fallar, lo que evita interrupciones del servicio.
  • Baja fricción: Usa el mismo método generateContent síncrono que los niveles Estándar y Flexible.

Casos de uso

El procesamiento de Priority es ideal para flujos de trabajo fundamentales para la empresa en los que el rendimiento y la confiabilidad son primordiales.

  • Aplicaciones de IA interactivas: Chatbots y copilotos de atención al cliente en los que los usuarios pagan un precio premium y esperan respuestas rápidas y coherentes.
  • Motores de decisión en tiempo real: Sistemas que requieren resultados altamente confiables y de baja latencia como la clasificación de tickets en vivo o la detección de fraude.
  • Funciones premium para clientes: Desarrolladores que necesitan garantizar objetivos de nivel de servicio (SLO) más altos para los clientes que pagan.

Límites de frecuencia

El consumo de Priority tiene sus propios límites de frecuencia, aunque el consumo se cuenta para los límites de frecuencia generales del tráfico interactivo. Los límites de frecuencia predeterminados para la inferencia de Priority son 0.3 veces el límite de frecuencia estándar para el modelo o el nivel.

Lógica de degradación correcta

Si se exceden los límites de Priority debido a la congestión, las solicitudes de desbordamiento se degradan automática y correctamente al procesamiento Estándar en lugar de fallar con un error 503 o 429. Las solicitudes degradadas se facturan a la tarifa estándar, no a la tarifa premium de Priority.

Responsabilidad del cliente

  • Supervisión de respuestas: Los desarrolladores deben supervisar el valor service_tier en el cuerpo de la respuesta de la API para detectar si las solicitudes se degradan con frecuencia a standard.
  • Reintentos: Los clientes deben implementar la lógica de reintento o la retirada exponencial para los errores estándar, como DEADLINE_EXCEEDED.

Precios

La inferencia de Priority tiene un precio entre un 75% y un 100% más que la API estándar y se factura por token.

Modelos compatibles

Los siguientes modelos admiten la inferencia de Priority:

Modelo Inferencia de Priority
Gemini 3.1 Flash-Lite (versión preliminar) ✔️
Gemini 3.1 Pro (versión preliminar) ✔️
Gemini 3 Flash (versión preliminar) ✔️
Gemini 3 Pro Image (versión preliminar) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

¿Qué sigue?

Obtén más información sobre las otras opciones de inferencia y optimización de Gemini: