Prueba el nuevo modelo Gemini 3.1 Flash TTS Preview para generar voz expresiva y multilingüe.

Optimización e inferencia de la API de Gemini

La API de Gemini ofrece una variedad de mecanismos de optimización para ayudarte a equilibrar la velocidad, el costo y la confiabilidad según las necesidades específicas de tu carga de trabajo. Ya sea que compiles bots conversacionales en tiempo real o ejecutes canalizaciones de procesamiento de datos sin conexión pesadas, elegir el paradigma correcto puede reducir significativamente los costos o aumentar el rendimiento.

Función	Estándar	Flexible	Prioridad	Lote	Almacenamiento en caché
Precios	Precio completo	50% de descuento	De un 75% a un 100% más que el estándar	50% de descuento	90% de descuento + almacenamiento de tokens prorrateado
Latencia	Segundos a minutos	Minutos (objetivo de 1 a 15 min)	Segundos	Hasta 24 horas	Tiempo más rápido hasta el primer token
Confiabilidad	Alta / media alta	Mejor esfuerzo (descartable)	Alta (no descartable)	Alta (para la capacidad de procesamiento)	N/A
Interfaz	Síncrona	Síncrona	Síncrona	Asíncrona	Estado guardado
Mejor caso de uso	Flujos de trabajo de aplicaciones generales	Cadenas secuenciales no urgentes	Apps de producción y para el usuario	Conjuntos de datos masivos, evaluaciones sin conexión	Consultas recurrentes sobre el mismo archivo

Niveles de servicio de inferencia (síncronos)

Puedes cambiar entre el tráfico síncrono optimizado para la confiabilidad y el optimizado para el costo pasando el parámetro service_tier en tus llamadas de generación estándar.

Inferencia estándar (predeterminada)

El nivel estándar es la opción predeterminada para la generación de contenido secuencial. Proporciona tiempos de respuesta normales sin primas adicionales ni colas pesadas.

Confiabilidad: Criticidad estándar
Precio: Precios estándar
Ideal para: La mayoría de las aplicaciones interactivas del día a día

Inferencia prioritaria (optimización de latencia)

El procesamientoprioritario enruta tus solicitudes a colas de procesamiento de alta criticidad. Este tráfico no es descartable (nunca se interrumpe por otros niveles) y ofrece la mayor confiabilidad. Si excedes los límites de prioridad dinámica, el sistema degradará la solicitud al procesamiento estándar en lugar de fallar con un error.

Confiabilidad: Criticidad más alta
Precio: De un 75% a un 100% más que las tarifas estándar
Ideal para: Chatbots de clientes, detección de fraudes en tiempo real y copilotos fundamentales para la empresa

Inferencia flexible (optimización de costos)

La inferencia flexible ofrece un 50% de descuento en comparación con las tarifas estándar mediante el uso de capacidad de procesamiento oportunista fuera de las horas pico. Las solicitudes se procesan de forma síncrona, lo que significa que no necesitas volver a escribir código para administrar objetos por lotes. Debido a que es tráfico "descartable", las solicitudes pueden interrumpirse si el sistema experimenta picos de tráfico estándar.

Confiabilidad: Criticidad no garantizada y descartable
Precio: 50% de los precios estándar (se factura por token)
Ideal para: Flujos de trabajo de agentes de varios pasos en los que la llamada N+1 depende del resultado de la llamada N, actualizaciones de CRM en segundo plano y evaluaciones sin conexión

API de Batch (masiva, asíncrona)

La API de Batch está diseñada para procesar grandes volúmenes de solicitudes de forma asíncrona al 50% del costo estándar. Puedes enviar solicitudes como diccionarios intercalados o con un archivo de entrada JSONL (hasta 2 GB). Procesa las solicitudes con colas de capacidad de procesamiento en segundo plano con un tiempo de respuesta objetivo de 24 horas.

Confiabilidad: Descartable, pero con reintentos automáticos de 24 horas y sistema de colas
Precio: 50% de los precios estándar
Ideal para: Preprocesar conjuntos de datos masivos, ejecutar conjuntos de pruebas de regresión periódicas y generar imágenes o incorporaciones de gran volumen

Almacenamiento en caché de contexto (ahorro de entrada)

El almacenamiento en caché de contexto se usa cuando las solicitudes más cortas hacen referencia repetidamente a un contexto inicial sustancial.

Almacenamiento en caché implícito: Se habilita automáticamente en los modelos de Gemini 2.5 y versiones posteriores. El sistema transfiere los ahorros de costos si tu solicitud alcanza las memorias caché existentes en función de los prefijos de instrucciones comunes.
Almacenamiento en caché explícito: Puedes crear manualmente un objeto de caché con un tiempo de actividad (TTL) específico. Una vez creado, puedes hacer referencia a los tokens almacenados en caché para las solicitudes posteriores para evitar pasar la misma carga útil del corpus de forma repetida.
Precio: Se factura según el recuento de tokens de caché y la duración del almacenamiento (TTL)
Ideal para: Chatbots con instrucciones extensas del sistema, análisis repetitivos de archivos de video largos o consultas en conjuntos de documentos grandes