La API de Gemini ofrece una variedad de mecanismos de optimización para ayudarte a equilibrar la velocidad, el costo y la confiabilidad según las necesidades específicas de tu carga de trabajo. Ya sea que compiles bots conversacionales en tiempo real o ejecutes canalizaciones de procesamiento de datos sin conexión pesadas, elegir el paradigma correcto puede reducir significativamente los costos o aumentar el rendimiento.
| Función | Estándar | Flexible | Prioridad | Lote | Almacenamiento en caché |
|---|---|---|---|---|---|
| Precios | Precio completo | 50% de descuento | De un 75% a un 100% más que el estándar | 50% de descuento | 90% de descuento + almacenamiento de tokens prorrateado |
| Latencia | Segundos a minutos | Minutos (objetivo de 1 a 15 min) | Segundos | Hasta 24 horas | Tiempo más rápido hasta el primer token |
| Confiabilidad | Alta / media alta | Mejor esfuerzo (descartable) | Alta (no descartable) | Alta (para la capacidad de procesamiento) | N/A |
| Interfaz | Síncrona | Síncrona | Síncrona | Asíncrona | Estado guardado |
| Mejor caso de uso | Flujos de trabajo de aplicaciones generales | Cadenas secuenciales no urgentes | Apps de producción y para el usuario | Conjuntos de datos masivos, evaluaciones sin conexión | Consultas recurrentes sobre el mismo archivo |
Niveles de servicio de inferencia (síncronos)
Puedes cambiar entre el tráfico síncrono optimizado para la confiabilidad y el optimizado para el costo pasando el parámetro service_tier en tus llamadas de generación estándar.
Inferencia estándar (predeterminada)
El nivel estándar es la opción predeterminada para la generación de contenido secuencial. Proporciona tiempos de respuesta normales sin primas adicionales ni colas pesadas.
- Confiabilidad: Criticidad estándar
- Precio: Precios estándar
- Ideal para: La mayoría de las aplicaciones interactivas del día a día
Inferencia prioritaria (optimización de latencia)
El procesamientoprioritario enruta tus solicitudes a colas de procesamiento de alta criticidad. Este tráfico no es descartable (nunca se interrumpe por otros niveles) y ofrece la mayor confiabilidad. Si excedes los límites de prioridad dinámica, el sistema degradará la solicitud al procesamiento estándar en lugar de fallar con un error.
- Confiabilidad: Criticidad más alta
- Precio: De un 75% a un 100% más que las tarifas estándar
- Ideal para: Chatbots de clientes, detección de fraudes en tiempo real y copilotos fundamentales para la empresa
Inferencia flexible (optimización de costos)
La inferencia flexible ofrece un 50% de descuento en comparación con las tarifas estándar mediante el uso de capacidad de procesamiento oportunista fuera de las horas pico. Las solicitudes se procesan de forma síncrona, lo que significa que no necesitas volver a escribir código para administrar objetos por lotes. Debido a que es tráfico "descartable", las solicitudes pueden interrumpirse si el sistema experimenta picos de tráfico estándar.
- Confiabilidad: Criticidad no garantizada y descartable
- Precio: 50% de los precios estándar (se factura por token)
- Ideal para: Flujos de trabajo de agentes de varios pasos en los que la llamada N+1 depende del resultado de la llamada N, actualizaciones de CRM en segundo plano y evaluaciones sin conexión
API de Batch (masiva, asíncrona)
La API de Batch está diseñada para procesar grandes volúmenes de solicitudes de forma asíncrona al 50% del costo estándar. Puedes enviar solicitudes como diccionarios intercalados o con un archivo de entrada JSONL (hasta 2 GB). Procesa las solicitudes con colas de capacidad de procesamiento en segundo plano con un tiempo de respuesta objetivo de 24 horas.
- Confiabilidad: Descartable, pero con reintentos automáticos de 24 horas y sistema de colas
- Precio: 50% de los precios estándar
- Ideal para: Preprocesar conjuntos de datos masivos, ejecutar conjuntos de pruebas de regresión periódicas y generar imágenes o incorporaciones de gran volumen
Almacenamiento en caché de contexto (ahorro de entrada)
El almacenamiento en caché de contexto se usa cuando las solicitudes más cortas hacen referencia repetidamente a un contexto inicial sustancial.
- Almacenamiento en caché implícito: Se habilita automáticamente en los modelos de Gemini 2.5 y versiones posteriores. El sistema transfiere los ahorros de costos si tu solicitud alcanza las memorias caché existentes en función de los prefijos de instrucciones comunes.
- Almacenamiento en caché explícito: Puedes crear manualmente un objeto de caché con un tiempo de actividad (TTL) específico. Una vez creado, puedes hacer referencia a los tokens almacenados en caché para las solicitudes posteriores para evitar pasar la misma carga útil del corpus de forma repetida.
- Precio: Se factura según el recuento de tokens de caché y la duración del almacenamiento (TTL)
- Ideal para: Chatbots con instrucciones extensas del sistema, análisis repetitivos de archivos de video largos o consultas en conjuntos de documentos grandes