La API de Gemini ofrece una variedad de mecanismos de optimización para ayudarte a equilibrar la velocidad, el costo y la confiabilidad según las necesidades específicas de tu carga de trabajo. Ya sea que compiles bots conversacionales en tiempo real o ejecutes canalizaciones de procesamiento de datos sin conexión pesadas, elegir el paradigma adecuado puede reducir significativamente los costos o aumentar el rendimiento.
| Función | Estándar | Flexible | Prioridad | Lote | Almacenamiento en caché |
|---|---|---|---|---|---|
| Precios | Precio completo | 50% de descuento | Entre un 75% y un 100% más que la tarifa estándar | 50% de descuento | Almacenamiento de tokens prorrateado |
| Latencia | De segundos a minutos | Minutos (objetivo de 1 a 15 min) | Baja (segundos) | Hasta 24 horas | Tiempo hasta el primer token más rápido |
| Confiabilidad | Alta / media-alta | Mejor esfuerzo (descartable) | Alta (no se desprende) | Alta (para la capacidad de procesamiento) | N/A |
| Interfaz | Síncrona | Síncrona | Síncrona | Asíncrono | Estado guardado |
| Mejor caso de uso | Flujos de trabajo generales de la aplicación | Cadenas secuenciales no urgentes | Apps de producción para el usuario | Conjuntos de datos masivos y evaluaciones sin conexión | Consultas recurrentes sobre el mismo archivo |
Niveles de servicio de inferencia (síncronos)
Puedes cambiar entre el tráfico síncrono optimizado para la latencia y el optimizado para el costo pasando el parámetro service_tier en tus llamadas de generación estándar.
Inferencia estándar (predeterminada)
El nivel estándar es la opción predeterminada para la generación de contenido secuencial. Proporciona tiempos de respuesta normales sin primas adicionales ni filas pesadas.
- Latencia: De segundos a minutos.
- Precio: Precios estándar.
- Ideal para: La mayoría de las aplicaciones interactivas cotidianas.
Inferencia prioritaria (optimizada para la latencia)
El procesamiento con prioridad dirige tus solicitudes a colas de procesamiento de alta criticidad. Este tráfico no se puede descartar (nunca se interrumpe por otros niveles) y ofrece la mayor confiabilidad. Si superas los límites de prioridad dinámica, el sistema degradará la solicitud al procesamiento estándar en lugar de fallar con un error.
- Latencia: Ultrabaja (de milisegundos a segundos)
- Precio: Entre un 75% y un 100% más que las tarifas estándar.
- Ideal para: Chatbots de atención al cliente en vivo, detección de fraudes en tiempo real y copilotos fundamentales para la empresa.
Inferencia flexible (con optimización de costos)
Flex inference ofrece un 50% de descuento en comparación con las tarifas estándar, ya que utiliza capacidad de procesamiento oportunista fuera de las horas pico. Las solicitudes se procesan de forma síncrona, lo que significa que no es necesario que reescribas el código para administrar objetos por lotes. Dado que es tráfico "descartable", es posible que las solicitudes se interrumpan si el sistema experimenta picos de tráfico estándar.
- Latencia: No garantizada, con un objetivo de 1 a 15 minutos.
- Precio: El 50% del precio estándar (se factura por token).
- Ideal para: Flujos de trabajo de agentes de varios pasos en los que la llamada N+1 depende del resultado de la llamada N, actualizaciones del CRM en segundo plano y evaluaciones sin conexión.
API de Batch (masiva y asíncrona)
La API de Batch está diseñada para procesar grandes volúmenes de solicitudes de forma asíncrona con el 50% del costo estándar. Puedes enviar solicitudes como diccionarios intercalados o con un archivo de entrada JSONL (hasta 2 GB). Procesa las solicitudes con colas de procesamiento en segundo plano con un tiempo de respuesta objetivo de 24 horas.
- Latencia: Alta (hasta 24 horas)
- Precio: El 50% del precio estándar.
- Ideal para: Realizar el procesamiento previo de conjuntos de datos masivos, ejecutar conjuntos de pruebas de regresión periódicas y generar grandes volúmenes de imágenes o incorporaciones
Almacenamiento de contexto en caché (ahorro de entradas)
El almacenamiento en caché de contexto se usa cuando las solicitudes más cortas hacen referencia repetidamente a un contexto inicial sustancial.
- Almacenamiento en caché implícito: Se habilita automáticamente en los modelos de Gemini 2.5 y versiones posteriores. El sistema transfiere los ahorros de costos si tu solicitud alcanza las cachés existentes basadas en prefijos de instrucciones comunes.
- Almacenamiento en caché explícito: Puedes crear manualmente un objeto de caché con un tiempo de actividad (TTL) específico. Una vez creados, puedes consultar los tokens almacenados en caché para las solicitudes posteriores y evitar pasar la misma carga útil del corpus de forma repetida.
- Precio: Se factura según la cantidad de tokens de caché y la duración del almacenamiento (TTL).
- Ideal para: Chatbots con instrucciones del sistema extensas, análisis repetitivos de archivos de video largos o consultas en grandes conjuntos de documentos