Compartir

12 de dic de 2025

Ava: Cómo crear flujos de trabajo basados en agentes con Gemini 2.5 Flash y la API de Live

Joe Alicata

Cofundador y director de Tecnología de Ava

Vishal Dharmadhikari

Ingeniero de soluciones para desarrolladores

Elemento hero de la presentación de Ava

Ava es un “sistema operativo familiar potenciado por IA” diseñado para administrar la logística de la vida familiar anticipándose a las necesidades y automatizando las tareas.

La información que administran las madres y los padres rara vez está estructurada. Llega a través de correos electrónicos escolares inconsistentes, capturas de pantalla de folletos, archivos PDF adjuntos, hilos largos de WhatsApp y notas de voz. Ava debe comprender el contexto y poder interactuar sin problemas con servicios externos.

Para controlar las entradas desordenadas y no estructuradas del mundo real, el equipo de Ava implementó una arquitectura por niveles con modelos de Gemini 2.5 Flash para las diferentes etapas de su canalización de agentes y la API de Live para proporcionar una interfaz conversacional.

Presentación de Ava

Optimiza el rendimiento y la eficiencia

Las solicitudes entrantes primero se encuentran con un enrutador de agentes ligero para que la experiencia del usuario se sienta responsiva. Este router actúa como sistema de clasificación, ya que clasifica la prioridad de la entrada, extrae las ranuras clave (quién, cuándo, dónde) y decide qué herramienta especializada o modelo posterior se requiere.

Según Joe Alicata, cofundador y CTO de Ava, “Gemini 2.5 Flash-Lite se destaca por sus verificaciones ultraligeras”, ya que controla la detección de intención y el resumen de formato corto, a la vez que ofrece respuestas en menos de un segundo.

Manejo de la planificación y ejecución complejas

Una vez que se establece la intención, las tareas suelen requerir un razonamiento más profundo. Por ejemplo, analizar un calendario escolar, normalizar fechas incoherentes y proponer el evento correcto requiere una comprensión matizada. Gemini 2.5 Flash permite que Ava actúe como un “COO familiar” capaz, ya que cumple con requisitos técnicos exigentes:

  • Comprensión multimodal: Procesamiento de texto, imágenes y audio en una sola pasada
  • Mayor precisión en situaciones ambiguas: Interpretación correcta de las comunicaciones escolares incoherentes
  • Llamadas a funciones confiables: Garantizar que las acciones, como llamar a la API de Gmail y Calendar, usen datos estructurados y confiables


Las familias pueden administrar las tareas de la casa por completo a través de interacciones por voz habilitadas por la API de Live. Alicata señaló que tenían un “requisito estricto en torno al audio nativo”, por lo que Ava se siente como una herramienta natural para aprovechar.

Un enfoque consolidado para crear sistemas de agentes

Durante el desarrollo, el equipo usó Google AI Studio de forma exhaustiva para realizar iteraciones rápidamente en instrucciones y esquemas de herramientas, así como para realizar pruebas A/B en modelos candidatos, lo que acortó el ciclo de la idea a la prueba de días a horas.

Los resultados demostraron la eficacia de su enfoque de varios modelos. Observaron una mayor precisión en el primer paso con entradas ruidosas, como hilos de correos electrónicos y fotos de folletos. Durante su sprint alfa, el 80% de los usuarios de Ava fueron usuarios activos diarios, y se aprobaron y agregaron a los calendarios miles de eventos clasificados.

Los sistemas basados en agentes pueden funcionar a la velocidad de la vida real, ya que usan modelos altamente eficientes para lecturas rápidas y reservan modelos que requieren más recursos para análisis complejos.

Para explorar cómo los modelos de Gemini y la API de Live pueden optimizar los flujos de trabajo basados en agentes, revisa nuestra documentación de la API.