12 DÉC. 2025
Ava : créer des workflows autonomes avec Gemini 2.5 Flash et l'API Live
Ava est un "système d'exploitation familial optimisé par l'IA" conçu pour gérer la logistique de la vie de famille en anticipant les besoins et en automatisant les tâches.
Les informations que les parents gèrent sont rarement structurées. Elles arrivent par e-mails scolaires incohérents, captures d'écran de prospectus, pièces jointes PDF, longs fils de discussion WhatsApp et notes vocales. Ava doit comprendre le contexte et interagir de manière fluide avec les services externes.
Pour gérer les entrées désordonnées et non structurées du monde réel, l'équipe Ava a implémenté une architecture à plusieurs niveaux utilisant les modèles Gemini 2.5 Flash pour différentes étapes de son pipeline agentique et l'API Live pour fournir une interface conversationnelle.
Optimiser les performances et l'efficacité
Les requêtes entrantes rencontrent d'abord un routeur d'agent léger pour que l'expérience utilisateur soit réactive. Ce routeur sert de système de triage. Il classe la priorité de l'entrée, extrait les emplacements clés (qui, quand, où) et détermine l'outil spécialisé ou le modèle suivant requis.
Selon Joe Alicata, cofondateur et CTO d'Ava, "Gemini 2.5 Flash-Lite excelle dans les vérifications ultralégères", en gérant la détection de l'intention et la synthèse de format court tout en fournissant des réponses en moins d'une seconde.
Gérer la planification et l'exécution complexes
Une fois l'intention établie, les tâches nécessitent souvent un raisonnement plus approfondi. Par exemple, l'analyse d'un calendrier scolaire, la normalisation de dates incohérentes et la proposition de l'événement approprié nécessitent une compréhension nuancée. Gemini 2.5 Flash permet à Ava de servir de "COO domestique" performant en répondant à des exigences techniques strictes :
- Compréhension multimodale : traitement du texte, des images et de l'audio en une seule passe
- Précision accrue en cas d'ambiguïté : interpréter correctement les communications scolaires incohérentes
- Appel de fonction fiable : s'assurer que les actions, telles que l'appel des API Gmail et Agenda, utilisent des données structurées et fiables
Les familles peuvent gérer leurs tâches domestiques entièrement par le biais d'interactions vocales activées par l'API Live. Alicata a indiqué qu'il avait "un besoin impératif en matière d'audio natif". Ava semble donc être un outil naturel à utiliser.
Une approche mature pour créer des systèmes agentifs
L'équipe a utilisé Google AI Studio de manière intensive pendant le développement pour itérer rapidement sur les schémas de requêtes et d'outils, ainsi que pour effectuer des tests A/B sur les modèles candidats, ce qui a permis de réduire le cycle de l'idée au test de plusieurs jours à quelques heures.
Les résultats ont démontré l'efficacité de leur approche multi-modèle. Ils ont observé une plus grande précision au premier passage sur les entrées bruyantes telles que les fils de discussion par e-mail et les photos de prospectus. Lors de la phase alpha, 80 % des utilisateurs d'Ava étaient actifs quotidiennement, et des milliers d'événements triés ont été approuvés et ajoutés aux agendas.
En utilisant des modèles très efficaces pour les lectures rapides et en réservant les modèles plus gourmands en ressources pour les analyses complexes, les systèmes agentiques peuvent fonctionner à la vitesse de la vie réelle.
Pour découvrir comment les modèles Gemini et l'API Live peuvent simplifier les workflows agentiques, consultez notre documentation sur l'API.