Condividi

12 dicembre 2025

Ava: Building agentic workflows with Gemini 2.5 Flash and the Live API

Joe Alicata

Co-founder & CTO Ava

Vishal Dharmadhikari

Solutions Engineer per gli sviluppatori

Ava showcase hero

Ava è un "sistema operativo per la famiglia basato sull'AI" progettato per gestire la logistica della vita familiare anticipando le esigenze e automatizzando le attività.

Le informazioni gestite dai genitori sono raramente strutturate; arrivano tramite email scolastiche incoerenti, screenshot di volantini, allegati PDF, lunghe conversazioni su WhatsApp e note vocali. Ava deve comprendere il contesto e interagire senza problemi con i servizi esterni.

Per gestire gli input disordinati e non strutturati del mondo reale, il team di Ava ha implementato un'architettura a più livelli utilizzando i modelli Gemini 2.5 Flash per le diverse fasi della pipeline agentica e l'API Live per fornire un'interfaccia conversazionale.

Showcase di Ava

Ottimizzazione delle prestazioni e dell'efficienza

Le richieste in entrata incontrano prima un router di agenti leggero per rendere l'esperienza utente reattiva. Questo router funge da sistema di triage, classificando la priorità dell'input, estraendo gli slot chiave (chi, quando, dove) e decidendo quale strumento specializzato o modello successivo è necessario.

Secondo Joe Alicata, co-fondatore e CTO di Ava, "Gemini 2.5 Flash-Lite eccelle nei controlli ultraleggeri", gestendo il rilevamento dell'intento e il riepilogo in formato breve e fornendo risposte in meno di un secondo.

Gestione di pianificazione ed esecuzione complesse

Una volta stabilita l'intenzione, le attività spesso richiedono un ragionamento più approfondito. Ad esempio, l'analisi di un calendario scolastico, la normalizzazione di date incoerenti e la proposta dell'evento corretto richiedono una comprensione sfumata. Gemini 2.5 Flash consente ad Ava di fungere da "COO di famiglia" competente soddisfacendo requisiti tecnici rigorosi:

  • Comprensione multimodale: elaborazione di testo, immagini e audio in un unico passaggio
  • Maggiore accuratezza in caso di ambiguità: interpretazione corretta delle comunicazioni scolastiche incoerenti
  • Chiamata di funzioni affidabile: assicurarsi che le azioni, come la chiamata all'API Gmail e Calendar, utilizzino dati strutturati e affidabili


Le famiglie possono gestire le attività domestiche interamente tramite le interazioni vocali abilitate dall'API Live. Alicata ha osservato che avevano un "requisito rigido per l'audio nativo", quindi Ava sembra uno strumento naturale da sfruttare.

Un approccio maturo alla creazione di sistemi agentici

Il team ha utilizzato ampiamente Google AI Studio durante lo sviluppo per iterare rapidamente su prompt e schemi di strumenti, nonché per eseguire test A/B sui modelli candidati, riducendo il ciclo dall'idea al test da giorni a ore.

I risultati hanno dimostrato l'efficacia del loro approccio multimodello. Hanno osservato una maggiore precisione al primo passaggio su input rumorosi come thread email e foto di volantini. Durante lo sprint alpha, l'80% degli utenti di Ava erano utenti attivi giornalieri e migliaia di eventi classificati sono stati approvati e aggiunti ai calendari.

Utilizzando modelli altamente efficienti per letture rapide e riservando modelli più intensivi di risorse per analisi complesse, i sistemi agentici possono funzionare alla velocità della vita reale.

Per scoprire come i modelli Gemini e l'API Live possono semplificare i flussi di lavoro degli agenti, consulta la nostra documentazione dell'API.