12 DE DEZEMBRO DE 2025
Ava: como criar fluxos de trabalho de agentes com o Gemini 2.5 Flash e a API Live
O Ava é um "sistema operacional familiar com tecnologia de IA" projetado para gerenciar a logística da vida familiar, antecipando necessidades e automatizando tarefas.
As informações que os pais gerenciam raramente são estruturadas. Elas chegam por e-mails inconsistentes da escola, capturas de tela de panfletos, anexos em PDF, conversas longas no WhatsApp e notas de voz. A Ava precisa entender o contexto e interagir com serviços externos sem problemas.
Para lidar com as entradas desorganizadas e não estruturadas do mundo real, a equipe do Ava implementou uma arquitetura em camadas usando os modelos Gemini 2.5 Flash em diferentes estágios do pipeline de agentes e a API Live para oferecer uma interface de conversa.
Como otimizar o desempenho e a eficiência
As solicitações recebidas primeiro encontram um roteador de agente leve para tornar a experiência do usuário responsiva. Esse roteador atua como o sistema de triagem, classificando a prioridade da entrada, extraindo slots principais (quem, quando, onde) e decidindo qual ferramenta especializada ou modelo subsequente é necessário.
De acordo com Joe Alicata, cofundador e CTO da Ava, o Gemini 2.5 Flash-Lite é excelente para verificações ultraleves, lidando com a detecção de intenção e o resumo de formato curto, além de fornecer respostas em menos de um segundo.
Lidar com planejamento e execução complexos
Depois que a intenção é estabelecida, as tarefas geralmente exigem um raciocínio mais profundo. Por exemplo, analisar uma agenda escolar, normalizar datas inconsistentes e propor o evento correto exige um entendimento detalhado. O Gemini 2.5 Flash permite que a Ava funcione como uma "COO doméstica" eficiente, atendendo a requisitos técnicos exigentes:
- Compreensão multimodal: processamento de texto, imagens e áudio em uma única passagem
- Acurácia aumentada sob ambiguidade: interpretação correta de comunicações escolares inconsistentes
- Chamada de função confiável: garante que ações, como chamar o Gmail e a API Calendar, usem dados estruturados e confiáveis.
As famílias podem gerenciar as tarefas domésticas totalmente por interações de voz ativadas pela API Live. Alicata observou que tinha um "requisito rígido em relação ao áudio nativo", então a Ava parece ser uma ferramenta natural para aproveitar.
Uma abordagem madura para criar sistemas agênticos
A equipe usou o Google AI Studio extensivamente durante o desenvolvimento para iterar rapidamente em comandos e esquemas de ferramentas, além de testar modelos candidatos com testes A/B, reduzindo o ciclo de ideia para teste de dias para horas.
Os resultados demonstraram a eficácia da abordagem de vários modelos. Eles observaram maior acurácia na primeira passagem em entradas ruidosas, como conversas por e-mail e fotos de panfletos. Durante o sprint Alfa, 80% dos usuários do Ava eram usuários ativos por dia, e milhares de eventos triados foram aprovados e adicionados às agendas.
Ao usar modelos altamente eficientes para leituras rápidas e reservar modelos mais exigentes em termos de recursos para análises complexas, os sistemas de agentes podem trabalhar na velocidade da vida real.
Para saber como os modelos do Gemini e a API Live podem simplificar os fluxos de trabalho de agentes, consulte nossa documentação da API.