2025 年 12 月 12 日
Ava:使用 Gemini 2.5 Flash 和 Live API 构建智能体工作流
Ava 是一款“AI 赋能的家庭操作系统”,旨在通过预测需求和自动执行任务来管理家庭生活的后勤事宜。
家长管理的信息很少是结构化的;这些信息通常通过不一致的学校电子邮件、传单的屏幕截图、PDF 附件、冗长的 WhatsApp 对话和语音记事到达。Ava 必须了解上下文,并能与外部服务无缝互动。
为了处理现实世界中杂乱无章的非结构化输入,Ava 团队实施了分层架构,在代理流水线的不同阶段使用 Gemini 2.5 Flash 模型,并使用 Live API 提供对话界面。
优化性能和效率
传入的请求首先会遇到轻量级代理路由器,从而让用户体验到响应速度。此路由器充当分诊系统,对输入的优先级进行分类,提取关键 slot(谁、何时、何地),并确定需要哪个专用工具或后续模型。
Ava 的联合创始人兼 CTO Joe Alicata 表示:“Gemini 2.5 Flash-Lite 在超轻量级检查方面表现出色”,可处理意图检测和短格式摘要,同时提供亚秒级响应。
处理复杂的规划和执行
确定意图后,任务通常需要更深层次的推理。例如,解析学校日历、规范化不一致的日期以及建议正确的活动需要细致的理解。Gemini 2.5 Flash 使 Ava 能够满足严格的技术要求,成为称职的“家庭 COO”:
- 多模态理解:一次性处理文本、图片和音频
- 在信息不明确的情况下提高准确性:正确解读不一致的学校通讯
- 可靠的函数调用:确保调用 Gmail 和日历 API 等操作使用结构化且可信的数据
家庭成员可以通过 Live API 实现的语音互动来管理家庭任务。Alicata 指出,他们对原生音频有“硬性要求”,因此 Ava 感觉像是一种可以自然而然地加以利用的工具。
一种成熟的智能体系统构建方法
在开发过程中,该团队广泛使用 Google AI Studio,以便快速迭代提示和工具架构,并对候选模型进行 A/B 测试,从而将从创意到测试的周期从几天缩短到几小时。
结果表明,他们的多模型方法非常有效。他们发现,对于电子邮件对话串和传单照片等嘈杂的输入内容,该模型的一次性准确率更高。在 Alpha 版冲刺阶段,80% 的 Ava 用户是每日活跃用户,数千个经过分级处理的活动获得批准并添加到日历中。
通过使用高效模型进行快速读取,并预留更多资源密集型模型用于复杂分析,智能体系统可以以接近现实的速度运行。
如需了解 Gemini 模型和 Live API 如何简化代理工作流,请查看我们的 API 文档。