2025 年 12 月 12 日
Ava:使用 Gemini 2.5 Flash 和 Live API 建構代理程式工作流程
Ava 是「AI 輔助家庭作業系統」,可預測需求並自動執行工作,協助管理家庭生活中的大小事。
家長管理的大多是非結構化資訊,來源包括學校電子郵件、宣傳單的螢幕截圖、PDF 附件、冗長的 WhatsApp 對話串和語音記事。Ava 必須瞭解情境,並與外部服務順暢互動。
為處理現實世界中雜亂無章的非結構化輸入內容,Ava 團隊採用分層架構,在代理程式管道的不同階段使用 Gemini 2.5 Flash 模型,並透過 Live API 提供對話介面。
提升效能和效率
傳入的請求會先遇到輕量型代理程式路由器,讓使用者體驗感覺反應靈敏。這個路由器會做為分流系統,將輸入內容分類為不同優先順序、擷取重要時段 (誰、何時、何地),並決定需要使用哪種專用工具或後續模型。
Ava 共同創辦人兼技術長 Joe Alicata 表示:「Gemini 2.5 Flash-Lite 非常適合用於超輕量檢查,可處理意圖偵測和簡短摘要,並在不到一秒內回覆。」
處理複雜的規劃和執行作業
確立意圖後,工作通常需要更深入的推理。舉例來說,剖析學校日曆、將不一致的日期標準化,以及建議正確的活動,都需要細緻的理解能力。Gemini 2.5 Flash 滿足嚴格的技術需求,讓 Ava 成為稱職的「家庭營運長」:
- 多模態理解:一次處理文字、圖片和音訊
- 提高模糊不清情況下的準確度:正確解讀不一致的學校通訊內容
- 可靠的函式呼叫:確保呼叫 Gmail 和 Calendar API 等動作時,使用結構化且值得信賴的資料
家人可以透過 Live API 啟用的語音互動,完全管理家中工作。Alicata 表示「原生音訊是必要條件」,因此 Ava 是自然而然的選擇。
建構代理式系統的成熟方法
開發期間,團隊大量使用 Google AI Studio,快速反覆測試提示和工具結構定義,並進行候選模型 A/B 測試,將從發想到測試的循環從幾天縮短至幾小時。
結果顯示,他們的多模型方法確實有效。他們發現,對於電子郵件討論串和宣傳單相片等雜訊輸入內容,模型的第一遍準確度更高。在 Alpha 衝刺期間,80% 的 Ava 使用者都是每日活躍使用者,且有數千個經過分類的活動獲得核准並新增至日曆。
代理系統可使用高效率模型快速讀取資料,並保留更多資源密集型模型以進行複雜分析,因此能以實際生活中的速度運作。
如要瞭解如何運用 Gemini 模型和 Live API 簡化代理工作流程,請參閱我們的 API 說明文件。