分享

2025 年 12 月 12 日

Ava:使用 Gemini 2.5 Flash 和 Live API 建構代理程式工作流程

Joe Alicata

Ava 共同創辦人兼技術長

Vishal Dharmadhikari

開發人員解決方案工程師

Ava 展示主頁橫幅

Ava 是「AI 輔助家庭作業系統」,可預測需求並自動執行工作,協助管理家庭生活中的大小事。

家長管理的大多是非結構化資訊,來源包括學校電子郵件、宣傳單的螢幕截圖、PDF 附件、冗長的 WhatsApp 對話串和語音記事。Ava 必須瞭解情境,並與外部服務順暢互動。

為處理現實世界中雜亂無章的非結構化輸入內容,Ava 團隊採用分層架構,在代理程式管道的不同階段使用 Gemini 2.5 Flash 模型,並透過 Live API 提供對話介面。

Ava 展示

提升效能和效率

傳入的請求會先遇到輕量型代理程式路由器,讓使用者體驗感覺反應靈敏。這個路由器會做為分流系統,將輸入內容分類為不同優先順序、擷取重要時段 (誰、何時、何地),並決定需要使用哪種專用工具或後續模型。

Ava 共同創辦人兼技術長 Joe Alicata 表示:「Gemini 2.5 Flash-Lite 非常適合用於超輕量檢查,可處理意圖偵測和簡短摘要,並在不到一秒內回覆。」

處理複雜的規劃和執行作業

確立意圖後,工作通常需要更深入的推理。舉例來說,剖析學校日曆、將不一致的日期標準化,以及建議正確的活動,都需要細緻的理解能力。Gemini 2.5 Flash 滿足嚴格的技術需求,讓 Ava 成為稱職的「家庭營運長」:

  • 多模態理解:一次處理文字、圖片和音訊
  • 提高模糊不清情況下的準確度:正確解讀不一致的學校通訊內容
  • 可靠的函式呼叫:確保呼叫 Gmail 和 Calendar API 等動作時,使用結構化且值得信賴的資料


家人可以透過 Live API 啟用的語音互動,完全管理家中工作。Alicata 表示「原生音訊是必要條件」,因此 Ava 是自然而然的選擇。

建構代理式系統的成熟方法

開發期間,團隊大量使用 Google AI Studio,快速反覆測試提示和工具結構定義,並進行候選模型 A/B 測試,將從發想到測試的循環從幾天縮短至幾小時。

結果顯示,他們的多模型方法確實有效。他們發現,對於電子郵件討論串和宣傳單相片等雜訊輸入內容,模型的第一遍準確度更高。在 Alpha 衝刺期間,80% 的 Ava 使用者都是每日活躍使用者,且有數千個經過分類的活動獲得核准並新增至日曆。

代理系統可使用高效率模型快速讀取資料,並保留更多資源密集型模型以進行複雜分析,因此能以實際生活中的速度運作。

如要瞭解如何運用 Gemini 模型和 Live API 簡化代理工作流程,請參閱我們的 API 說明文件