2025 年 12 月 12 日
Ava: Gemini 2.5 Flash と Live API を使用したエージェント ワークフローの構築
Ava は、「AI を活用した家族向けオペレーティング システム」で、ニーズを予測してタスクを自動化することで、家族生活のロジスティクスを管理するように設計されています。
保護者が管理する情報は、構造化されていることはほとんどありません。学校からのメール、チラシのスクリーンショット、PDF 添付ファイル、WhatsApp の長いスレッド、音声メモなど、一貫性のない方法で届きます。Ava はコンテキストを理解し、外部サービスとシームレスにやり取りする必要があります。
現実世界の複雑で構造化されていない入力を処理するために、Ava チームはエージェント パイプラインのさまざまなステージで Gemini 2.5 Flash モデルを使用し、会話型インターフェースを提供する Live API を使用して、階層型アーキテクチャを実装しました。
パフォーマンスと効率の最適化
受信リクエストは、まず軽量なエージェント ルーターに到達し、ユーザー エクスペリエンスがレスポンシブに感じられるようにします。このルーターはトリアージ システムとして機能し、入力の優先度を分類し、キー スロット(誰が、いつ、どこで)を抽出し、どの専門ツールまたは後続のモデルが必要かを決定します。
Ava の共同創業者兼 CTO である Joe Alicata 氏は、「Gemini 2.5 Flash-Lite は超軽量チェックに最適です」と述べています。Gemini 2.5 Flash-Lite は、意図の検出と短文の要約を処理しながら、1 秒未満の応答を実現します。
複雑な計画と実行の処理
インテントが確立されると、タスクにはより深い推論が必要になることがよくあります。たとえば、学校のカレンダーを解析し、一貫性のない日付を正規化して、正しいイベントを提案するには、ニュアンスを理解する必要があります。Gemini 2.5 Flash は、厳格な技術要件を満たすことで、Ava が有能な「家庭の COO」として機能できるようにします。
- マルチモーダル理解: テキスト、画像、音声を 1 回のパスで処理する
- 曖昧な状況での精度向上: 一貫性のない学校からの連絡を正しく解釈
- 信頼性の高い関数呼び出し: Gmail やカレンダー API の呼び出しなどのアクションで、構造化された信頼できるデータが使用されるようにする
家族は、Live API によって有効になった音声操作を通じて、家事の管理をすべて行うことができます。Alicata 氏は「ネイティブ オーディオに関する厳しい要件」があるため、Ava は活用するのに自然なツールだと述べています。
エージェント システムを構築するための成熟したアプローチ
開発チームは、開発中に Google AI Studio を広範囲にわたって使用し、プロンプトとツールスキーマの迅速なイテレーションと、候補モデルの A/B テストを実施しました。これにより、アイデアからテストまでのループを数日から数時間に短縮しました。
結果は、マルチモデル アプローチの有効性を示しています。メール スレッドやチラシの写真などのノイズの多い入力に対して、初回パスの精度が向上しました。アルファ版のスプリント期間中、Ava ユーザーの 80% が 1 日のアクティブ ユーザーであり、トリアージされた数千件のイベントが承認され、カレンダーに追加されました。
高速読み取り用の高効率モデルを使用し、複雑な分析用にリソース消費量の多いモデルを予約することで、エージェント システムは現実世界のスピードで動作できます。
Gemini モデルと Live API がエージェント ワークフローを効率化する方法については、API ドキュメントをご覧ください。