共有

2025 年 12 月 12 日

Ava: Gemini 2.5 Flash と Live API を使用したエージェント ワークフローの構築

Joe Alicata

Ava 共同創業者兼 CTO

Vishal Dharmadhikari

デベロッパー ソリューション エンジニア

Ava のショーケースのヒーロー

Ava は、「AI を活用した家族向けオペレーティング システム」で、ニーズを予測してタスクを自動化することで、家族生活のロジスティクスを管理するように設計されています。

保護者が管理する情報は、構造化されていることはほとんどありません。学校からのメール、チラシのスクリーンショット、PDF 添付ファイル、WhatsApp の長いスレッド、音声メモなど、一貫性のない方法で届きます。Ava はコンテキストを理解し、外部サービスとシームレスにやり取りする必要があります。

現実世界の複雑で構造化されていない入力を処理するために、Ava チームはエージェント パイプラインのさまざまなステージで Gemini 2.5 Flash モデルを使用し、会話型インターフェースを提供する Live API を使用して、階層型アーキテクチャを実装しました。

Ava ショーケース

パフォーマンスと効率の最適化

受信リクエストは、まず軽量なエージェント ルーターに到達し、ユーザー エクスペリエンスがレスポンシブに感じられるようにします。このルーターはトリアージ システムとして機能し、入力の優先度を分類し、キー スロット(誰が、いつ、どこで)を抽出し、どの専門ツールまたは後続のモデルが必要かを決定します。

Ava の共同創業者兼 CTO である Joe Alicata 氏は、「Gemini 2.5 Flash-Lite は超軽量チェックに最適です」と述べています。Gemini 2.5 Flash-Lite は、意図の検出と短文の要約を処理しながら、1 秒未満の応答を実現します。

複雑な計画と実行の処理

インテントが確立されると、タスクにはより深い推論が必要になることがよくあります。たとえば、学校のカレンダーを解析し、一貫性のない日付を正規化して、正しいイベントを提案するには、ニュアンスを理解する必要があります。Gemini 2.5 Flash は、厳格な技術要件を満たすことで、Ava が有能な「家庭の COO」として機能できるようにします。

  • マルチモーダル理解: テキスト、画像、音声を 1 回のパスで処理する
  • 曖昧な状況での精度向上: 一貫性のない学校からの連絡を正しく解釈
  • 信頼性の高い関数呼び出し: Gmail やカレンダー API の呼び出しなどのアクションで、構造化された信頼できるデータが使用されるようにする


家族は、Live API によって有効になった音声操作を通じて、家事の管理をすべて行うことができます。Alicata 氏は「ネイティブ オーディオに関する厳しい要件」があるため、Ava は活用するのに自然なツールだと述べています。

エージェント システムを構築するための成熟したアプローチ

開発チームは、開発中に Google AI Studio を広範囲にわたって使用し、プロンプトとツールスキーマの迅速なイテレーションと、候補モデルの A/B テストを実施しました。これにより、アイデアからテストまでのループを数日から数時間に短縮しました。

結果は、マルチモデル アプローチの有効性を示しています。メール スレッドやチラシの写真などのノイズの多い入力に対して、初回パスの精度が向上しました。アルファ版のスプリント期間中、Ava ユーザーの 80% が 1 日のアクティブ ユーザーであり、トリアージされた数千件のイベントが承認され、カレンダーに追加されました。

高速読み取り用の高効率モデルを使用し、複雑な分析用にリソース消費量の多いモデルを予約することで、エージェント システムは現実世界のスピードで動作できます。

Gemini モデルと Live API がエージェント ワークフローを効率化する方法については、API ドキュメントをご覧ください。