Udostępnij

12 GRUDZIEŃ 2025

Ava: tworzenie przepływów pracy opartych na agentach za pomocą Gemini 2.5 Flash i interfejsu Live API

Joe Alicata

Współzałożyciel i dyrektor ds. technologii w firmie Ava

Vishal Dharmadhikari

Inżynier ds. rozwiązań dla deweloperów

Ava showcase hero

Ava to „oparty na AI system operacyjny dla rodziny”, który ma ułatwiać zarządzanie logistyką życia rodzinnego poprzez przewidywanie potrzeb i automatyzację zadań.

Informacje, którymi zarządzają rodzice, rzadko są uporządkowane. Docierają do nich w niejednolitych e-mailach ze szkoły, zrzutach ekranu ulotek, załącznikach PDF, długich wątkach na WhatsAppie i notatkach głosowych. Ava musi rozumieć kontekst i bezproblemowo współdziałać z usługami zewnętrznymi.

Aby poradzić sobie z nieuporządkowanymi danymi wejściowymi ze świata rzeczywistego, zespół Ava wdrożył architekturę warstwową, w której na różnych etapach potoku agenta wykorzystuje modele Gemini 2.5 Flash, a do zapewnienia interfejsu konwersacyjnego używa interfejsu Live API.

Prezentacja Avy

Optymalizacja wydajności i skuteczności

Przychodzące żądania są najpierw kierowane do prostego routera agenta, aby zapewnić użytkownikom szybką reakcję. Ten router działa jak system triage, klasyfikując priorytet danych wejściowych, wyodrębniając kluczowe sloty (kto, kiedy, gdzie) i określając, które specjalistyczne narzędzie lub kolejny model jest potrzebny.

Według Joe Alicaty, współzałożyciela i dyrektora ds. technologii w firmie Ava, „Gemini 2.5 Flash-Lite doskonale sprawdza się w przypadku bardzo lekkich kontroli”, obsługując wykrywanie intencji i krótkie podsumowania, a jednocześnie zapewniając odpowiedzi w czasie poniżej sekundy.

Obsługa złożonego planowania i wykonywania

Po ustaleniu intencji zadania często wymagają głębszego rozumowania. Na przykład interpretacja kalendarza szkolnego, normalizacja niespójnych dat i proponowanie prawidłowego wydarzenia wymaga niuansowego zrozumienia. Gemini 2.5 Flash umożliwia Avie pełnienie funkcji „dyrektora operacyjnego gospodarstwa domowego” dzięki spełnianiu rygorystycznych wymagań technicznych:

  • Rozumienie multimodalne: przetwarzanie tekstu, obrazów i dźwięku w jednym przebiegu.
  • Większa dokładność w przypadku niejednoznaczności: prawidłowe interpretowanie niespójnych komunikatów szkolnych.
  • Niezawodne wywoływanie funkcji: zapewnienie, że działania takie jak wywoływanie interfejsu Gmail API i Calendar API korzystają ze strukturalnych i wiarygodnych danych.


Rodziny mogą zarządzać zadaniami domowymi w całości za pomocą interakcji głosowych, które są możliwe dzięki interfejsowi Live API. Alicata zauważył, że „wymagania dotyczące natywnego dźwięku są bardzo rygorystyczne”, więc Ava wydaje się naturalnym narzędziem do wykorzystania.

Sprawdzone podejście do tworzenia systemów agentowych

Podczas opracowywania zespół intensywnie korzystał z Google AI Studio, aby szybko iterować prompty i schematy narzędzi oraz przeprowadzać testy A/B modeli kandydackich, skracając cykl od pomysłu do testu z kilku dni do kilku godzin.

Wyniki wykazały skuteczność podejścia opartego na wielu modelach. Zaobserwowali większą dokładność pierwszego przejścia w przypadku danych wejściowych z szumem, takich jak wątki e-maili i zdjęcia ulotek. W trakcie testów alfa 80% użytkowników aplikacji Ava było aktywnych codziennie, a tysiące wydarzeń zostało zatwierdzonych i dodanych do kalendarzy.

Dzięki wykorzystaniu wysoce wydajnych modeli do szybkiego odczytywania i zarezerwowaniu bardziej wymagających modeli do złożonych analiz systemy oparte na agentach mogą działać w tempie rzeczywistym.

Aby dowiedzieć się, jak modele Gemini i interfejs Live API mogą usprawnić przepływy pracy oparte na agentach, zapoznaj się z naszą dokumentacją interfejsu API.