12 GRUDNIA 2025 r.
Ava: tworzenie przepływów pracy opartych na agentach za pomocą Gemini 2.5 Flash i interfejsu Live API
Ava to „oparty na AI system operacyjny dla rodziny”, który został zaprojektowany do zarządzania logistyką życia rodzinnego poprzez przewidywanie potrzeb i automatyzację zadań.
Informacje, którymi zarządzają rodzice, rzadko są uporządkowane. Docierają do nich w niejednolitych e-mailach ze szkoły, zrzutach ekranu ulotek, załącznikach PDF, długich wątkach na WhatsAppie i notatkach głosowych. Ava musi rozumieć kontekst i bezproblemowo wchodzić w interakcje z usługami zewnętrznymi.
Aby poradzić sobie z nieuporządkowanymi danymi wejściowymi z rzeczywistego świata, zespół Ava wdrożył architekturę warstwową, w której na różnych etapach potoku agenta wykorzystuje modele Gemini 2.5 Flash, a do zapewnienia interfejsu konwersacyjnego używa interfejsu Live API.
Optymalizacja wydajności i skuteczności
Przychodzące żądania są najpierw kierowane do prostego routera agenta, aby zapewnić użytkownikom szybką reakcję. Ten router działa jak system triage, klasyfikując priorytet danych wejściowych, wyodrębniając kluczowe sloty (kto, kiedy, gdzie) i określając, które specjalistyczne narzędzie lub kolejny model jest potrzebny.
Według Joe Alicaty, współzałożyciela i dyrektora ds. technologii w firmie Ava, „Gemini 2.5 Flash-Lite doskonale sprawdza się w przypadku bardzo lekkich kontroli”, ponieważ wykrywa intencje i tworzy krótkie podsumowania, a odpowiedzi generuje w czasie poniżej sekundy.
Obsługa złożonego planowania i wykonywania
Po ustaleniu intencji zadania często wymagają bardziej złożonego rozumowania. Na przykład interpretacja kalendarza szkolnego, normalizacja niespójnych dat i proponowanie prawidłowego wydarzenia wymaga niuansowego zrozumienia. Gemini 2.5 Flash umożliwia Avie pełnienie funkcji „dyrektora operacyjnego gospodarstwa domowego” dzięki spełnianiu rygorystycznych wymagań technicznych:
- Analiza multimodalna: przetwarzanie tekstu, obrazów i dźwięku w jednym przebiegu.
- Większa dokładność w przypadku niejasności: prawidłowe interpretowanie niespójnych komunikatów szkolnych.
- Niezawodne wywoływanie funkcji: zapewnienie, że działania takie jak wywoływanie interfejsu Gmail API i Calendar API korzystają ze strukturalnych i wiarygodnych danych.
Rodziny mogą zarządzać zadaniami domowymi w całości za pomocą interakcji głosowych obsługiwanych przez interfejs Live API. Alicata zauważył, że „mają ścisłe wymagania dotyczące natywnego dźwięku”, więc Ava wydaje się naturalnym narzędziem do wykorzystania.
Sprawdzone podejście do tworzenia systemów agentowych
Podczas opracowywania zespół intensywnie korzystał z Google AI Studio, aby szybko iterować prompty i schematy narzędzi oraz przeprowadzać testy A/B modeli kandydackich, skracając czas od pomysłu do testu z kilku dni do kilku godzin.
Wyniki wykazały skuteczność podejścia opartego na wielu modelach. Zaobserwowali większą dokładność pierwszego przejścia w przypadku danych wejściowych z szumem, takich jak wątki e-maili i zdjęcia ulotek. W okresie testów alfa 80% użytkowników aplikacji Ava było aktywnych codziennie, a tysiące wydarzeń zostało zatwierdzonych i dodanych do kalendarzy.
Dzięki wykorzystaniu wysoce wydajnych modeli do szybkiego odczytywania i zarezerwowaniu bardziej wymagających modeli do złożonych analiz systemy oparte na agentach mogą działać w tempie rzeczywistym.
Aby dowiedzieć się, jak modele Gemini i interfejs Live API mogą usprawnić przepływy pracy oparte na agentach, zapoznaj się z naszą dokumentacją interfejsu API.