Делиться

12 декабря 2025 г.

Ава: Создание рабочих процессов для агентов с помощью Gemini 2.5 Flash и Live API.

Джо Аликата

Соучредитель и технический директор Ава

Вишал Дхармадхикари

Инженер по разработке решений

Герой выставки Ава

Ava — это «семейная операционная система на базе искусственного интеллекта», разработанная для управления логистикой семейной жизни путем прогнозирования потребностей и автоматизации задач.

Информация, которой располагают родители, редко бывает структурирована; она поступает в виде непоследовательных школьных электронных писем, скриншотов листовок, PDF-вложений, длинных переписок в WhatsApp и голосовых сообщений. Аве необходимо понимать контекст и беспрепятственно взаимодействовать с внешними сервисами.

Для обработки неструктурированных и хаотичных входных данных из реального мира команда Ava внедрила многоуровневую архитектуру, используя модели Gemini 2.5 Flash для различных этапов своего агентского конвейера, а также Live API для обеспечения диалогового интерфейса.

Витрина Авы

Оптимизация производительности и эффективности

Входящие запросы сначала проходят через облегченный маршрутизатор агента, чтобы обеспечить отзывчивость пользовательского интерфейса. Этот маршрутизатор выступает в роли системы сортировки, классифицируя приоритет входящих запросов, выделяя ключевые моменты (кто, когда, где) и определяя, какой специализированный инструмент или последующая модель необходимы.

По словам Джо Аликата, соучредителя и технического директора Ava, «Gemini 2.5 Flash-Lite превосходно подходит для сверхлегких проверок», эффективно обрабатывая запросы на определение намерений и краткое суммирование информации, обеспечивая при этом время ответа менее секунды.

Управление сложным планированием и выполнением задач.

После определения цели задачи часто требуют более глубокого анализа. Например, анализ школьного календаря, нормализация несоответствующих дат и предложение правильного события требуют тонкого понимания. Gemini 2.5 Flash позволяет Аве выступать в роли компетентного «главного операционного директора» в семье, отвечая самым строгим техническим требованиям:

  • Мультимодальное понимание : обработка текста, изображений и аудио за один проход.
  • Повышенная точность в условиях неопределенности : правильная интерпретация противоречивых сообщений в школьной переписке.
  • Надежный вызов функций : обеспечение того, чтобы такие действия, как вызов Gmail и API календаря, использовали структурированные и достоверные данные.


Семьи могут управлять своими домашними делами исключительно с помощью голосового взаимодействия, обеспечиваемого Live API. Компания Alicata отметила, что у них было «жесткое требование к встроенному аудио», поэтому Ava кажется естественным инструментом для использования.

Зрелый подход к созданию агентных систем

В процессе разработки команда активно использовала Google AI Studio для быстрой итерации по подсказкам и схемам инструментов, а также для A/B-тестирования моделей-кандидатов, сократив цикл от идеи до тестирования с нескольких дней до нескольких часов.

Результаты продемонстрировали эффективность их многомодельного подхода. Они отметили более высокую точность при первом проходе на зашумленных входных данных, таких как цепочки электронных писем и фотографии листовок. Во время альфа-тестирования 80% пользователей Ava были ежедневно активны, и тысячи обработанных событий были одобрены и добавлены в календари.

Используя высокоэффективные модели для быстрого чтения и резервируя более ресурсоемкие модели для сложного анализа, агентные системы могут работать со скоростью реальной жизни.

Чтобы узнать, как модели Gemini и Live API могут оптимизировать рабочие процессы агентов, ознакомьтесь с нашей документацией по API .

Капля дождя

Платформа мониторинга Raindrop на основе искусственного интеллекта использует Gemini 2.5 Flash для обнаружения проблем в режиме реального времени, значительно сокращая время поиска и снижая затраты более чем на 90%.