29 августа 2025 г.
InstaLILY: агентская корпоративная поисковая система, работающая на базе Gemini

Корпоративные ИИ-агенты, автоматизирующие сложные рабочие процессы, такие как B2B-продажи или техническое обслуживание промышленных объектов, требуют моделей, обученных на огромных объёмах высококачественных данных, специфичных для конкретной предметной области. Для многих компаний создание таких данных является основным узким местом, поскольку ручная маркировка занимает много времени и требует больших затрат, а универсальные модели могут не обладать необходимой детализацией.
InstaLILY AI , корпоративная платформа для автономных и вертикальных ИИ-агентов, помогает компаниям автоматизировать и управлять сложными рабочими процессами в сфере продаж, обслуживания и операционной деятельности. Для одного из клиентов, PartsTown, им требовалось создать поисковую систему в режиме реального времени для ИИ-агентов, которая мгновенно подбирала бы выездным специалистам необходимые запасные части из каталога, насчитывающего более пяти миллионов наименований. Для этого требовался масштабируемый способ генерации миллионов высококачественных этикеток для обучения моделей.
Для решения этой проблемы компания InstaLILY AI разработала многоступенчатый конвейер генерации синтетических данных. Конвейер использует архитектуру «учитель-ученик», где Gemini 2.5 Pro выступает в роли модели «учителя» для генерации эталонных обучающих данных, а оптимизированная модель Gemma — в роли «ученика», что обеспечивает масштабируемое и экономичное развертывание в производственной среде.
Задача создания специализированных обучающих данных в больших масштабах
В основе поисковой системы запчастей лежит модель релевантности, которая связывает запрос сервисного специалиста (например, «компрессор для холодильника Northland») с точным номером детали. Обучение этой модели потребовало огромного набора данных, состоящих из пар «запрос-деталь».
InstaLILY AI столкнулся с рядом проблем при использовании традиционных методов:
- Масштабируемость: маркировать миллионы строк заказов вручную было нецелесообразно.
- Стоимость и качество: использование других передовых моделей маркировки обошлось в три раза дороже и привело к снижению уровня согласованности на 15 % по сравнению с окончательным решением.
- Производительность: Поиск на основе LLM в режиме реального времени будет слишком медленным (первоначальные тесты показали двухминутную задержку) и не сможет обрабатывать требуемые 500+ запросов в секунду (QPS) в рабочей среде.
Им нужна была система, которая могла бы экономически эффективно генерировать высококачественные данные, приводящие к быстрому и точному созданию окончательной модели.
Трехступенчатый конвейер с Gemini и Gemma
Компания InstaLILY AI разработала трехступенчатый конвейер, который использует передовые технологии Gemini 2.5 Pro для создания высококачественных этикеток, а затем преобразует эти знания в более мелкие и эффективные модели для производства.
Трубопровод работает следующим образом:
- Генерация синтетических данных (модель учителя): Gemini 2.5 Pro генерирует эталонные метки для пар «запрос-деталь». Для достижения высокой точности InstaLILY AI использует многоперспективную цепочку рассуждений (Multi-CoT), позволяя модели анализировать детали с разных точек зрения, включая бренд, категорию, спецификации и сложную бизнес-логику на совместимость. Этот подход обеспечил 94% совпадение с результатами экспертов-людей в слепом тестировании.
- Обучение модели ученика: высококачественные метки Gemini 2.5 Pro используются для тонкой настройки Gemma-7B. InstaLILY AI использовал несколько методов для оптимизации модели ученика, включая прямую оптимизацию предпочтений (DPO), которая снизила ложные срабатывания на 40%. Также был создан ансамбль из трёх точно настроенных вариантов Gemma, которые голосуют за каждый образец, что повысило точность маркировки до 96%.
- Обслуживание в производственной среде: Знания, полученные в ходе работы с моделями Gemma, преобразованы в облегченную модель BERT (110 млн параметров) для финальной производственной среды. Эта модель меньшего размера обеспечивает точность F1 89% при обслуживании запросов со скоростью 600 запросов в секунду.
«Без цепочек разметки LLM, необходимых для оптимизации нашей очищенной модели, нам пришлось бы вручную размечать огромные объёмы данных», — заявила команда ИИ InstaLILY. «Gemini значительно ускорил подготовку данных и позволил нам перераспределить сотни часов инженерных работ на более важные задачи, такие как тонкая настройка и оркестровка».
Сокращение задержек на 99,8% и затрат на 98,3%
Архитектура «учитель-ученик» обеспечила значительные улучшения в скорости, стоимости и точности.
Окончательный результат системы:
- Сокращение задержки запроса: с 2 минут до 0,2 секунды (улучшение на 99,8%).
- Снижение стоимости обслуживания: с 0,12 до 0,002 долл. США за 1000 запросов (снижение на 98,3%).
- Высокая точность: ~90% F1-оценка на слепом контрольном наборе данных.
Процесс разработки также ускорился. Команда создала прототип за 48 часов, а готовый к производству конвейер — за четыре недели. По их оценкам, этот процесс занял бы от трёх до четырёх месяцев без экосистемы Gemini и Gemma.
«Участие в Google Accelerator открыло нам весь этот подход», — сказал Амит Шах, основатель и генеральный директор InstaLILY. «Практическая техническая поддержка, ранний доступ к Gemini и Gemma, а также щедрые облачные кредиты помогли нам перейти от прототипа к производству за считанные недели, а не за месяцы».
Будущее развитие с мультимодальным и непрерывным обучением
Компания InstaLILY AI планирует расширить возможности своих ИИ-агентов, внедрив мультимодальные функции Gemini. Это позволит техническим специалистам загружать фотографию сломанного устройства для облегчения диагностики. Компания также разрабатывает непрерывный сервис активного обучения, который отмечает неуверенные запросы, поступающие в режиме реального времени, направляет их в Gemini для аннотирования и еженедельно переобучает рабочие модели.
Успех поисковой системы InstaLILY AI для их ИИ-агентов демонстрирует, как архитектура «учитель-ученик», сочетающая в себе мощь рассуждений Gemini 2.5 Pro с эффективностью точно настроенных моделей Gemma, может решать сложные задачи генерации данных и обеспечивать высокопроизводительные масштабируемые ИИ-приложения.
Чтобы приступить к разработке с использованием моделей Gemini и Gemma, прочтите нашу документацию по API .
Игры с волками
Wolf Games использует API Gemini, чтобы повысить точность генерации контента до 96% и сократить задержку до менее 20 секунд для своих ежедневных криминальных историй.