Развертывание моделей GenAI с помощью LiteRT

LiteRT обеспечивает высокопроизводительное развертывание моделей генеративного ИИ на мобильных, настольных и веб-платформах. Благодаря бесперебойному использованию аппаратного ускорения процессоров, графических процессоров и нейронных процессоров, LiteRT обеспечивает передовую производительность для вывода генеративного ИИ на устройствах.

Для развертывания сложных моделей GenAI можно использовать следующий интегрированный технологический стек:

  • Torch Generative API : модуль Python в библиотеке AI Edge Torch для создания и преобразования моделей PyTorch GenAI. Он предоставляет оптимизированные строительные блоки, обеспечивающие высокопроизводительное выполнение на устройствах. Подробнее см. раздел «Преобразование моделей PyTorch GenAI» .

  • LiteRT-LM : Специализированный слой оркестрации, построенный поверх LiteRT для управления сложностями, специфичными для LLM, такими как клонирование сессий, управление кэшем ключ-значение, кэширование/оценка подсказок, вывод с сохранением состояния. Подробнее см. репозиторий LiteRT-LM на GitHub .

  • LiteRT Converter and Runtime : базовый движок, обеспечивающий эффективное преобразование моделей, выполнение в режиме реального времени и оптимизацию, а также расширенное аппаратное ускорение на ЦП, ГП и НПУ.

LiteRT GenAI Model Zoo

LiteRT поддерживает постоянно пополняющуюся коллекцию популярных моделей с открытыми весами в сообществе LiteRT Hugging Face Community . Эти модели предварительно преобразованы и оптимизированы для немедленного развертывания, что позволяет использовать максимальную производительность на процессорах, видеокартах и ​​нейронных процессорах сразу после установки.

Основные выводы