LiteRT обеспечивает высокопроизводительное развертывание моделей генеративного ИИ на мобильных, настольных и веб-платформах. Благодаря бесперебойному использованию аппаратного ускорения процессоров, графических процессоров и нейронных процессоров, LiteRT обеспечивает передовую производительность для вывода генеративного ИИ на устройствах.
Для развертывания сложных моделей GenAI можно использовать следующий интегрированный технологический стек:
Torch Generative API : модуль Python в библиотеке AI Edge Torch для создания и преобразования моделей PyTorch GenAI. Он предоставляет оптимизированные строительные блоки, обеспечивающие высокопроизводительное выполнение на устройствах. Подробнее см. раздел «Преобразование моделей PyTorch GenAI» .
LiteRT-LM : Специализированный слой оркестрации, построенный поверх LiteRT для управления сложностями, специфичными для LLM, такими как клонирование сессий, управление кэшем ключ-значение, кэширование/оценка подсказок, вывод с сохранением состояния. Подробнее см. репозиторий LiteRT-LM на GitHub .
LiteRT Converter and Runtime : базовый движок, обеспечивающий эффективное преобразование моделей, выполнение в режиме реального времени и оптимизацию, а также расширенное аппаратное ускорение на ЦП, ГП и НПУ.
LiteRT GenAI Model Zoo
LiteRT поддерживает постоянно пополняющуюся коллекцию популярных моделей с открытыми весами в сообществе LiteRT Hugging Face Community . Эти модели предварительно преобразованы и оптимизированы для немедленного развертывания, что позволяет использовать максимальную производительность на процессорах, видеокартах и нейронных процессорах сразу после установки.
- Семья Джеммы
- Джемма 3 270М
- Джемма 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- Функция Gemma 270M
- Семья Квен
- Лама
- Фи
- SmoLM
- FastVLM
Основные выводы
- MediaTek NPU и LiteRT: основа для следующего поколения встроенного искусственного интеллекта.
- Раскрытие максимальной производительности на NPU Qualcomm с помощью LiteRT
- Встроенная функция GenAI в Chrome, Chromebook Plus и Pixel Watch с LiteRT-LM
- Встроенные в устройство небольшие языковые модели с поддержкой мультимодальности, RAG и вызовом функций.
- Gemma 3 на мобильных устройствах и в веб-версии с Google AI Edge