Обзор LiteRT-LM

LiteRT-LM — это готовая к использованию в производственных условиях платформа для выполнения инференции с открытым исходным кодом, разработанная для обеспечения высокопроизводительного кроссплатформенного развертывания LLM на периферийных устройствах.

Основные характеристики

  • Кроссплатформенная поддержка: работает на Android, iOS, в веб-браузере и на настольных компьютерах.
  • Аппаратное ускорение:
    • Графический процессор: работает на базе ML Drift и поддерживает как модели машинного обучения, так и модели генеративного искусственного интеллекта.
    • NPU: Ускоренное выполнение вычислений на устройствах с чипсетами Qualcomm и MediaTek (ранний доступ).
  • Многорежимность: поддержка видеоввода и аудиовхода.
  • Использование инструмента: Поддержка вызова функций для агентных рабочих процессов.
  • Широкая поддержка моделей: запуск Gemma, Llama, Phi-4, Qwen и других.

Поддерживаемые бэкэнды и платформы

Платформа Поддержка ЦП Поддержка графических процессоров Поддержка NPU
Android
iOS -
macOS -
Windows -
Linux -
Встроенный - -

Быстрый старт

Хотите сначала попробовать? Прежде чем приступать к полной настройке, вы можете использовать предварительно собранные бинарные файлы для настольных компьютеров или приложение Google AI Edge Gallery для мобильных устройств, чтобы сразу же запустить LiteRT-LM.

Мобильные приложения

Google AI Edge Gallery — это демонстрационное приложение, которое предоставляет вам доступ к возможностям передовых моделей генеративного искусственного интеллекта, работающих на платформе LiteRT-LM.

Интерфейс командной строки рабочего стола

После загрузки исполняемого файла lit просто запустите lit , чтобы увидеть доступные параметры.

Выберите свою платформу

Язык Статус Лучше всего подходит для... Документация
Котлин
Стабильный
Нативные приложения для Android и настольные инструменты на базе JVM. Оптимизированы для сопрограмм. Справочник API Kotlin
C++
Стабильный
Высокопроизводительные кроссплатформенные логические компоненты и встроенные системы. Справочник по API C++
Быстрый 🚀
В разработке
Встроенная интеграция с iOS и macOS со специализированной поддержкой Metal. Вскоре
Python 🚀
В разработке
Быстрое прототипирование, разработка и написание скриптов для настольных компьютеров. Вскоре

Поддерживаемые модели

В таблице ниже представлен пример моделей, которые полностью поддерживаются и протестированы с помощью LiteRT-LM.

Примечание: "Chat Ready" обозначает модели, оптимизированные для работы в чате (инструкция по настройке). "Базовые" модели часто требуют тонкой настройки для оптимальной работы в чате, если только они не используются для выполнения определенных действий автодополнения.

Модель Тип Квантование Длина контекста Размер (МБ) Скачать
Джемма
Gemma3-1B Чат готов 4 бита на канал 4096 557 Скачать
Gemma-3n-E2B Чат готов 4 бита на канал 4096 2965 Скачать
Gemma-3n-E4B Чат готов 4 бита на канал 4096 4235 Скачать
FunctionGemma-270M Базовая версия (требуется доработка) 8 бит на канал 1024 288 Руководство по тонкой настройке
↪ TinyGarden-270M Демо 8 бит на канал 1024 288 Скачать / Попробовать приложение
Лама
Лама-3.2-1B-Инструкция Чат готов 8 бит на канал 8192 1162 Скачать
Лама-3.2-3B-Инструкция Чат готов 8 бит на канал 8192 2893 Скачать
Фи
фи-4-мини Чат готов 8 бит на канал 4096 3728 Скачать
Квен
qwen2.5-1.5b Чат готов 8 бит на канал 4096 1524 Скачать

Производительность

Ниже приведены показатели производительности каждой модели на различных устройствах. Обратите внимание, что тестирование проводилось с предварительным заполнением 1024 токенов и декодированием 256 токенов (с блокировкой производительности на устройствах Android).

Модель Устройство Бэкенд Предварительное заполнение (токенов/сек) Декодирование (токенов/сек) Размер контекста
Gemma3-1B MacBook Pro
(2023 М3)
Процессор 423 67 4096
Gemma3-1B Samsung S24
(Ультра)
Процессор 243 44 4096
Gemma3-1B Samsung S24
(Ультра)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ультра)
НПУ 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 М3)
Процессор 233 28 4096
Gemma-3n-E2B Samsung S24
(Ультра)
Процессор 111 16 4096
Gemma-3n-E2B Samsung S24
(Ультра)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 М3)
Процессор 170 20 4096
Gemma-3n-E4B Samsung S24
(Ультра)
Процессор 74 9 4096
Gemma-3n-E4B Samsung S24
(Ультра)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ультра)
Процессор 1718 126 1024

Примечание: При первой загрузке данной модели на данное устройство загрузка займет больше времени, поскольку происходит оптимизация весов. Последующие загрузки будут происходить быстрее благодаря кэшированию.

Размещение и развертывание моделей

Когда модель превышает лимит загрузки "по воздуху" (часто около 1,5 ГБ), требуется стратегия удаленной загрузки.

  • Firebase: Рекомендуется для загрузки больших файлов на Android и iOS .
  • API HuggingFace: Получайте модели напрямую, используя API HuggingFace .

Сообщение о проблемах

Если вы обнаружили ошибку или у вас есть предложение по улучшению функционала, пожалуйста, используйте страницу проблем LiteRT-LM на GitHub .