LiteRT-LM — это готовая к использованию в производственных условиях платформа для выполнения инференции с открытым исходным кодом, разработанная для обеспечения высокопроизводительного кроссплатформенного развертывания LLM на периферийных устройствах.
Основные характеристики
- Кроссплатформенная поддержка: работает на Android, iOS, в веб-браузере и на настольных компьютерах.
- Аппаратное ускорение:
- Графический процессор: работает на базе ML Drift и поддерживает как модели машинного обучения, так и модели генеративного искусственного интеллекта.
- NPU: Ускоренное выполнение вычислений на устройствах с чипсетами Qualcomm и MediaTek (ранний доступ).
- Многорежимность: поддержка видеоввода и аудиовхода.
- Использование инструмента: Поддержка вызова функций для агентных рабочих процессов.
- Широкая поддержка моделей: запуск Gemma, Llama, Phi-4, Qwen и других.
Поддерживаемые бэкэнды и платформы
| Платформа | Поддержка ЦП | Поддержка графических процессоров | Поддержка NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Встроенный | ✅ | - | - |
Быстрый старт
Хотите сначала попробовать? Прежде чем приступать к полной настройке, вы можете использовать предварительно собранные бинарные файлы для настольных компьютеров или приложение Google AI Edge Gallery для мобильных устройств, чтобы сразу же запустить LiteRT-LM.
Мобильные приложения
Google AI Edge Gallery — это демонстрационное приложение, которое предоставляет вам доступ к возможностям передовых моделей генеративного искусственного интеллекта, работающих на платформе LiteRT-LM.
Интерфейс командной строки рабочего стола
После загрузки исполняемого файла lit просто запустите lit , чтобы увидеть доступные параметры.
Выберите свою платформу
| Язык | Статус | Лучше всего подходит для... | Документация |
|---|---|---|---|
| Котлин | ✅ Стабильный | Нативные приложения для Android и настольные инструменты на базе JVM. Оптимизированы для сопрограмм. | Справочник API Kotlin |
| C++ | ✅ Стабильный | Высокопроизводительные кроссплатформенные логические компоненты и встроенные системы. | Справочник по API C++ |
| Быстрый | 🚀 В разработке | Встроенная интеграция с iOS и macOS со специализированной поддержкой Metal. | Вскоре |
| Python | 🚀 В разработке | Быстрое прототипирование, разработка и написание скриптов для настольных компьютеров. | Вскоре |
Поддерживаемые модели
В таблице ниже представлен пример моделей, которые полностью поддерживаются и протестированы с помощью LiteRT-LM.
Примечание: "Chat Ready" обозначает модели, оптимизированные для работы в чате (инструкция по настройке). "Базовые" модели часто требуют тонкой настройки для оптимальной работы в чате, если только они не используются для выполнения определенных действий автодополнения.
| Модель | Тип | Квантование | Длина контекста | Размер (МБ) | Скачать |
|---|---|---|---|---|---|
| Джемма | |||||
| Gemma3-1B | Чат готов | 4 бита на канал | 4096 | 557 | Скачать |
| Gemma-3n-E2B | Чат готов | 4 бита на канал | 4096 | 2965 | Скачать |
| Gemma-3n-E4B | Чат готов | 4 бита на канал | 4096 | 4235 | Скачать |
| FunctionGemma-270M | Базовая версия (требуется доработка) | 8 бит на канал | 1024 | 288 | Руководство по тонкой настройке |
| ↪ TinyGarden-270M | Демо | 8 бит на канал | 1024 | 288 | Скачать / Попробовать приложение |
| Лама | |||||
| Лама-3.2-1B-Инструкция | Чат готов | 8 бит на канал | 8192 | 1162 | Скачать |
| Лама-3.2-3B-Инструкция | Чат готов | 8 бит на канал | 8192 | 2893 | Скачать |
| Фи | |||||
| фи-4-мини | Чат готов | 8 бит на канал | 4096 | 3728 | Скачать |
| Квен | |||||
| qwen2.5-1.5b | Чат готов | 8 бит на канал | 4096 | 1524 | Скачать |
Производительность
Ниже приведены показатели производительности каждой модели на различных устройствах. Обратите внимание, что тестирование проводилось с предварительным заполнением 1024 токенов и декодированием 256 токенов (с блокировкой производительности на устройствах Android).
| Модель | Устройство | Бэкенд | Предварительное заполнение (токенов/сек) | Декодирование (токенов/сек) | Размер контекста |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 М3) | Процессор | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ультра) | Процессор | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ультра) | GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ультра) | НПУ | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 М3) | Процессор | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ультра) | Процессор | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ультра) | GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 М3) | Процессор | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ультра) | Процессор | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ультра) | GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ультра) | Процессор | 1718 | 126 | 1024 |
Примечание: При первой загрузке данной модели на данное устройство загрузка займет больше времени, поскольку происходит оптимизация весов. Последующие загрузки будут происходить быстрее благодаря кэшированию.
Размещение и развертывание моделей
Когда модель превышает лимит загрузки "по воздуху" (часто около 1,5 ГБ), требуется стратегия удаленной загрузки.
- Firebase: Рекомендуется для загрузки больших файлов на Android и iOS .
- API HuggingFace: Получайте модели напрямую, используя API HuggingFace .
Сообщение о проблемах
Если вы обнаружили ошибку или у вас есть предложение по улучшению функционала, пожалуйста, используйте страницу проблем LiteRT-LM на GitHub .