Обзор LiteRT-LM

LiteRT-LM — это готовая к использованию в производственных условиях платформа для выполнения инференции с открытым исходным кодом, разработанная для обеспечения высокопроизводительного кроссплатформенного развертывания LLM на периферийных устройствах.

Кроссплатформенная поддержка: работает на Android, iOS, в веб-браузере, на настольных компьютерах и устройствах IoT (например, Raspberry Pi).
Аппаратное ускорение: Добейтесь максимальной производительности и стабильности системы, используя ускорители GPU и NPU на различном оборудовании.
Мультимодальность: Создание моделей на основе LLM, поддерживающих визуальное и звуковое восприятие.
Использование инструмента: Поддержка вызова функций для агентных рабочих процессов с ограниченным декодированием для повышения точности.
Широкая поддержка моделей: запуск Gemma, Llama, Phi-4, Qwen и других.

Что нового ( v0.12.0 )

API Swift : Интегрируйте LiteRT-LM в iOS-приложения с помощью ускорения Metal GPU. См. руководство по Swift .
Веб-API JavaScript : Запуск моделей в веб-браузерах с высокой производительностью с использованием веб-GPU/CPU. См. руководство по JavaScript .
Обновление CLI/API Python для LiteRT-LM : Интерфейс командной строки и API Python теперь поддерживают NPU, помимо CPU и GPU, в Linux, macOS и Windows. См. руководство по CLI .
Поддерживаемые сообществом API Flutter : Создавайте кроссплатформенные приложения Flutter, используя пакет flutter_gemma, поддерживаемый сообществом. См. руководство Flutter .

Демонстрация возможностей GenAI на устройстве

Скриншот из галереи Google AI Edge

Google AI Edge Gallery — это экспериментальное приложение, разработанное для демонстрации возможностей генеративного ИИ на устройстве, работающее полностью в автономном режиме с использованием LiteRT-LM.

Google Play : Используйте LLM-модули локально на поддерживаемых устройствах Android.
App Store : Оцените возможности искусственного интеллекта на вашем устройстве iOS.
Исходный код на GitHub : Просмотрите исходный код приложения галереи, чтобы узнать, как интегрировать LiteRT-LM в ваши собственные проекты.

Представленная модель: Gemma-4-E2B

Размер модели: 2,58 ГБ

Дополнительные технические характеристики приведены в описании модели HuggingFace.

Платформа (Устройство)	Бэкенд	Предварительное заполнение (тк/с)	Декодирование (тк/с)	Время до получения первого токена (секунды)	Максимальное потребление памяти ЦП (МБ)
Android (S26 Ultra)	Процессор	557	47	1.8	1733
Android (S26 Ultra)	GPU	3808	52	0.3	676
iOS (iPhone 17 Pro)	Процессор	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0.3	1450
Linux (Arm 2.3 и 2.8 ГГц, NVIDIA GeForce RTX 4090)	Процессор	260	35	4	1628
Linux (Arm 2.3 и 2.8 ГГц, NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	Процессор	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
Windows (Intel LunarLake)	Процессор	435	30	2.4	3505
Windows (Intel LunarLake)	GPU	3751	48	0.3	3540
Интернет вещей (Raspberry Pi 5 16 ГБ)	Процессор	133	8	7.8	1546

Начало строительства

LiteRT-LM предоставляет API для нескольких языков программирования и платформ, что помогает быстро создавать приложения искусственного интеллекта для устройств. Выберите руководство ниже, чтобы начать:

Язык	Статус	Лучше всего подходит для...	Документация
CLI	✅ Стабильный	Начать работу с LiteRT-LM менее чем за 1 минуту.	Руководство по интерфейсу командной строки
Python	✅ Стабильный	Быстрое прототипирование и разработка на настольных компьютерах и Raspberry Pi.	Руководство по Python
Котлин	✅ Стабильный	Нативные приложения для Android и настольные инструменты на базе JVM. Оптимизированы для сопрограмм.	Руководство по Kotlin
Быстрый	🚀 Предварительный просмотр	Встроенная интеграция с iOS и macOS со специализированной поддержкой Metal.	Быстрые путеводители
JavaScript (веб)	🚀 Предварительный просмотр	Развертывайте модели непосредственно в веб-браузерах с высокой производительностью.	Руководство по JavaScript
Порхание	🚀 Сообщество	Кроссплатформенные Flutter-приложения с использованием библиотеки `flutter_gemma` от сообщества.	Руководство по Flutter
C++	✅ Стабильный	Высокопроизводительные кроссплатформенные логические компоненты и встроенные системы.	Руководство по C++

Сборка из исходного кода

Если вы хотите настроить LiteRT-LM или собрать его для конкретной аппаратной конфигурации, вы можете скомпилировать его непосредственно из исходного кода. Пошаговые инструкции по настройке среды и сборке фреймворка см. в руководстве по сборке и запуску LiteRT-LM на GitHub.

Поддерживаемые бэкэнды и платформы

Ускорение	Android	iOS	macOS	Windows	Linux	Интернет вещей
Процессор	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
НПУ	✅	-	-	🚀	-	-

Поддерживаемые модели

В таблице ниже перечислены модели, поддерживаемые LiteRT-LM. Более подробные данные о производительности и список моделей видеокарт можно найти в сообществе LiteRT на Hugging Face .

Модель	Тип	Размер (МБ)	Подробности	Устройство	Предварительное заполнение ЦП (тк/с)	Декодирование ЦП (тк/с)	Предварительное заполнение GPU (тк/с)	Декодирование на GPU (тк/с)
Gemma4-E2B	Чат	2583	Модель карты	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	Чат	3654	Модель карты	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	Чат	2965	Модель карты	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	Чат	4235	Модель карты	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	Чат	1005	Модель карты	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	База	289	Модель карты	Samsung S25 Ultra	2238	154	-	-
фи-4-мини	Чат	3906	Модель карты	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	Чат	1598	Модель карты	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	Чат	586	Модель карты	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	Чат	521	Модель карты	Samsung S24 Ultra	251	30	-	-

Сообщить о проблемах

Если вы обнаружили ошибку или у вас есть предложение по улучшению функционала, сообщите об этом в разделе Issues на GitHub проекта LiteRT-LM .