LiteRT-LM — это кроссплатформенная библиотека, разработанная для эффективного запуска конвейеров обработки языковых моделей на широком спектре устройств, от мобильных телефонов до встроенных систем. Она предоставляет разработчикам инструменты для создания и развертывания сложных рабочих процессов обработки языковых моделей, теперь с бесшовной интеграцией с нейропроцессорами (NPU).
Запуск LLM на ЦП и ГП
Подробные инструкции по кроссплатформенной разработке и аппаратному ускорению на CPU/GPU см. в репозитории LiteRT-LM на GitHub.
Запуск LLM на NPU
Нейронные процессоры (NPU) представляют собой специализированные аппаратные блоки, оптимизированные для задач глубокого обучения. Они все чаще встречаются в современных системах на кристалле (SoC), особенно в мобильных устройствах. Их высокая производительность делает их отличным решением для выполнения инференса LLM.
Поставщики НПУ
LiteRT-LM поддерживает запуск LLM с использованием ускорения NPU у следующих производителей. Выберите инструкции в зависимости от того, какого производителя вы хотите попробовать:
Быстрый старт
- Для настройки среды и репозитория выполните следующие действия, указанные в разделе «Предварительные требования» .
- Убедитесь, что
adbустановлен и устройство подключено. - См. руководство по быстрому запуску и демонстрационный пример командной строки
litert_lm_main.
Qualcomm AI Engine Direct
Шаг 1: Загрузите модель
.litertlm
Загрузите файл .litertlm , соответствующий вашему SoC (примеры ниже). Вы можете запросить информацию о SoC вашего устройства:
SOC_MODEL=$(adb shell getprop ro.soc.model | tr '[:upper:]' '[:lower:]')
echo "https://huggingface.co/litert-community/Gemma3-1B-IT/blob/main/Gemma3-1B-IT_q4_ekv1280_${SOC_MODEL}.litertlm"
| Модель | SoC | Квантование | Размер контекста | Размер модели (МБ) | Скачать |
|---|---|---|---|---|---|
| Gemma3-1B | SM8750 | 4 бита на канал | 1280 | 658 | скачать |
| Gemma3-1B | SM8650 | 4 бита на канал | 1280 | 658 | скачать |
| Gemma3-1B | SM8550 | 4 бита на канал | 1280 | 657 | скачать |
Шаг 2: Загрузите и распакуйте библиотеки QAIRT.
Загрузите SDK QAIRT, распакуйте его и установите QAIRT_ROOT :
unzip <your_file.zip> -d ~/
QAIRT_ROOT=~/qairt/2.34.0.250424
Шаг 3: Сборка среды выполнения / библиотек LiteRT-LM
Установите Android NDK r28b+ и выполните сборку:
bazel build --config=android_arm64 //runtime/engine:litert_lm_main
bazel build --config=android_arm64 \
@litert//litert/vendors/qualcomm/dispatch:dispatch_api_so
Шаг 4: Запустите модель на устройстве.
Укажите путь к вашему устройству и загрузите ресурсы:
export DEVICE_FOLDER=/data/local/tmp/
adb shell mkdir -p $DEVICE_FOLDER
export MODEL_PATH=<path-to-model.litertlm>
adb push $MODEL_PATH $DEVICE_FOLDER/model.litertlm
adb push $QAIRT_ROOT/lib/aarch64-android/* $DEVICE_FOLDER/
adb push bazel-bin/runtime/engine/litert_lm_main $DEVICE_FOLDER/
adb shell chmod +x $DEVICE_FOLDER/litert_lm_main
Бегать:
adb shell "cd $DEVICE_FOLDER && \
QAIRT_ROOT=$DEVICE_FOLDER \
./litert_lm_main --model=model.litertlm \
--prompt='Explain the history of LiteRT in 3 bullet points' \
--device=qualcomm_npu --rounds=1"
MediaTek NeuroPilot
Обзор этапов
Процесс MediaTek аналогичен процессу Qualcomm: используйте файл .litertlm собранный для вашего SoC, включите библиотеки среды выполнения NeuroPilot, соберите litert_lm_main , загрузите ресурсы и запустите с --device=mediatek_npu .