Запускайте LLM с помощью LiteRT-LM.

LiteRT-LM — это кроссплатформенная библиотека, разработанная для эффективного запуска конвейеров обработки языковых моделей на широком спектре устройств, от мобильных телефонов до встроенных систем. Она предоставляет разработчикам инструменты для создания и развертывания сложных рабочих процессов обработки языковых моделей, теперь с бесшовной интеграцией с нейропроцессорами (NPU).

Запуск LLM на ЦП и ГП

Подробные инструкции по кроссплатформенной разработке и аппаратному ускорению на CPU/GPU см. в репозитории LiteRT-LM на GitHub.

Запуск LLM на NPU

Нейронные процессоры (NPU) представляют собой специализированные аппаратные блоки, оптимизированные для задач глубокого обучения. Они все чаще встречаются в современных системах на кристалле (SoC), особенно в мобильных устройствах. Их высокая производительность делает их отличным решением для выполнения инференса LLM.

Поставщики НПУ

LiteRT-LM поддерживает запуск LLM с использованием ускорения NPU у следующих производителей. Выберите инструкции в зависимости от того, какого производителя вы хотите попробовать:

Qualcomm AI Engine Direct
MediaTek NeuroPilot

Быстрый старт

Для настройки среды и репозитория выполните следующие действия, указанные в разделе «Предварительные требования» .
Убедитесь, что adb установлен и устройство подключено.
См. руководство по быстрому запуску и демонстрационный пример командной строки litert_lm_main .

Qualcomm AI Engine Direct

Шаг 1: Загрузите модель .litertlm

Загрузите файл .litertlm , соответствующий вашему SoC (примеры ниже). Вы можете запросить информацию о SoC вашего устройства:

SOC_MODEL=$(adb shell getprop ro.soc.model | tr '[:upper:]' '[:lower:]')
echo "https://huggingface.co/litert-community/Gemma3-1B-IT/blob/main/Gemma3-1B-IT_q4_ekv1280_${SOC_MODEL}.litertlm"

Модель	SoC	Квантование	Размер контекста	Размер модели (МБ)	Скачать
Gemma3-1B	SM8750	4 бита на канал	1280	658	скачать
Gemma3-1B	SM8650	4 бита на канал	1280	658	скачать
Gemma3-1B	SM8550	4 бита на канал	1280	657	скачать

Шаг 2: Загрузите и распакуйте библиотеки QAIRT.

Загрузите SDK QAIRT, распакуйте его и установите QAIRT_ROOT :

unzip <your_file.zip> -d ~/
QAIRT_ROOT=~/qairt/2.34.0.250424

Шаг 3: Сборка среды выполнения / библиотек LiteRT-LM

Установите Android NDK r28b+ и выполните сборку:

bazel build --config=android_arm64 //runtime/engine:litert_lm_main
bazel build --config=android_arm64 \
    @litert//litert/vendors/qualcomm/dispatch:dispatch_api_so

Шаг 4: Запустите модель на устройстве.

Укажите путь к вашему устройству и загрузите ресурсы:

export DEVICE_FOLDER=/data/local/tmp/
adb shell mkdir -p $DEVICE_FOLDER
export MODEL_PATH=<path-to-model.litertlm>
adb push $MODEL_PATH $DEVICE_FOLDER/model.litertlm
adb push $QAIRT_ROOT/lib/aarch64-android/* $DEVICE_FOLDER/
adb push bazel-bin/runtime/engine/litert_lm_main $DEVICE_FOLDER/
adb shell chmod +x $DEVICE_FOLDER/litert_lm_main

Бегать:

adb shell "cd $DEVICE_FOLDER && \
  QAIRT_ROOT=$DEVICE_FOLDER \
  ./litert_lm_main --model=model.litertlm \
  --prompt='Explain the history of LiteRT in 3 bullet points' \
  --device=qualcomm_npu --rounds=1"

MediaTek NeuroPilot

Обзор этапов

Процесс MediaTek аналогичен процессу Qualcomm: используйте файл .litertlm собранный для вашего SoC, включите библиотеки среды выполнения NeuroPilot, соберите litert_lm_main , загрузите ресурсы и запустите с --device=mediatek_npu .