Cómo usar las NPU de Qualcomm para el desarrollo de IA para dispositivos móviles con LiteRT

A medida que crecen los modelos de IA para dispositivos móviles, los desarrolladores de LiteRT deben maximizar el rendimiento. Las NPU son cada vez más fundamentales para la IA integrada en el dispositivo, ya que ofrecen una latencia más baja, una mayor capacidad de procesamiento y un consumo de energía reducido en comparación con las CPUs y las GPUs. Aprovechar las NPU de Qualcomm® a través del delegado directo del motor de IA de Qualcomm mejora significativamente el rendimiento de las apps de IA para dispositivos móviles en dispositivos Snapdragon. En colaboración con Qualcomm, el equipo de Google AI Edge demostrará la integración de este delegado en apps para Android, destacando las mejoras de rendimiento en comparación con los procesadores tradicionales y mostrando cómo comenzar.

Delegado directo de Qualcomm AI Engine

El delegado directo de Qualcomm AI Engine permite a los usuarios ejecutar modelos de LiteRT con la pila de IA de Qualcomm. Usar el delegado directo de Qualcomm AI Engine es esencial para ejecutar inferencias en la NPU para tu modelo LiteRT integrado en el dispositivo. Entre los dispositivos compatibles, se incluyen los siguientes:

Snapdragon 8 Gen 1 (SM8450)
Snapdragon 8 Gen 2 (SM8550)
Snapdragon 8 Gen 3 (SM8650)
Snapdragon 8 Elite (SM8750)
and more

Las aplicaciones en estos dispositivos se beneficiarán de la pila de IA de Qualcomm, ya que se orientarán a la NPU, que proporciona el mejor rendimiento para los modelos de IA.

Cómo aprovechar la NPU con el delegado directo de Qualcomm AI Engine

Primero, descarga el delegado directo de Qualcomm AI Engine disponible en Maven Central. Para configurar el delegado en una aplicación de Java para Android, se necesitan las siguientes dependencias:

dependencies {
 implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
 implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }

Para usar el delegado, haz lo siguiente:

try {
  // Created default Options
  QnnDelegate.Options options = new QnnDelegate.Options();
  // Set the backend and library path
  options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
  options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
  // Create the Delegate instance.
  qnnDelegate = new QnnDelegate(options);
  tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
  // Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);

Para ver un ejemplo de una app para Android que usa el delegado de QNN para LiteRT, consulta las apps de ejemplo para Android de Qualcomm AI Hub.

Beneficios de rendimiento

En los dispositivos con SoC Snapdragon con el procesador Qualcomm® Hexagon Tensor, la mayoría de los modelos tienen un rendimiento significativamente más rápido en comparación con la GPU y la CPU. El HTP también es un procesador más eficiente en cuanto a la energía para el procesamiento de redes neuronales. MobileNetv2, un modelo de código abierto, previamente optimizado como parte de los modelos de AI Hub, se usó como muestra para este análisis de rendimiento.

Dispositivo	NPU (delegado de QNN para HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	0.3 ms	1.8 ms	2.8 ms
Samsung S24	0.4 ms	2.3 ms	3.6 ms
Samsung S23	0.6 ms	2.7 ms	4.1 ms

Dispositivo	NPU (delegado de QNN para HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	24.9 ms	43 ms	481.7 ms
Samsung S24	29.8 ms	52.6 ms	621.4 ms
Samsung S23	43.7 ms	68.2 ms	871.1 ms

Los productos con la marca Snapdragon y Qualcomm son productos de Qualcomm Technologies, Inc. o de sus subsidiarias.

Pasos siguientes

No te pierdas las novedades más emocionantes sobre cómo aprovechar las NPU sin problemas para el desarrollo de aplicaciones de IA con LiteRT Next.