Sử dụng NPU Qualcomm để phát triển AI di động bằng LiteRT

Khi các mô hình AI dành cho thiết bị di động phát triển, nhà phát triển LiteRT cần tối đa hoá hiệu suất. NPU ngày càng đóng vai trò quan trọng đối với AI trên thiết bị, mang lại độ trễ thấp hơn, thông lượng cao hơn và giảm mức tiêu thụ điện năng so với CPU và GPU. Việc tận dụng NPU Qualcomm® thông qua Qualcomm AI Engine Direct Delegate giúp cải thiện đáng kể hiệu suất của ứng dụng AI dành cho thiết bị di động trên thiết bị Snapdragon. Khi cộng tác với Qualcomm, nhóm Google AI Edge sẽ minh hoạ cách tích hợp trình uỷ quyền này vào các ứng dụng Android, làm nổi bật mức tăng hiệu suất so với các bộ xử lý truyền thống và hướng dẫn cách bắt đầu.

Qualcomm AI Engine Direct Delegate

Qualcomm AI Engine Direct Delegate cho phép người dùng chạy các mô hình LiteRT bằng cách sử dụng ngăn xếp AI của Qualcomm. Việc sử dụng Qualcomm AI Engine Direct Delegate là điều cần thiết để chạy quy trình suy luận trên NPU cho mô hình LiteRT trên thiết bị. Các thiết bị được hỗ trợ bao gồm:

Các ứng dụng trên những thiết bị này sẽ được hưởng lợi từ ngăn xếp AI của Qualcomm bằng cách nhắm đến NPU, bộ xử lý này sẽ mang lại hiệu suất tốt nhất cho các mô hình AI.

Cách tận dụng NPU bằng tính năng Uỷ quyền trực tiếp của công cụ AI của Qualcomm

Trước tiên, hãy tải Qualcomm AI Engine Direct Delegate có trên Maven Central xuống. Để thiết lập trình uỷ quyền trong Ứng dụng Java Android, bạn cần có các phần phụ thuộc sau:

dependencies {
 implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
 implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }

Cách sử dụng đối tượng uỷ quyền:

try {
  // Created default Options
  QnnDelegate.Options options = new QnnDelegate.Options();
  // Set the backend and library path
  options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
  options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
  // Create the Delegate instance.
  qnnDelegate = new QnnDelegate(options);
  tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
  // Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);

Để xem ví dụ về một ứng dụng Android sử dụng QNN Delegate cho LiteRT, hãy xem Ứng dụng mẫu Android của Qualcomm AI Hub.

Lợi ích về hiệu suất

Trên các thiết bị có SOC Snapdragon với Bộ xử lý Tensor Hexagon của Qualcomm®, hầu hết các mẫu đều hoạt động nhanh hơn đáng kể so với GPU và CPU. HTP cũng là một bộ xử lý tiết kiệm điện năng hơn để tính toán mạng nơron. MobileNetv2, một mô hình nguồn mở, được tối ưu hoá trước trong Mô hình AI Hub, được dùng làm mẫu cho phân tích hiệu suất này.

Thiết bị NPU (Đại diện QNN cho HTP) GPU (GPUv2) CPU (XNNPACK)
Samsung S25 0,3 mili giây 1,8 mili giây 2,8 mili giây
Samsung S24 0,4 mili giây 2,3 mili giây 3,6 mili giây
Samsung S23 0,6 mili giây 2,7 mili giây 4,1 mili giây
Thiết bị NPU (Đại diện QNN cho HTP) GPU (GPUv2) CPU (XNNPACK)
Samsung S25 24,9 mili giây 43 mili giây 481,7 mili giây
Samsung S24 29,8 mili giây 52,6 mili giây 621,4 mili giây
Samsung S23 43,7 mili giây 68,2 mili giây 871,1 mili giây

Sản phẩm mang thương hiệu Snapdragon và Qualcomm là sản phẩm của Qualcomm Technologies, Inc. và/hoặc các công ty con của công ty này.

Bước tiếp theo

Hãy theo dõi để biết thêm thông tin cập nhật thú vị về cách tận dụng NPU một cách liền mạch cho việc phát triển ứng dụng AI bằng LiteRT Next!