Khi các mô hình AI dành cho thiết bị di động phát triển, nhà phát triển LiteRT cần tối đa hoá hiệu suất. NPU ngày càng đóng vai trò quan trọng đối với AI trên thiết bị, mang lại độ trễ thấp hơn, thông lượng cao hơn và giảm mức tiêu thụ điện năng so với CPU và GPU. Việc tận dụng NPU Qualcomm® thông qua Qualcomm AI Engine Direct Delegate giúp cải thiện đáng kể hiệu suất của ứng dụng AI dành cho thiết bị di động trên thiết bị Snapdragon. Khi cộng tác với Qualcomm, nhóm Google AI Edge sẽ minh hoạ cách tích hợp trình uỷ quyền này vào các ứng dụng Android, làm nổi bật mức tăng hiệu suất so với các bộ xử lý truyền thống và hướng dẫn cách bắt đầu.
Qualcomm AI Engine Direct Delegate
Qualcomm AI Engine Direct Delegate cho phép người dùng chạy các mô hình LiteRT bằng cách sử dụng ngăn xếp AI của Qualcomm. Việc sử dụng Qualcomm AI Engine Direct Delegate là điều cần thiết để chạy quy trình suy luận trên NPU cho mô hình LiteRT trên thiết bị. Các thiết bị được hỗ trợ bao gồm:
- Snapdragon 8 Gen 1 (SM8450)
- Snapdragon 8 Gen 2 (SM8550)
- Snapdragon 8 Gen 3 (SM8650)
- Snapdragon 8 Elite (SM8750)
- và nhiều tính năng khác
Các ứng dụng trên những thiết bị này sẽ được hưởng lợi từ ngăn xếp AI của Qualcomm bằng cách nhắm đến NPU, bộ xử lý này sẽ mang lại hiệu suất tốt nhất cho các mô hình AI.
Cách tận dụng NPU bằng tính năng Uỷ quyền trực tiếp của công cụ AI của Qualcomm
Trước tiên, hãy tải Qualcomm AI Engine Direct Delegate có trên Maven Central xuống. Để thiết lập trình uỷ quyền trong Ứng dụng Java Android, bạn cần có các phần phụ thuộc sau:
dependencies {
implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }
Cách sử dụng đối tượng uỷ quyền:
try {
// Created default Options
QnnDelegate.Options options = new QnnDelegate.Options();
// Set the backend and library path
options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
// Create the Delegate instance.
qnnDelegate = new QnnDelegate(options);
tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
// Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);
Để xem ví dụ về một ứng dụng Android sử dụng QNN Delegate cho LiteRT, hãy xem Ứng dụng mẫu Android của Qualcomm AI Hub.
Lợi ích về hiệu suất
Trên các thiết bị có SOC Snapdragon với Bộ xử lý Tensor Hexagon của Qualcomm®, hầu hết các mẫu đều hoạt động nhanh hơn đáng kể so với GPU và CPU. HTP cũng là một bộ xử lý tiết kiệm điện năng hơn để tính toán mạng nơron. MobileNetv2, một mô hình nguồn mở, được tối ưu hoá trước trong Mô hình AI Hub, được dùng làm mẫu cho phân tích hiệu suất này.
Thiết bị | NPU (Đại diện QNN cho HTP) | GPU (GPUv2) | CPU (XNNPACK) |
---|---|---|---|
Samsung S25 | 0,3 mili giây | 1,8 mili giây | 2,8 mili giây |
Samsung S24 | 0,4 mili giây | 2,3 mili giây | 3,6 mili giây |
Samsung S23 | 0,6 mili giây | 2,7 mili giây | 4,1 mili giây |
Thiết bị | NPU (Đại diện QNN cho HTP) | GPU (GPUv2) | CPU (XNNPACK) |
---|---|---|---|
Samsung S25 | 24,9 mili giây | 43 mili giây | 481,7 mili giây |
Samsung S24 | 29,8 mili giây | 52,6 mili giây | 621,4 mili giây |
Samsung S23 | 43,7 mili giây | 68,2 mili giây | 871,1 mili giây |
Sản phẩm mang thương hiệu Snapdragon và Qualcomm là sản phẩm của Qualcomm Technologies, Inc. và/hoặc các công ty con của công ty này.
Bước tiếp theo
Hãy theo dõi để biết thêm thông tin cập nhật thú vị về cách tận dụng NPU một cách liền mạch cho việc phát triển ứng dụng AI bằng LiteRT Next!