Giới thiệu Google AI Edge Portal: Đo điểm chuẩn AI trên thiết bị Edge trên quy mô lớn. Đăng ký để yêu cầu quyền truy cập trong bản xem trước riêng tư.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Suy luận trên thiết bị bằng LiteRT

API LiteRT CompiledModel thể hiện tiêu chuẩn hiện đại cho suy luận ML trên thiết bị, cung cấp chế độ tăng tốc phần cứng tinh giản có hiệu suất vượt trội hơn đáng kể so với API Interpreter. Giao diện này giúp đơn giản hoá việc triển khai các mô hình .tflite trên nhiều nền tảng biên bằng cách cung cấp trải nghiệm thống nhất cho nhà phát triển và các tính năng nâng cao được thiết kế để đạt được hiệu quả phần cứng tối đa.

Tại sao nên chọn API `CompiledModel`?

Mặc dù API Interpreter vẫn có sẵn để đảm bảo khả năng tương thích ngược, nhưng API CompiledModel là nơi các tính năng mới về hiệu suất và bộ tăng tốc được ưu tiên. Đây là lựa chọn nên dùng vì những lý do sau:

Tăng tốc GPU tốt nhất: Tận dụng ML Drift, thư viện tăng tốc GPU hiện đại, để cung cấp tính năng suy luận GPU đáng tin cậy trên các thiết bị di động, web, máy tính và IoT. Xem phần Tính năng tăng tốc GPU bằng LiteRT.
Quyền truy cập NPU hợp nhất: Cung cấp trải nghiệm nhất quán và duy nhất cho nhà phát triển để truy cập vào NPU của nhiều nhà cung cấp như Google Tensor, Qualcomm, MediaTek, loại bỏ các trình biên dịch và độ phức tạp của thời gian chạy dành riêng cho nhà cung cấp. Xem phần Tăng tốc NPU bằng LiteRT.
Tự động chọn phần cứng: Tự động chọn phần phụ trợ tối ưu trong số CPU, GPU và NPU, dựa trên phần cứng có sẵn và logic ưu tiên nội bộ, giúp bạn không cần phải định cấu hình uỷ quyền theo cách thủ công.
Thực thi không đồng bộ: Sử dụng các cơ chế cấp hệ điều hành (chẳng hạn như hàng rào đồng bộ hoá) để cho phép các bộ tăng tốc phần cứng kích hoạt trực tiếp khi hoàn thành các tác vụ trước đó mà không cần liên quan đến CPU. Điều này có thể giảm độ trễ lên đến 2 lần và đảm bảo trải nghiệm AI mượt mà, có tính tương tác cao hơn.
Quản lý bộ đệm I/O hiệu quả: Tận dụng API TensorBuffer để quản lý luồng dữ liệu hiệu suất cao giữa các bộ tăng tốc. Trong đó có khả năng tương tác vùng đệm sao chép bằng không trên AHardwareBuffer, OpenCL và OpenGL, giúp loại bỏ các bản sao dữ liệu tốn kém giữa các giai đoạn tiền xử lý, suy luận và hậu xử lý.

Bắt đầu sử dụng `CompiledModel` API

Đối với các mô hình học máy cũ, hãy xem các ứng dụng minh hoạ sau.
- Ứng dụng phân đoạn hình ảnh bằng Kotlin: Suy luận CPU/GPU/NPU.
- Ứng dụng phân đoạn hình ảnh bằng C++: Suy luận CPU/GPU/NPU bằng cách thực thi không đồng bộ.
Đối với các mô hình AI tạo sinh, hãy xem các ứng dụng minh hoạ sau:
- Ứng dụng C++ EmbeddingGemma về mức độ tương đồng ngữ nghĩa: Suy luận CPU/GPU/NPU.

Nền tảng được hỗ trợ

API LiteRT CompiledModel hỗ trợ các suy luận hiệu suất cao trên các thiết bị Android, iOS, Web, IoT và máy tính. Xem hướng dẫn dành riêng cho từng nền tảng.

Suy luận trên thiết bị bằng LiteRT

Tại sao nên chọn API CompiledModel?

Bắt đầu sử dụng CompiledModel API

Nền tảng được hỗ trợ

Tại sao nên chọn API `CompiledModel`?

Bắt đầu sử dụng `CompiledModel` API