使用 LiteRT 进行硬件加速

与 CPU 相比,现代移动设备和边缘设备配备了专门的图形处理单元 (GPU) 和神经处理单元 (NPU),能够将 AI 模型加速高达 25 倍,同时将功耗降低高达 5 倍。

LiteRT 通过统一的硬件加速堆栈简化了对这些专用芯片的访问。LiteRT 不会管理碎片化、特定于供应商的 SDK 或复杂的硬件 API,而是提供简化的 CompiledModel API,用于抽象化模型优化、内存管理和硬件调度方面的复杂性。

加速器类型

LiteRT 提供了一个统一的接口,用于在各种硬件后端上执行模型。借助 CompiledModel API,您可以使用设备端或预先 (AOT) 编译在这些加速器之间无缝切换,并自动回退到 CPU 以执行不支持的操作。

  • CPU:使用 XNNPACK 的默认执行路径,始终可用。 非常适合常规任务,也可作为不支持的运算符的后备方案。
  • GPU:由 ML Drift 提供支持,利用 OpenCL、WebGPU、Metal 等技术,在边缘平台实现 SOTA 性能。如需了解详情,请参阅 使用 LiteRT 进行 GPU 加速
  • NPU:可为 AI 工作负载提供最高的效率和性能。LiteRT 提供统一的开发流程来访问专用 NPU 芯片组(包括 Google Tensor、Qualcomm 和 MediaTek),而无需集成特定于供应商的 SDK。如需了解详情,请参阅使用 LiteRT 进行 NPU 加速

这些加速器可以组合使用,以便在给定硬件上无法执行某些复杂操作时获得尽可能最佳的性能。当加速器争用某项操作时,LiteRT 会按以下优先级顺序使用加速器:NPU、GPU、CPU