現代行動裝置和邊緣裝置搭載專用的圖形處理器 (GPU) 和神經處理器 (NPU),與 CPU 相比,可將 AI 模型加速高達 25 倍,同時將耗電量減少高達 5 倍。
LiteRT 透過統一的硬體加速堆疊,簡化了對這些專用晶片的存取。LiteRT 提供簡化的 CompiledModel API,可抽象化模型最佳化、記憶體管理和硬體調度作業的複雜性,不必管理零散的廠商專屬 SDK 或複雜的硬體 API。
加速器類型
LiteRT 提供統一的介面,可在各種硬體後端執行模型。透過 CompiledModel API,您可以使用裝置端或預先 (AOT) 編譯,在這些加速器之間順暢切換,並在不支援的作業自動回復至 CPU。
- CPU:使用 XNNPACK 的預設執行路徑,隨時可用。 適合用於一般工作,以及不支援的運算符的回溯。
- GPU:由 ML Drift 提供支援,可運用 OpenCL、WebGPU、Metal 等技術,在邊緣平台提供 SOTA 效能。詳情請參閱「使用 LiteRT 加速 GPU」。
- NPU:為 AI 工作負載提供最高效率和效能。LiteRT 提供統一的開發流程,可存取專用的 NPU 晶片組 (包括 Google Tensor、Qualcomm 和 MediaTek),無須整合廠商專屬的 SDK。詳情請參閱「使用 LiteRT 進行 NPU 加速」。
如果特定硬體無法執行某些複雜作業,您可以結合這些加速器,盡可能提升效能。當加速器爭用某項作業時,LiteRT 會依下列優先順序:NPU、GPU、CPU。