使用 LiteRT 進行裝置端推論

LiteRT CompiledModel API 是裝置端 ML 推論的現代標準,提供簡化的硬體加速功能,效能遠優於 Interpreter API。這個介面提供統一的開發人員體驗和進階功能,可發揮硬體的最大效率,簡化各種邊緣平台上的 .tflite 模型部署作業。

為什麼要選擇 CompiledModel API?

雖然 Interpreter API 仍可供回溯相容性使用,但 CompiledModel API 才是優先提供新效能和加速器功能的位置。基於下列原因,我們建議您選擇這項服務:

  • 頂尖的 GPU 加速功能:運用 ML Drift 這款最先進的 GPU 加速程式庫,在行動裝置、網路、桌機和物聯網裝置上提供可靠的 GPU 推論功能。請參閱「使用 LiteRT 進行 GPU 加速」。

  • 統一 NPU 存取權:提供一致的開發人員體驗,方便存取 Google Tensor、Qualcomm、聯發科等各種供應商的 NPU,並抽象化廠商專屬的編譯器和執行階段複雜性。請參閱使用 LiteRT 進行 NPU 加速

  • 自動選取硬體:根據可用硬體和內部優先順序邏輯,自動從 CPU、GPU 和 NPU 中選取最佳後端,不必手動設定委派。

  • 非同步執行:運用 OS 層級的機制 (例如同步柵欄),讓硬體加速器在完成先前的工作後直接觸發,不必動用 CPU。這項技術最多可減少 2 倍的延遲時間,確保 AI 體驗更流暢、更具互動性。

  • 有效率的 I/O 緩衝區管理:運用 TensorBuffer API 管理加速器之間的高效能資料流。包括跨 AHardwareBuffer、OpenCL 和 OpenGL 的零複製緩衝區互通性,可避免在預先處理、推論和後續處理階段之間進行昂貴的資料複製作業。

開始使用 CompiledModel API

支援的平台

LiteRT CompiledModel API 支援 Android、iOS、網頁、物聯網和電腦裝置的高效能推論。請參閱特定平台的指南