LiteRT CompiledModel API 是裝置端 ML 推論的現代標準,提供簡化的硬體加速功能,效能遠優於 Interpreter API。這個介面提供統一的開發人員體驗和進階功能,可發揮硬體的最大效率,簡化各種邊緣平台上的 .tflite 模型部署作業。
為什麼要選擇 CompiledModel API?
雖然 Interpreter API 仍可供回溯相容性使用,但 CompiledModel API 才是優先提供新效能和加速器功能的位置。基於下列原因,我們建議您選擇這項服務:
頂尖的 GPU 加速功能:運用 ML Drift 這款最先進的 GPU 加速程式庫,在行動裝置、網路、桌機和物聯網裝置上提供可靠的 GPU 推論功能。請參閱「使用 LiteRT 進行 GPU 加速」。
統一 NPU 存取權:提供一致的開發人員體驗,方便存取 Google Tensor、Qualcomm、聯發科等各種供應商的 NPU,並抽象化廠商專屬的編譯器和執行階段複雜性。請參閱使用 LiteRT 進行 NPU 加速。
自動選取硬體:根據可用硬體和內部優先順序邏輯,自動從 CPU、GPU 和 NPU 中選取最佳後端,不必手動設定委派。
非同步執行:運用 OS 層級的機制 (例如同步柵欄),讓硬體加速器在完成先前的工作後直接觸發,不必動用 CPU。這項技術最多可減少 2 倍的延遲時間,確保 AI 體驗更流暢、更具互動性。
有效率的 I/O 緩衝區管理:運用
TensorBufferAPI 管理加速器之間的高效能資料流。包括跨AHardwareBuffer、OpenCL 和 OpenGL 的零複製緩衝區互通性,可避免在預先處理、推論和後續處理階段之間進行昂貴的資料複製作業。
開始使用 CompiledModel API
如需傳統 ML 模型,請參閱下列示範應用程式。
- 圖片分割 Kotlin 應用程式:CPU/GPU/NPU 推論。
- 圖像分割 C++ 應用程式:使用 async 執行,透過 CPU/GPU/NPU 進行推論。
生成式 AI 模型:請參閱下列範例應用程式:
- EmbeddingGemma 語意相似度 C++ 應用程式: CPU/GPU/NPU 推論。
支援的平台
LiteRT CompiledModel API 支援 Android、iOS、網頁、物聯網和電腦裝置的高效能推論。請參閱特定平台的指南。