使用 LiteRT 進行裝置端推論

LiteRT CompiledModel API 是裝置端 ML 推論的現代標準，提供簡化的硬體加速功能，效能遠優於 Interpreter API。這個介面提供統一的開發人員體驗和進階功能，可發揮硬體的最大效率，簡化各種邊緣平台上的 .tflite 模型部署作業。

為什麼要選擇 `CompiledModel` API？

雖然 Interpreter API 仍可供回溯相容性使用，但 CompiledModel API 才是優先提供新效能和加速器功能的位置。基於下列原因，我們建議您選擇這項服務：

頂尖的 GPU 加速功能：運用 ML Drift 這款最先進的 GPU 加速程式庫，在行動裝置、網路、桌機和物聯網裝置上提供可靠的 GPU 推論功能。請參閱「使用 LiteRT 進行 GPU 加速」。
統一 NPU 存取權：提供一致的開發人員體驗，方便存取 Google Tensor、Qualcomm、聯發科等各種供應商的 NPU，並抽象化廠商專屬的編譯器和執行階段複雜性。請參閱使用 LiteRT 進行 NPU 加速。
自動選取硬體：根據可用硬體和內部優先順序邏輯，自動從 CPU、GPU 和 NPU 中選取最佳後端，不必手動設定委派。
非同步執行：運用 OS 層級的機制 (例如同步柵欄)，讓硬體加速器在完成先前的工作後直接觸發，不必動用 CPU。這項技術最多可減少 2 倍的延遲時間，確保 AI 體驗更流暢、更具互動性。
有效率的 I/O 緩衝區管理：運用 TensorBuffer API 管理加速器之間的高效能資料流。包括跨 AHardwareBuffer、OpenCL 和 OpenGL 的零複製緩衝區互通性，可避免在預先處理、推論和後續處理階段之間進行昂貴的資料複製作業。

如需傳統 ML 模型，請參閱下列示範應用程式。
- 圖片分割 Kotlin 應用程式：CPU/GPU/NPU 推論。
- 圖像分割 C++ 應用程式：使用 async 執行，透過 CPU/GPU/NPU 進行推論。
生成式 AI 模型：請參閱下列範例應用程式：
- EmbeddingGemma 語意相似度 C++ 應用程式： CPU/GPU/NPU 推論。

LiteRT CompiledModel API 支援 Android、iOS、網頁、物聯網和電腦裝置的高效能推論。請參閱特定平台的指南。