Moderne Mobil- und Edge-Geräte verfügen über spezielle GPUs (Graphics Processing Units) und NPUs (Neural Processing Units), die KI-Modelle im Vergleich zu einer CPU um das bis zu 25-Fache beschleunigen und gleichzeitig den Stromverbrauch um das bis zu 5-Fache senken können.
LiteRT vereinfacht den Zugriff auf diese spezialisierten Siliziumchips durch einen einheitlichen Hardwarebeschleunigungs-Stack. Anstatt fragmentierte, anbieterspezifische SDKs oder komplexe Hardware-APIs zu verwalten, bietet LiteRT eine optimierte CompiledModel API, die die Komplexität der Modelloptimierung, der Speicherverwaltung und der Hardware-Dispatching abstrahiert.
Beschleunigertypen
LiteRT bietet eine einheitliche Schnittstelle zum Ausführen von Modellen auf verschiedenen Hardware-Back-Ends. Mit der CompiledModel API können Sie nahtlos zwischen diesen Beschleunigern wechseln. Dazu können Sie die On-Device- oder Ahead-of-Time-Kompilierung (AOT) nutzen. Bei nicht unterstützten Vorgängen wird automatisch auf die CPU zurückgegriffen.
- CPU:Der Standardausführungspfad mit XNNPACK ist immer verfügbar. Gut für allgemeine Aufgaben und als Fallback für nicht unterstützte Operatoren geeignet.
- GPU:Die GPU wird von ML Drift unterstützt und bietet SOTA-Leistung auf Edge-Plattformen, die OpenCL, WebGPU, Metal usw. nutzen. Weitere Informationen finden Sie unter GPU-Beschleunigung mit LiteRT.
- NPU:Höchste Effizienz und Leistung für KI-Arbeitslasten. LiteRT bietet einen einheitlichen Entwicklungsablauf für den Zugriff auf spezielle NPU-Chipsets, darunter Google Tensor, Qualcomm und MediaTek, ohne dass eine anbieterspezifische SDK-Integration erforderlich ist. Weitere Informationen finden Sie unter NPU-Beschleunigung mit LiteRT.
Diese Beschleuniger können kombiniert werden, um die bestmögliche Leistung zu erzielen, wenn einige komplexe Vorgänge auf einer bestimmten Hardware nicht verfügbar sind. Wenn Beschleuniger um einen Vorgang konkurrieren, verwendet LiteRT die folgende Prioritätsreihenfolge: NPU, GPU, CPU.