On-Device-Inferenz mit LiteRT

Die LiteRT CompiledModel API ist der moderne Standard für die On-Device-ML-Inferenz und bietet eine optimierte Hardwarebeschleunigung, die die Interpreter API deutlich übertrifft. Diese Schnittstelle vereinfacht die Bereitstellung von .tflite-Modellen auf einer Vielzahl von Edge-Plattformen, da sie eine einheitliche Entwicklerumgebung und erweiterte Funktionen für maximale Hardwareeffizienz bietet.

Vorteile der CompiledModel API

Die Interpreter API ist zwar weiterhin aus Gründen der Abwärtskompatibilität verfügbar, aber bei der CompiledModel API werden neue Leistungs- und Beschleunigerfunktionen priorisiert. Aus folgenden Gründen wird diese Option empfohlen:

  • GPU-Beschleunigung der Spitzenklasse: Nutzt ML Drift, die hochmoderne GPU-Beschleunigungsbibliothek, um zuverlässige GPU-Inferenz auf Mobilgeräten, im Web, auf Desktop-Computern und auf IoT-Geräten zu ermöglichen. Weitere Informationen finden Sie unter GPU-Beschleunigung mit LiteRT.

  • Einheitlicher NPU-Zugriff: Bietet eine einheitliche Entwicklerumgebung für den Zugriff auf NPUs von verschiedenen Anbietern wie Google Tensor, Qualcomm und MediaTek. Dabei werden anbieterspezifische Compiler und Laufzeitkomplexitäten abstrahiert. Weitere Informationen finden Sie unter NPU-Beschleunigung mit LiteRT.

  • Automatisierte Hardwareauswahl: Das optimale Backend (CPU, GPU oder NPU) wird automatisch basierend auf der verfügbaren Hardware und der internen Prioritätslogik ausgewählt. Eine manuelle Delegatkonfiguration ist nicht erforderlich.

  • Asynchrone Ausführung: Nutzt Mechanismen auf Betriebssystemebene (z. B. Synchronisationsbarrieren), damit Hardwarebeschleuniger direkt nach Abschluss vorheriger Aufgaben ausgelöst werden können, ohne dass die CPU beteiligt ist. Dadurch kann die Latenz um bis zu 50 % reduziert werden, was zu einer flüssigeren, interaktiveren KI-Erfahrung führt.

  • Effiziente I/O-Pufferverwaltung: Nutzt die TensorBuffer API, um den leistungsstarken Datenfluss zwischen Beschleunigern zu verwalten. Dazu gehört die Puffer-Interop ohne Kopieren für AHardwareBuffer, OpenCL und OpenGL, wodurch kostspielige Datenkopien zwischen den Phasen für Vorverarbeitung, Inferenz und Nachbearbeitung vermieden werden.

Unterstützte Plattformen

Die LiteRT CompiledModel API unterstützt leistungsstarke Inferenzvorgänge auf Android-, iOS-, Web-, IoT- und Desktop-Geräten. Weitere Informationen finden Sie im plattformspezifischen Leitfaden.