Google AI Edge Portal: Edge-KI im großen Maßstab benchmarken. Melden Sie sich an, um während der privaten Vorschau Zugriff anzufordern.

On-Device-Inferenz mit LiteRT

Die LiteRT CompiledModel API ist der moderne Standard für die On-Device-ML-Inferenz und bietet eine optimierte Hardwarebeschleunigung, die die Interpreter API deutlich übertrifft. Diese Schnittstelle vereinfacht die Bereitstellung von .tflite-Modellen auf einer Vielzahl von Edge-Plattformen, da sie eine einheitliche Entwicklerumgebung und erweiterte Funktionen für maximale Hardwareeffizienz bietet.

Vorteile der `CompiledModel` API

Die Interpreter API ist zwar weiterhin aus Gründen der Abwärtskompatibilität verfügbar, aber bei der CompiledModel API werden neue Leistungs- und Beschleunigerfunktionen priorisiert. Aus folgenden Gründen wird diese Option empfohlen:

GPU-Beschleunigung der Spitzenklasse: Nutzt ML Drift, die hochmoderne GPU-Beschleunigungsbibliothek, um zuverlässige GPU-Inferenz auf Mobilgeräten, im Web, auf Desktop-Computern und auf IoT-Geräten zu ermöglichen. Weitere Informationen finden Sie unter GPU-Beschleunigung mit LiteRT.
Einheitlicher NPU-Zugriff: Bietet eine einheitliche Entwicklerumgebung für den Zugriff auf NPUs von verschiedenen Anbietern wie Google Tensor, Qualcomm und MediaTek. Dabei werden anbieterspezifische Compiler und Laufzeitkomplexitäten abstrahiert. Weitere Informationen finden Sie unter NPU-Beschleunigung mit LiteRT.
Automatisierte Hardwareauswahl: Das optimale Backend (CPU, GPU oder NPU) wird automatisch basierend auf der verfügbaren Hardware und der internen Prioritätslogik ausgewählt. Eine manuelle Delegatkonfiguration ist nicht erforderlich.
Asynchrone Ausführung: Nutzt Mechanismen auf Betriebssystemebene (z. B. Synchronisationsbarrieren), damit Hardwarebeschleuniger direkt nach Abschluss vorheriger Aufgaben ausgelöst werden können, ohne dass die CPU beteiligt ist. Dadurch kann die Latenz um bis zu 50 % reduziert werden, was zu einer flüssigeren, interaktiveren KI-Erfahrung führt.
Effiziente I/O-Pufferverwaltung: Nutzt die TensorBuffer API, um den leistungsstarken Datenfluss zwischen Beschleunigern zu verwalten. Dazu gehört die Puffer-Interop ohne Kopieren für AHardwareBuffer, OpenCL und OpenGL, wodurch kostspielige Datenkopien zwischen den Phasen für Vorverarbeitung, Inferenz und Nachbearbeitung vermieden werden.

Erste Schritte mit der `CompiledModel` API

Klassische ML-Modelle: Die folgenden Demo-Apps sind verfügbar.
- Image segmentation Kotlin App (Kotlin-App zur Bildsegmentierung): CPU-/GPU-/NPU-Inferenz.
- C++-App für die Bildsegmentierung: CPU-/GPU-/NPU-Inferenz mit asyner Ausführung.
Für GenAI-Modelle finden Sie die folgenden Demo-Apps:
- C++-App zur semantischen Ähnlichkeit von EmbeddingGemma: CPU-/GPU-/NPU-Inferenz.

Unterstützte Plattformen

Die LiteRT CompiledModel API unterstützt leistungsstarke Inferenzvorgänge auf Android-, iOS-, Web-, IoT- und Desktop-Geräten. Weitere Informationen finden Sie im plattformspezifischen Leitfaden.

On-Device-Inferenz mit LiteRT

Vorteile der CompiledModel API

Erste Schritte mit der CompiledModel API

Unterstützte Plattformen

Vorteile der `CompiledModel` API

Erste Schritte mit der `CompiledModel` API