LiteRT-LM ist ein produktionsreifes Open-Source-Inferenz-Framework, das für leistungsstarke, plattformübergreifende LLM-Bereitstellungen auf Edge-Geräten entwickelt wurde.
- Plattformübergreifende Unterstützung:Ausführung auf Android, iOS, im Web, auf Computern und IoT-Geräten (z.B. Raspberry Pi).
- Hardwarebeschleunigung:Durch die Nutzung von GPU- und NPU-Beschleunigern auf verschiedenen Hardwaretypen können Sie maximale Leistung und Systemstabilität erzielen.
- Multimodale Funktionen:Nutzen Sie LLMs, die Bild- und Audioeingaben unterstützen.
- Tool-Nutzung:Unterstützung von Funktionsaufrufen für agentische Workflows mit eingeschränkter Decodierung für eine höhere Genauigkeit.
- Breite Modellunterstützung:Führen Sie Gemma, Llama, Phi-4, Qwen und weitere Modelle aus.
Neuheiten (v0.12.0)
- Swift-APIs: LiteRT-LM nativ in iOS-Anwendungen mit Metal-GPU-Beschleunigung einbinden. Weitere Informationen finden Sie im Swift-Leitfaden.
- Web-JavaScript-APIs: Modelle in Webbrowsern mit hoher Leistung über Web-GPU/CPU ausführen. Weitere Informationen finden Sie im JavaScript-Leitfaden.
- LiteRT-LM CLI / Python API-Update: Die Befehlszeilenschnittstelle und die Python API unterstützen jetzt neben CPU- und GPU-Backends auch NPU-Backends unter Linux, macOS und Windows. Weitere Informationen finden Sie im CLI-Leitfaden.
- Von der Community verwaltete Flutter-APIs: Mit dem Community-Paket flutter_gemma können Sie plattformübergreifende Flutter-Anwendungen erstellen. Weitere Informationen finden Sie im Flutter-Leitfaden.
Generative KI auf dem Gerät
Die Google AI Edge-Galerie ist eine experimentelle App, die entwickelt wurde, um generative KI-Funktionen auf dem Gerät zu demonstrieren, die vollständig offline mit LiteRT-LM ausgeführt werden.
- Google Play: LLMs werden lokal auf unterstützten Android-Geräten verwendet.
- App Store: On-Device-KI auf Ihrem iOS-Gerät nutzen
- GitHub-Quelle: Sehen Sie sich den Quellcode für die Galerie-App an, um zu erfahren, wie Sie LiteRT-LM in Ihre eigenen Projekte einbinden können.
Vorgestelltes Modell: Gemma-4-E2B
- Modellgröße: 2,58 GB
Weitere technische Details finden Sie auf der HuggingFace-Modellkarte.
Plattform (Gerät) Backend Vorausfüllen (tk/s) Decodieren (tk/s) Zeit bis zum ersten Token (Sekunden) Spitzenwert des CPU-Arbeitsspeichers (MB) Android (S26 Ultra) CPU 557 47 1.8 1733 GPU 3808 52 0,3 676 iOS (iPhone 17 Pro) CPU 532 25 1.9 607 GPU 2878 56 0,3 1.450 Linux (Arm 2,3 und 2,8 GHz, NVIDIA GeForce RTX 4090) CPU 260 35 4 1628 GPU 11234 143 0,1 913 macOS (MacBook Pro M4) CPU 901 42 1.1 736 GPU 7835 160 0,1 1623 Windows (Intel LunarLake) CPU 435 30 2.4 3505 GPU 3751 48 0,3 3540 IoT (Raspberry Pi 5 16 GB) CPU 133 8 7.8 1546
Ihre erste eigene App
LiteRT-LM bietet APIs für verschiedene Programmiersprachen und Plattformen, mit denen Sie schnell On-Device-KI-Anwendungen entwickeln können. Wählen Sie unten eine Anleitung aus, um zu beginnen:
| Sprache | Status | Optimal für… | Dokumentation |
|---|---|---|---|
| CLI | ✅ Stabil |
Erste Schritte mit LiteRT-LM in weniger als einer Minute. | CLI-Anleitung |
| Python | ✅ Stabil |
Schnelle Prototypenerstellung und Entwicklung auf Desktop-Computern und Raspberry Pi. | Python-Leitfaden |
| Kotlin | ✅ Stabil |
Native Android-Apps und JVM-basierte Desktop-Tools. Optimiert für Coroutines. | Kotlin-Leitfaden |
| Swift | 🚀 Frühe Vorabversion |
Systemeigene iOS- und macOS-Integration mit spezieller Metal-Unterstützung. | Swift-Leitfaden |
| JavaScript (Web) | 🚀 Frühe Vorabversion |
Modelle direkt in Webbrowsern mit hoher Leistung bereitstellen. | JavaScript-Leitfaden |
| Flutter | 🚀 Community |
Plattformübergreifende
Flutter-Apps
mit Community-flutter_gemma. |
Flutter-Leitfaden |
| C++ | ✅ Stabil |
Hochleistungsfähige, plattformübergreifende Kernlogik und eingebettete Systeme. | C++-Leitfaden |
Aus Quelle erstellen
Wenn Sie LiteRT-LM anpassen oder für eine bestimmte Hardwarekonfiguration erstellen möchten, können Sie es direkt aus dem Quellcode kompilieren. Eine Schritt-für-Schritt-Anleitung zum Einrichten der Umgebung und zum Erstellen des Frameworks finden Sie im LiteRT-LM Build and Run Guide auf GitHub.
Unterstützte Back-Ends und Plattformen
| Beschleunigung | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | 🚀 | - | - |
Unterstützte Modelle
In der folgenden Tabelle sind die von LiteRT-LM unterstützten Modelle aufgeführt. Detailliertere Leistungszahlen und Modellkarten finden Sie in der LiteRT-Community auf Hugging Face.
| Modell | Typ | Größe (MB) | Details | Gerät | CPU-Prefill (tk/s) | CPU-Decodierung (tk/s) | GPU-Prefill (tk/s) | GPU-Decodierung (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | Chat | 2583 | Modellkarte | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | Chat | 3654 | Modellkarte | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2.560 | 101 | ||||
| Gemma-3n-E2B | Chat | 2965 | Modellkarte | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Chat | 4235 | Modellkarte | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | Chat | 1005 | Modellkarte | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | Basis | 289 | Modellkarte | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Chat | 3906 | Modellkarte | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Chat | 1598 | Modellkarte | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Chat | 586 | Modellkarte | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Chat | 521 | Modellkarte | Samsung S24 Ultra | 251 | 30 | - | - |
Probleme melden
Wenn Sie auf einen Fehler stoßen oder einen Feature Request haben, melden Sie ihn unter LiteRT-LM GitHub Issues.