LiteRT-LM ist ein produktionsreifes Open-Source-Inferenz-Framework, das für leistungsstarke, plattformübergreifende LLM-Bereitstellungen auf Edge-Geräten entwickelt wurde.
Wichtigste Funktionen
- Plattformübergreifende Unterstützung:Die App kann auf Android, iOS, im Web und auf dem Computer ausgeführt werden.
- Hardwarebeschleunigung:
- GPU:Basierend auf ML Drift, unterstützt sowohl ML- als auch generative KI-Modelle.
- NPU:Beschleunigte Inferenz auf Geräten mit Qualcomm- und MediaTek-Chipsets (Vorabzugriff).
- Multimodalität:Unterstützung von Vision- und Audioeingaben.
- Tool-Nutzung:Unterstützung von Funktionsaufrufen für Agent-basierte Workflows.
- Breite Modellunterstützung:Führen Sie Gemma, Llama, Phi-4, Qwen und weitere Modelle aus.
Unterstützte Back-Ends und Plattformen
| Plattform | CPU-Unterstützung | GPU-Unterstützung | NPU-Unterstützung |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Eingebettet | ✅ | - | - |
Schnellstart
Möchten Sie es erst einmal ausprobieren? Bevor Sie mit der vollständigen Einrichtung fortfahren, können Sie die vorgefertigten Binärdateien für den Desktop oder die Google AI Edge Gallery App für Mobilgeräte verwenden, um LiteRT-LM sofort auszuführen.
Mobile Apps
Die Google AI Edge-Galerie ist eine Demo-App, mit der Sie die Leistung modernster generativer KI-Modelle direkt auf Ihrem Smartphone nutzen können. Die App basiert auf LiteRT-LM.
Desktop-Befehlszeile
Nachdem Sie die Binärdatei lit heruntergeladen haben, führen Sie sie einfach aus, um die Optionen aufzurufen.lit
Plattform auswählen
| Sprache | Status | Optimal für… | Dokumentation |
|---|---|---|---|
| Kotlin | ✅ Stabil |
Native Android-Apps und JVM-basierte Desktop-Tools. Für Coroutines optimiert. | Referenz zur Kotlin API |
| C++ | ✅ Stabil |
Leistungsstarke, plattformübergreifende Kernlogik und eingebettete Systeme. | C++-API-Referenz |
| Swift | 🚀 In der Entwicklung |
Native iOS- und macOS-Integration mit spezieller Metal-Unterstützung. | Demnächst verfügbar |
| Python | 🚀 In der Entwicklung |
Rapid Prototyping, Entwicklung und Desktop-Scripting. | Demnächst verfügbar |
Unterstützte Modelle
In der folgenden Tabelle finden Sie eine Auswahl von Modellen, die vollständig unterstützt und mit LiteRT-LM getestet wurden.
Hinweis: „Chat Ready“ weist auf Modelle hin, die für den Chat optimiert wurden (Instruction Tuning). „Base“-Modelle müssen oft für eine optimale Chatleistung optimiert werden, es sei denn, sie werden für bestimmte Vervollständigungen verwendet.
| Modell | Typ | Quantisierung | Kontextlänge | Größe (MB) | Herunterladen |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Chat bereit | 4 Bit pro Kanal | 4.096 | 557 | Herunterladen |
| Gemma-3n-E2B | Chat bereit | 4 Bit pro Kanal | 4.096 | 2965 | Herunterladen |
| Gemma-3n-E4B | Chat bereit | 4 Bit pro Kanal | 4.096 | 4235 | Herunterladen |
| FunctionGemma-270M | Basis (Abstimmung erforderlich) | 8 Bit pro Kanal | 1024 | 288 | Leitfaden zur Feinabstimmung |
| ↪ TinyGarden-270M | Demo | 8 Bit pro Kanal | 1024 | 288 | Herunterladen / App ausprobieren |
| Llama | |||||
| Llama-3.2-1B-Instruct | Chat bereit | 8 Bit pro Kanal | 8.192 | 1162 | Herunterladen |
| Llama-3.2-3B-Instruct | Chat bereit | 8 Bit pro Kanal | 8.192 | 2893 | Herunterladen |
| Phi | |||||
| phi-4-mini | Chat bereit | 8 Bit pro Kanal | 4.096 | 3728 | Herunterladen |
| Qwen | |||||
| qwen2.5-1.5b | Chat bereit | 8 Bit pro Kanal | 4.096 | 1524 | Herunterladen |
Leistung
Unten finden Sie die Leistungszahlen für die Ausführung der einzelnen Modelle auf verschiedenen Geräten. Der Benchmark wird mit 1.024 Tokens für das Prefill und 256 Tokens für das Decodieren gemessen (mit Leistungsbegrenzung auf Android-Geräten).
| Modell | Gerät | Backend | Prefill (Tokens/Sek.) | Decodieren (Tokens/Sek.) | Kontextgröße |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4.096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4.096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4.096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4.096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4.096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4.096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4.096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4.096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4.096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Hinweis: Wenn ein bestimmtes Modell zum ersten Mal auf einem bestimmten Gerät geladen wird, dauert das Laden länger, da die Gewichte optimiert werden. Nachfolgende Ladevorgänge sind aufgrund des Caching schneller.
Modellhosting und ‑bereitstellung
Wenn ein Modell die Downloadlimits „over-the-air“ (oft etwa 1,5 GB) überschreitet, ist eine Remote-Abrufstrategie erforderlich.
- Firebase:Empfohlen für das Herunterladen großer Dateien unter Android und iOS.
- Hugging Face API:Modelle direkt über die Hugging Face API abrufen.
Probleme bei der Berichterstellung
Wenn Sie auf einen Fehler stoßen oder einen Feature Request haben, verwenden Sie bitte die GitHub-Seite für LiteRT-LM-Probleme.