LiteRT-LM – Übersicht

LiteRT-LM ist ein produktionsreifes Open-Source-Inferenz-Framework, das für leistungsstarke, plattformübergreifende LLM-Bereitstellungen auf Edge-Geräten entwickelt wurde.

Wichtigste Funktionen

  • Plattformübergreifende Unterstützung:Die App kann auf Android, iOS, im Web und auf dem Computer ausgeführt werden.
  • Hardwarebeschleunigung:
    • GPU:Basierend auf ML Drift, unterstützt sowohl ML- als auch generative KI-Modelle.
    • NPU:Beschleunigte Inferenz auf Geräten mit Qualcomm- und MediaTek-Chipsets (Vorabzugriff).
  • Multimodalität:Unterstützung von Vision- und Audioeingaben.
  • Tool-Nutzung:Unterstützung von Funktionsaufrufen für Agent-basierte Workflows.
  • Breite Modellunterstützung:Führen Sie Gemma, Llama, Phi-4, Qwen und weitere Modelle aus.

Unterstützte Back-Ends und Plattformen

Plattform CPU-Unterstützung GPU-Unterstützung NPU-Unterstützung
Android
iOS -
macOS -
Windows -
Linux -
Eingebettet - -

Schnellstart

Möchten Sie es erst einmal ausprobieren? Bevor Sie mit der vollständigen Einrichtung fortfahren, können Sie die vorgefertigten Binärdateien für den Desktop oder die Google AI Edge Gallery App für Mobilgeräte verwenden, um LiteRT-LM sofort auszuführen.

Mobile Apps

Die Google AI Edge-Galerie ist eine Demo-App, mit der Sie die Leistung modernster generativer KI-Modelle direkt auf Ihrem Smartphone nutzen können. Die App basiert auf LiteRT-LM.

Desktop-Befehlszeile

Nachdem Sie die Binärdatei lit heruntergeladen haben, führen Sie sie einfach aus, um die Optionen aufzurufen.lit

Plattform auswählen

Sprache Status Optimal für… Dokumentation
Kotlin
Stabil
Native Android-Apps und JVM-basierte Desktop-Tools. Für Coroutines optimiert. Referenz zur Kotlin API
C++
Stabil
Leistungsstarke, plattformübergreifende Kernlogik und eingebettete Systeme. C++-API-Referenz
Swift 🚀
In der Entwicklung
Native iOS- und macOS-Integration mit spezieller Metal-Unterstützung. Demnächst verfügbar
Python 🚀
In der Entwicklung
Rapid Prototyping, Entwicklung und Desktop-Scripting. Demnächst verfügbar

Unterstützte Modelle

In der folgenden Tabelle finden Sie eine Auswahl von Modellen, die vollständig unterstützt und mit LiteRT-LM getestet wurden.

Hinweis: „Chat Ready“ weist auf Modelle hin, die für den Chat optimiert wurden (Instruction Tuning). „Base“-Modelle müssen oft für eine optimale Chatleistung optimiert werden, es sei denn, sie werden für bestimmte Vervollständigungen verwendet.

Modell Typ Quantisierung Kontextlänge Größe (MB) Herunterladen
Gemma
Gemma3-1B Chat bereit 4 Bit pro Kanal 4.096 557 Herunterladen
Gemma-3n-E2B Chat bereit 4 Bit pro Kanal 4.096 2965 Herunterladen
Gemma-3n-E4B Chat bereit 4 Bit pro Kanal 4.096 4235 Herunterladen
FunctionGemma-270M Basis (Abstimmung erforderlich) 8 Bit pro Kanal 1024 288 Leitfaden zur Feinabstimmung
↪ TinyGarden-270M Demo 8 Bit pro Kanal 1024 288 Herunterladen / App ausprobieren
Llama
Llama-3.2-1B-Instruct Chat bereit 8 Bit pro Kanal 8.192 1162 Herunterladen
Llama-3.2-3B-Instruct Chat bereit 8 Bit pro Kanal 8.192 2893 Herunterladen
Phi
phi-4-mini Chat bereit 8 Bit pro Kanal 4.096 3728 Herunterladen
Qwen
qwen2.5-1.5b Chat bereit 8 Bit pro Kanal 4.096 1524 Herunterladen

Leistung

Unten finden Sie die Leistungszahlen für die Ausführung der einzelnen Modelle auf verschiedenen Geräten. Der Benchmark wird mit 1.024 Tokens für das Prefill und 256 Tokens für das Decodieren gemessen (mit Leistungsbegrenzung auf Android-Geräten).

Modell Gerät Backend Prefill (Tokens/Sek.) Decodieren (Tokens/Sek.) Kontextgröße
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4.096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4.096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4.096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4.096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4.096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4.096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4.096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4.096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4.096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Hinweis: Wenn ein bestimmtes Modell zum ersten Mal auf einem bestimmten Gerät geladen wird, dauert das Laden länger, da die Gewichte optimiert werden. Nachfolgende Ladevorgänge sind aufgrund des Caching schneller.

Modellhosting und ‑bereitstellung

Wenn ein Modell die Downloadlimits „over-the-air“ (oft etwa 1,5 GB) überschreitet, ist eine Remote-Abrufstrategie erforderlich.

  • Firebase:Empfohlen für das Herunterladen großer Dateien unter Android und iOS.
  • Hugging Face API:Modelle direkt über die Hugging Face API abrufen.

Probleme bei der Berichterstellung

Wenn Sie auf einen Fehler stoßen oder einen Feature Request haben, verwenden Sie bitte die GitHub-Seite für LiteRT-LM-Probleme.