Omówienie LiteRT-LM

LiteRT-LM to gotowa do zastosowań produkcyjnych platforma wnioskowania typu open source zaprojektowana z myślą o wdrażaniu na urządzeniach brzegowych modeli LLM o wysokiej wydajności i działających na wielu platformach.

  • Obsługa różnych platform: działa na Androidzie, iOS, w internecie, na komputerach i urządzeniach IoT (np. Raspberry Pi).
  • Akceleracja sprzętowa: uzyskaj maksymalną wydajność i stabilność systemu dzięki wykorzystaniu akceleratorów GPU i NPU na różnych urządzeniach.
  • Multimodalność: twórz aplikacje z użyciem dużych modeli językowych, które obsługują obraz i dźwięk.
  • Korzystanie z narzędzi: obsługa wywoływania funkcji w przypadku przepływów pracy agenta z ograniczonym dekodowaniem, co zwiększa dokładność.
  • Szeroki zakres obsługiwanych modeli: możesz uruchamiać modele Gemma, Llama, Phi-4, Qwen i inne.

Nowości (v0.12.0)

  • Interfejsy API Swift: natywna integracja LiteRT-LM z aplikacjami na iOS z akceleracją GPU Metal. Zapoznaj się z przewodnikiem po Swift.
  • Interfejsy API JavaScriptu w internecie: uruchamiaj modele w przeglądarkach internetowych z wysoką wydajnością za pomocą procesora graficznego lub procesora internetowego. Zapoznaj się z przewodnikiem po JavaScript.
  • Aktualizacja interfejsu CLI / interfejsu API języka Python LiteRT-LM: interfejs wiersza poleceń i interfejs API języka Python obsługują teraz NPU, a także procesory CPU i GPU w systemach Linux, macOS i Windows. Zapoznaj się z przewodnikiem po interfejsie wiersza poleceń.
  • Interfejsy Flutter API utrzymywane przez społeczność: twórz aplikacje Flutter na wielu platformach za pomocą pakietu flutter_gemma utrzymywanego przez społeczność. Zapoznaj się z przewodnikiem po Flutterze.

Prezentacja generatywnej AI na urządzeniu

Zrzut ekranu z aplikacji Galeria Google AI Edge

Galeria Google AI Edge to eksperymentalna aplikacja, która prezentuje funkcje generatywnej AI na urządzeniu działające całkowicie offline przy użyciu LiteRT-LM.

  • Google Play: korzystaj z LLM-ów lokalnie na obsługiwanych urządzeniach z Androidem.
  • App Store: Korzystaj z AI na urządzeniu z iOS.
  • Źródło GitHub: wyświetl kod źródłowy aplikacji galerii, aby dowiedzieć się, jak zintegrować LiteRT-LM z własnymi projektami.
  • Rozmiar modelu: 2,58 GB
  • Dodatkowe szczegóły techniczne znajdziesz na karcie modelu w Hugging Face.

    Platforma (urządzenie) Backend Wstępne wypełnienie (tk/s) Dekodowanie (kl./s) Czas do pierwszego tokena (w sekundach) Szczytowe wykorzystanie pamięci procesora (MB)
    Android (S26 Ultra) CPU 557 47 1,8 1733
    GPU 3808 52 0,3 676
    iOS (iPhone 17 Pro) CPU 532 25 1.9 607
    GPU 2878 56 0,3 1450
    Linux (Arm 2,3 GHz i 2,8 GHz, NVIDIA GeForce RTX 4090) CPU 260 35 4 1628
    GPU 11234 143 0,1 913
    macOS (MacBook Pro M4) CPU 901 42 1.1 736
    GPU 7835 160 0,1 1623
    Windows (Intel LunarLake) CPU 435 30 2.4 3505
    GPU 3751 48 0,3 3540
    IoT (Raspberry Pi 5 16 GB) CPU 133 8 7.8 1546

Zacznij tworzyć

LiteRT-LM udostępnia interfejsy API dla kilku języków programowania i platform, aby pomóc Ci szybko tworzyć aplikacje AI na urządzeniach. Aby rozpocząć, wybierz przewodnik poniżej:

Język Stan Najlepsze zastosowanie: Dokumentacja
CLI
Stabilna
Rozpoczęcie pracy z LiteRT-LM w mniej niż minutę. CLI Guide
Python
Stabilna
Szybkie prototypowanie, tworzenie aplikacji na komputery i Raspberry Pi. Python Guide
Kotlin
Stabilna
Natywne aplikacje na Androida i narzędzia na komputery oparte na JVM. Zoptymalizowany pod kątem korutyn. Przewodnik po języku Kotlin
Swift 🚀
Wczesna wersja przedpremierowa
Natywna integracja z iOS i macOS ze specjalistyczną obsługą Metal. Swift Guide
JavaScript (internet) 🚀
Wczesna wersja przedpremierowa
Wdrażaj modele bezpośrednio w przeglądarkach internetowych z wysoką wydajnością. Przewodnik po JavaScript
Flutter 🚀
Społeczność
Aplikacje Flutter na wielu platformach korzystające z flutter_gemmaspołeczności. Przewodnik po Flutterze
C++
Stabilna
Wysokowydajne, wieloplatformowe systemy wbudowane i logika podstawowa. Przewodnik po C++

Kompilacja ze źródła

Jeśli chcesz dostosować model LiteRT-LM lub skompilować go pod kątem konkretnej konfiguracji sprzętowej, możesz to zrobić bezpośrednio z kodu źródłowego. Szczegółowe instrukcje konfigurowania środowiska i tworzenia platformy znajdziesz w przewodniku po tworzeniu i uruchamianiu LiteRT-LM na GitHubie.

Obsługiwane backendy i platformy

Przyspieszenie Android iOS macOS Windows Linux IoT
CPU
GPU -
NPU - - 🚀 - -

Obsługiwane modele

W tabeli poniżej znajdziesz listę modeli obsługiwanych przez LiteRT-LM. Szczegółowe dane o wydajności i karty modeli znajdziesz na forum społeczności LiteRT w Hugging Face.

Model Typ Rozmiar (MB) Szczegóły Urządzenie Wstępne wypełnianie CPU (tk/s) Dekodowanie procesora (klatki/s) Wstępne wypełnianie GPU (tokeny/s) Dekodowanie GPU (klatki/s)
Gemma4-E2B Czat 2583 Karta modelu Samsung S26 Ultra 557 47 3808 52
iPhone 17 Pro 532 25 2878 57
MacBook Pro M4 901 42 7835 160
Gemma4-E4B Czat 3654 Karta modelu Samsung S26 Ultra 195 18 1293 22
iPhone 17 Pro 159 10 1189 25
MacBook Pro M4 277 27 2560 101
Gemma-3n-E2B Czat 2965 Karta modelu MacBook Pro M3 233 28 - -
Samsung S24 Ultra 111 16 816 16
Gemma-3n-E4B Czat 4235 Karta modelu MacBook Pro M3 170 20 - -
Samsung S24 Ultra 74 9 548 9
Gemma3-1B Czat 1005 Karta modelu Samsung S24 Ultra 177 33 1191 24
FunctionGemma Podstawa 289 Karta modelu Samsung S25 Ultra 2238 154 - -
phi-4-mini Czat 3906 Karta modelu Samsung S24 Ultra 67 7 314 10
Qwen2.5-1.5B Czat 1598 Karta modelu Samsung S25 Ultra 298 34 1668 31
Qwen3-0.6B Czat 586 Karta modelu Vivo X300 Pro 165 9 580 21
Qwen2.5-0.5B Czat 521 Karta modelu Samsung S24 Ultra 251 30 - -

Zgłaszanie problemów

Jeśli napotkasz błąd lub masz prośbę o dodanie funkcji, zgłoś to w zgłoszeniach GitHub LiteRT-LM.