Omówienie LiteRT-LM

LiteRT-LM to gotowa do zastosowań produkcyjnych platforma wnioskowania typu open source, która została zaprojektowana z myślą o zapewnianiu wysokiej wydajności wdrożeń LLM na urządzeniach brzegowych na różnych platformach.

Najważniejsze funkcje

  • Obsługa różnych platform: działa na Androidzie, iOS, w internecie i na komputerach.
  • Akceleracja sprzętowa:
    • GPU: obsługiwane przez ML Drift, obsługujące modele ML i generatywnej AI.
    • NPU: przyspieszone wnioskowanie na urządzeniach z chipsetami Qualcomm i MediaTek (wczesny dostęp).
  • Wielomodowość: obsługa wejść wizualnych i audio.
  • Korzystanie z narzędzi: obsługa wywoływania funkcji w przypadku przepływów pracy agenta.
  • Szeroki zakres obsługiwanych modeli: możesz uruchamiać modele Gemma, Llama, Phi-4, Qwen i inne.

Obsługiwane backendy i platformy

Platforma Obsługa procesora Obsługa GPU Obsługa NPU
Android
iOS -
macOS -
Windows -
Linux -
Umieszczony - -

Szybki start

Chcesz najpierw wypróbować tę funkcję? Zanim przejdziesz do pełnej konfiguracji, możesz użyć gotowych plików binarnych na komputer lub aplikacji Google AI Edge Gallery na urządzenia mobilne, aby natychmiast uruchomić LiteRT-LM.

Aplikacje mobilne

Google AI Edge Gallery to aplikacja demonstracyjna, która oddaje w Twoje ręce moc najnowocześniejszych modeli generatywnej AI, opartych na LiteRT-LM.

Interfejs wiersza poleceń na komputerze

Po pobraniu pliku binarnego lit uruchom go, aby zobaczyć opcje.lit

Wybierz platformę

Język Stan Najlepsze zastosowanie… Dokumentacja
Kotlin
Stabilna
Natywne aplikacje na Androida i narzędzia na komputery oparte na JVM. Zoptymalizowany pod kątem korutyn. Dokumentacja API w języku Kotlin
C++
Stabilna
Wysokowydajna, wieloplatformowa logika podstawowa i systemy wbudowane. Dokumentacja C++ API
Swift 🚀
W trakcie opracowywania
Natywna integracja z iOS i macOS ze specjalistyczną obsługą Metal. Już wkrótce
Python 🚀
W trakcie opracowywania
Szybkie prototypowanie, tworzenie i skrypty po stronie komputera. Już wkrótce

Obsługiwane modele

W tabeli poniżej znajdziesz przykłady modeli, które są w pełni obsługiwane i testowane w LiteRT-LM.

Uwaga: „Chat Ready” oznacza modele dostosowane do czatu (dostrajanie instrukcji). Modele „bazowe” często wymagają dostrojenia, aby zapewnić optymalną wydajność czatu, chyba że są używane do konkretnych uzupełnień.

Model Typ Kwantyzacja Długość kontekstu Rozmiar (MB) Pobierz
Gemma
Gemma3-1B Gotowość do czatu 4-bitowy na kanał 4096 557 Pobierz
Gemma-3n-E2B Gotowość do czatu 4-bitowy na kanał 4096 2965 Pobierz
Gemma-3n-E4B Gotowość do czatu 4-bitowy na kanał 4096 4235 Pobierz
FunctionGemma-270M Podstawa (wymaga dostrajania) 8-bitowy na kanał 1024 288 Przewodnik po dostrajaniu
↪ TinyGarden-270M Prezentacja 8-bitowy na kanał 1024 288 Pobierz / Wypróbuj aplikację
Llama
Llama-3.2-1B-Instruct Gotowość do czatu 8-bitowy na kanał 8192 1162 Pobierz
Llama-3.2-3B-Instruct Gotowość do czatu 8-bitowy na kanał 8192 2893 Pobierz
Phi
phi-4-mini Gotowość do czatu 8-bitowy na kanał 4096 3728 Pobierz
Qwen
qwen2.5-1.5b Gotowość do czatu 8-bitowy na kanał 4096 1524 Pobierz

Wyniki

Poniżej znajdziesz dane dotyczące wydajności każdego modelu na różnych urządzeniach. Pamiętaj, że test porównawczy jest mierzony przy użyciu 1024 tokenów wstępnego wypełnienia i 256 tokenów dekodowania (z blokadą wydajności na urządzeniach z Androidem).

Model Urządzenie Backend Wypełnianie wstępne (tokeny/s) Dekodowanie (tokeny/s) Rozmiar kontekstu
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Uwaga: pierwsze wczytanie danego modelu na danym urządzeniu potrwa dłużej, ponieważ wagi są optymalizowane. Dalsze ładowanie będzie szybsze dzięki zapisywaniu w pamięci podręcznej.

Hosting i wdrażanie modeli

Gdy model przekracza limity pobierania „drogą radiową” (zwykle około 1,5 GB), wymagana jest strategia zdalnego pobierania.

  • Firebase: zalecane do pobierania dużych plików na AndroidiOS.
  • HuggingFace API: pobieraj modele bezpośrednio za pomocą HuggingFace API.

Zgłaszanie problemów

Jeśli napotkasz błąd lub masz prośbę o dodanie funkcji, skorzystaj ze strony LiteRT-LM GitHub Issues.