LiteRT-LM to gotowa do zastosowań produkcyjnych platforma wnioskowania typu open source, która została zaprojektowana z myślą o zapewnianiu wysokiej wydajności wdrożeń LLM na urządzeniach brzegowych na różnych platformach.
Najważniejsze funkcje
- Obsługa różnych platform: działa na Androidzie, iOS, w internecie i na komputerach.
- Akceleracja sprzętowa:
- GPU: obsługiwane przez ML Drift, obsługujące modele ML i generatywnej AI.
- NPU: przyspieszone wnioskowanie na urządzeniach z chipsetami Qualcomm i MediaTek (wczesny dostęp).
- Wielomodowość: obsługa wejść wizualnych i audio.
- Korzystanie z narzędzi: obsługa wywoływania funkcji w przypadku przepływów pracy agenta.
- Szeroki zakres obsługiwanych modeli: możesz uruchamiać modele Gemma, Llama, Phi-4, Qwen i inne.
Obsługiwane backendy i platformy
| Platforma | Obsługa procesora | Obsługa GPU | Obsługa NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Umieszczony | ✅ | - | - |
Szybki start
Chcesz najpierw wypróbować tę funkcję? Zanim przejdziesz do pełnej konfiguracji, możesz użyć gotowych plików binarnych na komputer lub aplikacji Google AI Edge Gallery na urządzenia mobilne, aby natychmiast uruchomić LiteRT-LM.
Aplikacje mobilne
Google AI Edge Gallery to aplikacja demonstracyjna, która oddaje w Twoje ręce moc najnowocześniejszych modeli generatywnej AI, opartych na LiteRT-LM.
Interfejs wiersza poleceń na komputerze
Po pobraniu pliku binarnego lit uruchom go, aby zobaczyć opcje.lit
Wybierz platformę
| Język | Stan | Najlepsze zastosowanie… | Dokumentacja |
|---|---|---|---|
| Kotlin | ✅ Stabilna |
Natywne aplikacje na Androida i narzędzia na komputery oparte na JVM. Zoptymalizowany pod kątem korutyn. | Dokumentacja API w języku Kotlin |
| C++ | ✅ Stabilna |
Wysokowydajna, wieloplatformowa logika podstawowa i systemy wbudowane. | Dokumentacja C++ API |
| Swift | 🚀 W trakcie opracowywania |
Natywna integracja z iOS i macOS ze specjalistyczną obsługą Metal. | Już wkrótce |
| Python | 🚀 W trakcie opracowywania |
Szybkie prototypowanie, tworzenie i skrypty po stronie komputera. | Już wkrótce |
Obsługiwane modele
W tabeli poniżej znajdziesz przykłady modeli, które są w pełni obsługiwane i testowane w LiteRT-LM.
Uwaga: „Chat Ready” oznacza modele dostosowane do czatu (dostrajanie instrukcji). Modele „bazowe” często wymagają dostrojenia, aby zapewnić optymalną wydajność czatu, chyba że są używane do konkretnych uzupełnień.
| Model | Typ | Kwantyzacja | Długość kontekstu | Rozmiar (MB) | Pobierz |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Gotowość do czatu | 4-bitowy na kanał | 4096 | 557 | Pobierz |
| Gemma-3n-E2B | Gotowość do czatu | 4-bitowy na kanał | 4096 | 2965 | Pobierz |
| Gemma-3n-E4B | Gotowość do czatu | 4-bitowy na kanał | 4096 | 4235 | Pobierz |
| FunctionGemma-270M | Podstawa (wymaga dostrajania) | 8-bitowy na kanał | 1024 | 288 | Przewodnik po dostrajaniu |
| ↪ TinyGarden-270M | Prezentacja | 8-bitowy na kanał | 1024 | 288 | Pobierz / Wypróbuj aplikację |
| Llama | |||||
| Llama-3.2-1B-Instruct | Gotowość do czatu | 8-bitowy na kanał | 8192 | 1162 | Pobierz |
| Llama-3.2-3B-Instruct | Gotowość do czatu | 8-bitowy na kanał | 8192 | 2893 | Pobierz |
| Phi | |||||
| phi-4-mini | Gotowość do czatu | 8-bitowy na kanał | 4096 | 3728 | Pobierz |
| Qwen | |||||
| qwen2.5-1.5b | Gotowość do czatu | 8-bitowy na kanał | 4096 | 1524 | Pobierz |
Wyniki
Poniżej znajdziesz dane dotyczące wydajności każdego modelu na różnych urządzeniach. Pamiętaj, że test porównawczy jest mierzony przy użyciu 1024 tokenów wstępnego wypełnienia i 256 tokenów dekodowania (z blokadą wydajności na urządzeniach z Androidem).
| Model | Urządzenie | Backend | Wypełnianie wstępne (tokeny/s) | Dekodowanie (tokeny/s) | Rozmiar kontekstu |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Uwaga: pierwsze wczytanie danego modelu na danym urządzeniu potrwa dłużej, ponieważ wagi są optymalizowane. Dalsze ładowanie będzie szybsze dzięki zapisywaniu w pamięci podręcznej.
Hosting i wdrażanie modeli
Gdy model przekracza limity pobierania „drogą radiową” (zwykle około 1,5 GB), wymagana jest strategia zdalnego pobierania.
- Firebase: zalecane do pobierania dużych plików na Android i iOS.
- HuggingFace API: pobieraj modele bezpośrednio za pomocą HuggingFace API.
Zgłaszanie problemów
Jeśli napotkasz błąd lub masz prośbę o dodanie funkcji, skorzystaj ze strony LiteRT-LM GitHub Issues.