LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.
- Mbështetje Ndërplatformore: Funksionon në Android, iOS, Web, Desktop dhe IoT (p.sh. Raspberry Pi).
- Përshpejtimi i Hardware-it: Merrni performancë maksimale dhe stabilitet të sistemit duke përdorur përshpejtuesit e GPU-së dhe NPU-së në të gjitha llojet e harduerit.
- Multi-Modalitet: Ndërtoni me LLM që kanë mbështetje për vizion dhe audio.
- Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës agjentike me dekodim të kufizuar për saktësi të përmirësuar.
- Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.
Vitrina e GenAI në Pajisje
![]()
Galeria Google AI Edge është një aplikacion eksperimental i projektuar për të shfaqur aftësitë e IA-së Gjenerative në pajisje që funksionojnë tërësisht jashtë linje duke përdorur LiteRT-LM.
- Google Play : Përdorni LLM-të lokalisht në pajisjet Android të mbështetura.
- App Store : Përjetoni inteligjencën artificiale në pajisjen tuaj iOS.
- Burimi i GitHub : Shikoni kodin burimor për aplikacionin e galerisë për të mësuar se si të integroni LiteRT-LM brenda projekteve tuaja.
Modeli i paraqitur: Gemma-4-E2B
- Madhësia e modelit: 2.58 GB
Detajet shtesë teknike janë në kartën e modelit HuggingFace.
Platforma (Pajisja) Sfondi Mbushje paraprake (tk/s) Dekodo (tk/s) Koha deri te Tokeni i Parë (sekonda) Memoria maksimale e CPU-së (MB) Android (S26 Ultra) CPU 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (iPhone 17 Pro) CPU 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Krahu 2.3 dhe 2.8 GHz, NVIDIA GeForce RTX 4090) CPU 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) CPU 901 42 1.1 736 GPU 7835 160 0.1 1623 IoT (Raspberry Pi 5 16GB) CPU 133 8 7.8 1546
Filloni Ndërtimin
Fragmentet e mëposhtme tregojnë se si të filloni me LiteRT-LM CLI, si dhe API-të Python, Kotlin dhe C++.
CLI
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| Gjuha | Statusi | Më e mira për... | Dokumentacioni |
|---|---|---|---|
| CLI | 🚀 Pamje paraprake e hershme | Fillimi me LiteRT-LM në më pak se 1 minutë. | Udhëzuesi CLI |
| Python | ✅ Stallë | Prototipizim dhe zhvillim i shpejtë në desktop dhe Raspberry Pi. | Udhëzues Python |
| Kotlin | ✅ Stallë | Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines. | Udhëzues për Android (Kotlin) |
| C++ | ✅ Stallë | Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura. | Udhëzues C++ |
| I shpejtë | 🚀 Në Zhvillim | Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal. | Së shpejti |
Backend-et dhe Platformat e Mbështetura
| Përshpejtimi | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
Modelet e Mbështetura
Tabela e mëposhtme rendit modelet e mbështetura nga LiteRT-LM. Për numra më të detajuar të performancës dhe karta modeli, vizitoni Komunitetin LiteRT në Hugging Face .
| Model | Lloji | Madhësia (MB) | Detajet | Pajisje | Mbushje paraprake e CPU-së (tk/s) | Dekodimi i CPU-së (tk/s) | Parambushja e GPU-së (tk/s) | Dekodimi i GPU-së (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | Bisedë | 2583 | Kartë modeli | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | Bisedë | 3654 | Kartë modeli | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2560 | 101 | ||||
| Gemma-3n-E2B | Bisedë | 2965 | Kartë modeli | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Bisedë | 4235 | Kartë modeli | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | Bisedë | 1005 | Kartë modeli | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunksioniGemma | Bazë | 289 | Kartë modeli | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Bisedë | 3906 | Kartë modeli | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Bisedë | 1598 | Kartë modeli | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Bisedë | 586 | Kartë modeli | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Bisedë | 521 | Kartë modeli | Samsung S24 Ultra | 251 | 30 | - | - |
Raportimi i Çështjeve
Nëse hasni ndonjë gabim ose keni një kërkesë për një veçori, raportojeni te LiteRT-LM GitHub Issues .