LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.
- Mbështetje Ndërplatformore: Funksionon në Android, iOS, Web, Desktop dhe IoT (p.sh. Raspberry Pi).
- Përshpejtimi i Hardware-it: Merrni performancë maksimale dhe stabilitet të sistemit duke përdorur përshpejtuesit e GPU-së dhe NPU-së në të gjitha llojet e harduerit.
- Multi-Modalitet: Ndërtoni me LLM që kanë mbështetje për vizion dhe audio.
- Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës agjentike me dekodim të kufizuar për saktësi të përmirësuar.
- Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.
Vitrina e GenAI në Pajisje
![]()
Galeria Google AI Edge është një aplikacion eksperimental i projektuar për të shfaqur aftësitë e IA-së Gjenerative në pajisje që funksionojnë tërësisht jashtë linje duke përdorur LiteRT-LM.
- Google Play : Përdorni LLM-të lokalisht në pajisjet Android të mbështetura.
- App Store : Përjetoni inteligjencën artificiale në pajisjen tuaj iOS.
- Burimi i GitHub : Shikoni kodin burimor për aplikacionin e galerisë për të mësuar se si të integroni LiteRT-LM brenda projekteve tuaja.
Modeli i paraqitur: Gemma-3n-E2B
| Profili i Pajisjes | Modaliteti | Mbushje paraprake (tk/s) | Dekodo (tk/s) |
|---|---|---|---|
| MacBook Pro 2023 M3 | CPU | 233 | 28 |
| MacBook Pro 2024 M4 | GPU | 2265 | 48 |
| Samsung S24 (Ultra) | CPU | 111 | 16 |
| GPU | 816 | 16 |
Filloni Ndërtimin
Fragmentet e mëposhtme tregojnë se si të filloni me LiteRT-LM CLI, si dhe API-të Python, Kotlin dhe C++.
CLI
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| Gjuha | Statusi | Më e mira për... | Dokumentacioni |
|---|---|---|---|
| CLI | 🚀 Pamje paraprake e hershme | Fillimi me LiteRT-LM në më pak se 1 minutë. | Udhëzuesi CLI |
| Python | ✅ Stallë | Prototipizim dhe zhvillim i shpejtë në desktop dhe Raspberry Pi. | Udhëzues Python |
| Kotlin | ✅ Stallë | Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines. | Udhëzuesi i Kotlinit |
| C++ | ✅ Stallë | Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura. | Udhëzues C++ |
| I shpejtë | 🚀 Në Zhvillim | Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal. | Së shpejti |
Backend-et dhe Platformat e Mbështetura
| Përshpejtimi | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
Modelet e Mbështetura
Tabela e mëposhtme rendit modelet e mbështetura nga LiteRT-LM. Për numra më të detajuar të performancës dhe karta modeli, vizitoni Komunitetin LiteRT në Hugging Face .
| Model | Lloji | Madhësia (MB) | Lidhja e shkarkimit | Pajisja | Mbushje paraprake e CPU-së (tk/s) | Dekodimi i CPU-së (tk/s) | Parambushja e GPU-së (tk/s) | Dekodimi i GPU-së (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma3-1B | Bisedë | 1005 | Kartë modeli | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| Gemma-3n-E2B | Bisedë | 2965 | Kartë modeli | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Bisedë | 4235 | Kartë modeli | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| FunksioniGemma | Bazë | 289 | Kartë modeli | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Bisedë | 3906 | Kartë modeli | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Bisedë | 1598 | Kartë modeli | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Bisedë | 586 | Kartë modeli | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Bisedë | 521 | Kartë modeli | Samsung S24 Ultra | 251 | 30 | - | - |
Raportimi i Çështjeve
Nëse hasni ndonjë gabim ose keni një kërkesë për një veçori, raportojeni te LiteRT-LM GitHub Issues .