Përmbledhje e LiteRT-LM

LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.

Mbështetje Ndërplatformore: Funksionon në Android, iOS, Web, Desktop dhe IoT (p.sh. Raspberry Pi).
Përshpejtimi i Hardware-it: Merrni performancë maksimale dhe stabilitet të sistemit duke përdorur përshpejtuesit e GPU-së dhe NPU-së në të gjitha llojet e harduerit.
Multi-Modalitet: Ndërtoni me LLM që kanë mbështetje për vizion dhe audio.
Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës agjentike me dekodim të kufizuar për saktësi të përmirësuar.
Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.

Vitrina e GenAI në Pajisje

Pamje e ekranit nga Galeria Google AI Edge

Galeria Google AI Edge është një aplikacion eksperimental i projektuar për të shfaqur aftësitë e IA-së Gjenerative në pajisje që funksionojnë tërësisht jashtë linje duke përdorur LiteRT-LM.

Google Play : Përdorni LLM-të lokalisht në pajisjet Android të mbështetura.
App Store : Përjetoni inteligjencën artificiale në pajisjen tuaj iOS.
Burimi i GitHub : Shikoni kodin burimor për aplikacionin e galerisë për të mësuar se si të integroni LiteRT-LM brenda projekteve tuaja.

Modeli i paraqitur: Gemma-3n-E2B

Profili i Pajisjes	Modaliteti	Mbushje paraprake (tk/s)	Dekodo (tk/s)
MacBook Pro 2023 M3	CPU	233	28
MacBook Pro 2024 M4	GPU	2265	48
Samsung S24 (Ultra)	CPU	111	16
	GPU	816	16

Filloni Ndërtimin

Fragmentet e mëposhtme tregojnë se si të filloni me LiteRT-LM CLI, si dhe API-të Python, Kotlin dhe C++.

CLI

litert-lm run model.litertlm --prompt="What is the capital of France?"

Python

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

Kotlin

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))

C++

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;

Gjuha	Statusi	Më e mira për...	Dokumentacioni
CLI	🚀 Pamje paraprake e hershme	Fillimi me LiteRT-LM në më pak se 1 minutë.	Udhëzuesi CLI
Python	✅ Stallë	Prototipizim dhe zhvillim i shpejtë në desktop dhe Raspberry Pi.	Udhëzues Python
Kotlin	✅ Stallë	Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines.	Udhëzuesi i Kotlinit
C++	✅ Stallë	Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura.	Udhëzues C++
I shpejtë	🚀 Në Zhvillim	Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal.	Së shpejti

Backend-et dhe Platformat e Mbështetura

Përshpejtimi	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	-	-	-

Modelet e Mbështetura

Tabela e mëposhtme rendit modelet e mbështetura nga LiteRT-LM. Për numra më të detajuar të performancës dhe karta modeli, vizitoni Komunitetin LiteRT në Hugging Face .

Model	Lloji	Madhësia (MB)	Lidhja e shkarkimit	Pajisja	Mbushje paraprake e CPU-së (tk/s)	Dekodimi i CPU-së (tk/s)	Parambushja e GPU-së (tk/s)	Dekodimi i GPU-së (tk/s)
Gemma3-1B	Bisedë	1005	Kartë modeli	Samsung S24 Ultra	177	33	1191	24
Gemma-3n-E2B	Bisedë	2965	Kartë modeli	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	Bisedë	4235	Kartë modeli	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
FunksioniGemma	Bazë	289	Kartë modeli	Samsung S25 Ultra	2238	154	-	-
phi-4-mini	Bisedë	3906	Kartë modeli	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	Bisedë	1598	Kartë modeli	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	Bisedë	586	Kartë modeli	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	Bisedë	521	Kartë modeli	Samsung S24 Ultra	251	30	-	-

Raportimi i Çështjeve

Nëse hasni ndonjë gabim ose keni një kërkesë për një veçori, raportojeni te LiteRT-LM GitHub Issues .