Përmbledhje e LiteRT-LM

LiteRT-LM është një kornizë inference me burim të hapur, e gatshme për prodhim, e projektuar për të ofruar vendosje LLM me performancë të lartë dhe ndërplatformë në pajisjet skajore.

  • Mbështetje Ndërplatformore: Funksionon në Android, iOS, Web, Desktop dhe IoT (p.sh. Raspberry Pi).
  • Përshpejtimi i Hardware-it: Merrni performancë maksimale dhe stabilitet të sistemit duke përdorur përshpejtuesit e GPU-së dhe NPU-së në të gjitha llojet e harduerit.
  • Multi-Modalitet: Ndërtoni me LLM që kanë mbështetje për vizion dhe audio.
  • Përdorimi i mjetit: Mbështetje për thirrjen e funksioneve për rrjedhat e punës agjentike me dekodim të kufizuar për saktësi të përmirësuar.
  • Mbështetje e gjerë për modelet: Run Gemma, Llama, Phi-4, Qwen dhe më shumë.

Vitrina e GenAI në Pajisje

Pamje e ekranit nga Galeria Google AI Edge

Galeria Google AI Edge është një aplikacion eksperimental i projektuar për të shfaqur aftësitë e IA-së Gjenerative në pajisje që funksionojnë tërësisht jashtë linje duke përdorur LiteRT-LM.

  • Google Play : Përdorni LLM-të lokalisht në pajisjet Android të mbështetura.
  • App Store : Përjetoni inteligjencën artificiale në pajisjen tuaj iOS.
  • Burimi i GitHub : Shikoni kodin burimor për aplikacionin e galerisë për të mësuar se si të integroni LiteRT-LM brenda projekteve tuaja.
Profili i Pajisjes Modaliteti Mbushje paraprake (tk/s) Dekodo (tk/s)
MacBook Pro 2023 M3 CPU 233 28
MacBook Pro 2024 M4 GPU 2265 48
Samsung S24 (Ultra) CPU 111 16
GPU 816 16

Filloni Ndërtimin

Fragmentet e mëposhtme tregojnë se si të filloni me LiteRT-LM CLI, si dhe API-të Python, Kotlin dhe C++.

CLI

litert-lm run model.litertlm --prompt="What is the capital of France?"

Python

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

Kotlin

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))  

C++

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;
Gjuha Statusi Më e mira për... Dokumentacioni
CLI 🚀
Pamje paraprake e hershme
Fillimi me LiteRT-LM në më pak se 1 minutë. Udhëzuesi CLI
Python
Stallë
Prototipizim dhe zhvillim i shpejtë në desktop dhe Raspberry Pi. Udhëzues Python
Kotlin
Stallë
Aplikacione native Android dhe mjete desktopi të bazuara në JVM. I optimizuar për Coroutines. Udhëzuesi i Kotlinit
C++
Stallë
Logjikë thelbësore me performancë të lartë, ndërplatformë dhe sisteme të ngulitura. Udhëzues C++
I shpejtë 🚀
Në Zhvillim
Integrim nativ i iOS dhe macOS me mbështetje të specializuar për Metal. Së shpejti

Backend-et dhe Platformat e Mbështetura

Përshpejtimi Android iOS macOS Windows Linux IoT
CPU
GPU -
NPU - - - - -

Modelet e Mbështetura

Tabela e mëposhtme rendit modelet e mbështetura nga LiteRT-LM. Për numra më të detajuar të performancës dhe karta modeli, vizitoni Komunitetin LiteRT në Hugging Face .

Model Lloji Madhësia (MB) Lidhja e shkarkimit Pajisja Mbushje paraprake e CPU-së (tk/s) Dekodimi i CPU-së (tk/s) Parambushja e GPU-së (tk/s) Dekodimi i GPU-së (tk/s)
Gemma3-1B Bisedë 1005 Kartë modeli Samsung S24 Ultra 177 33 1191 24
Gemma-3n-E2B Bisedë 2965 Kartë modeli MacBook Pro M3 233 28 - -
Samsung S24 Ultra 111 16 816 16
Gemma-3n-E4B Bisedë 4235 Kartë modeli MacBook Pro M3 170 20 - -
Samsung S24 Ultra 74 9 548 9
FunksioniGemma Bazë 289 Kartë modeli Samsung S25 Ultra 2238 154 - -
phi-4-mini Bisedë 3906 Kartë modeli Samsung S24 Ultra 67 7 314 10
Qwen2.5-1.5B Bisedë 1598 Kartë modeli Samsung S25 Ultra 298 34 1668 31
Qwen3-0.6B Bisedë 586 Kartë modeli Vivo X300 Pro 165 9 580 21
Qwen2.5-0.5B Bisedë 521 Kartë modeli Samsung S24 Ultra 251 30 - -

Raportimi i Çështjeve

Nëse hasni ndonjë gabim ose keni një kërkesë për një veçori, raportojeni te LiteRT-LM GitHub Issues .