LiteRT-LM, uç cihazlarda yüksek performanslı ve platformlar arası LLM dağıtımları sunmak için tasarlanmış, üretime hazır ve açık kaynaklı bir çıkarım çerçevesidir.
- Platformlar Arası Destek: Android, iOS, Web, masaüstü ve IoT'de (ör. Raspberry Pi) çalışır.
- Donanım Hızlandırma: Çeşitli donanımlarda GPU ve NPU hızlandırıcılarından yararlanarak en yüksek performansı ve sistem kararlılığını elde edin.
- Çok formatlılık: Görüntü ve ses desteği olan LLM'lerle geliştirme yapın.
- Araç Kullanımı: Gelişmiş doğruluk için kısıtlanmış kod çözme ile ajan tabanlı iş akışlarında işlev çağrısı desteği.
- Geniş Model Desteği: Gemma, Llama, Phi-4, Qwen ve daha fazlasını çalıştırın.
Cihaz Üzerinde Üretken Yapay Zeka Gösterimi
Google AI Edge Galerisi, LiteRT-LM kullanılarak tamamen çevrimdışı çalışan cihaz üzerinde üretken yapay zeka özelliklerini sergilemek için tasarlanmış deneysel bir uygulamadır.
- Google Play: Desteklenen Android cihazlarda LLM'leri yerel olarak kullanın.
- App Store: iOS cihazınızda cihaz üzerinde yapay zeka deneyimini yaşayın.
- GitHub Kaynağı: LiteRT-LM'yi kendi projelerinize nasıl entegre edeceğinizi öğrenmek için galeri uygulamasının kaynak kodunu görüntüleyin.
Öne çıkan model: Gemma-3n-E2B
| Cihaz Profili | Mod | Önceden doldurma (tk/s) | Kod çözme (tk/sn) |
|---|---|---|---|
| MacBook Pro 2023 M3 | CPU | 233 | 28 |
| MacBook Pro 2024 M4 | GPU | 2265 | 48 |
| Samsung S24 (Ultra) | CPU | 111 | 16 |
| GPU | 816 | 16 |
Derlemeye Başlama
Aşağıdaki snippet'lerde LiteRT-LM CLI'yi kullanmaya başlama ve Python, Kotlin ve C++ API'leri hakkında bilgiler yer almaktadır.
KSA
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| Dil | Durum | En uygun olduğu durumlar: | Belgeler |
|---|---|---|---|
| CLI | 🚀 Erken erişim |
LiteRT-LM'yi 1 dakikadan kısa sürede kullanmaya başlayın. | CLI Kılavuzu |
| Python | ✅ Kararlı |
Masaüstü ve Raspberry Pi'de hızlı prototip oluşturma ve geliştirme | Python Kılavuzu |
| Kotlin | ✅ Kararlı |
Yerel Android uygulamaları ve JVM tabanlı masaüstü araçları. Coroutine'ler için optimize edilmiştir. | Kotlin Kılavuzu |
| C++ | ✅ Kararlı |
Yüksek performanslı, platformlar arası temel mantık ve yerleştirilmiş sistemler. | C++ Kılavuzu |
| Swift | 🚀 Geliştirme aşamasında |
Özel Metal desteğiyle yerel iOS ve macOS entegrasyonu. | Çok Yakında |
Desteklenen arka uçlar ve platformlar
| İvme | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
Desteklenen Modeller
Aşağıdaki tabloda, LiteRT-LM tarafından desteklenen modeller listelenmiştir. Daha ayrıntılı performans rakamları ve model kartları için Hugging Face'teki LiteRT Topluluğu'nu ziyaret edin.
| Model | Tür | Boyut (MB) | İndirme Bağlantısı | Cihaz | CPU Prefill (tk/sn) | CPU kod çözme (tk/sn) | GPU Prefill (tk/s) | GPU kod çözme (tk/sn) |
|---|---|---|---|---|---|---|---|---|
| Gemma3-1B | Sohbet | 1005 | Model Kartı | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| Gemma-3n-E2B | Sohbet | 2965 | Model Kartı | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Sohbet | 4235 | Model Kartı | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| FunctionGemma | Temel | 289 | Model Kartı | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Sohbet | 3906 | Model Kartı | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Sohbet | 1598 | Model Kartı | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Sohbet | 586 | Model Kartı | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Sohbet | 521 | Model Kartı | Samsung S24 Ultra | 251 | 30 | - | - |
Sorunları Bildirme
Bir hatayla karşılaşırsanız veya özellik isteğinde bulunmak isterseniz LiteRT-LM GitHub Sorunları sayfasından bildirin.