LiteRT-LM, uç cihazlarda yüksek performanslı ve platformlar arası LLM dağıtımları sunmak için tasarlanmış, üretime hazır ve açık kaynaklı bir çıkarım çerçevesidir.
Temel Özellikler
- Platformlar Arası Destek: Android, iOS, web ve masaüstünde çalışır.
- Donanım Hızlandırma:
- GPU: Hem makine öğrenimi hem de üretken yapay zeka modellerini destekleyen ML Drift tarafından desteklenir.
- NPU: Qualcomm ve MediaTek yonga setlerine sahip cihazlarda çıkarım hızlandırma (erken erişim).
- Çoklu Mod: Görüntü ve ses girişi desteği.
- Araç Kullanımı: Temsilci iş akışları için işlev çağrısı desteği.
- Geniş Model Desteği: Gemma, Llama, Phi-4, Qwen ve daha fazlasını çalıştırın.
Desteklenen arka uçlar ve platformlar
| Platform | CPU Desteği | GPU Desteği | NPU Desteği |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Yerleştirilmiş | ✅ | - | - |
Hızlı Başlangıç
Önce denemek ister misiniz? Tam kurulum işlemine devam etmeden önce, LiteRT-LM'yi hemen çalıştırmak için masaüstü için önceden oluşturulmuş ikili dosyaları veya mobil cihazlar için Google AI Edge Gallery uygulamasını kullanabilirsiniz.
Mobil Uygulamalar
Google AI Edge Gallery, LiteRT-LM tarafından desteklenen ve en yeni üretken yapay zeka modellerinin gücünü doğrudan elinize veren bir demo uygulamasıdır.
Desktop CLI
lit ikili dosyasını indirdikten sonra seçenekleri görmek için lit komutunu çalıştırmanız yeterlidir.
Platformunuzu Seçme
| Dil | Durum | En uygun olduğu durumlar: | Belgeler |
|---|---|---|---|
| Kotlin | ✅ Kararlı |
Yerel Android uygulamaları ve JVM tabanlı masaüstü araçları. Coroutines için optimize edilmiştir. | Kotlin API Referansı |
| C++ | ✅ Kararlı |
Yüksek performanslı, platformlar arası temel mantık ve yerleştirilmiş sistemler. | C++ API Referansı |
| Swift | 🚀 Geliştirme aşamasında |
Özel Metal desteğiyle yerel iOS ve macOS entegrasyonu. | Çok Yakında |
| Python | 🚀 Geliştirme aşamasında |
Hızlı prototip oluşturma, geliştirme ve masaüstü tarafında komut dosyası oluşturma. | Çok Yakında |
Desteklenen Modeller
Aşağıdaki tabloda, LiteRT-LM ile tam olarak desteklenen ve test edilen modellerden örnekler gösterilmektedir.
Not: "Chat Ready" (Sohbete Hazır), sohbet için ayarlanmış modelleri (talimat ayarlama) ifade eder. "Temel" modeller, belirli tamamlama işlemleri için kullanılmadığı sürece optimum sohbet performansı için genellikle ince ayar gerektirir.
| Model | Tür | Kuantizasyon | Bağlam Uzunluğu | Boyut (MB) | İndir |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Sohbete Hazır | Kanal başına 4 bit | 4096 | 557 | İndir |
| Gemma-3n-E2B | Sohbete Hazır | Kanal başına 4 bit | 4096 | 2965 | İndir |
| Gemma-3n-E4B | Sohbete Hazır | Kanal başına 4 bit | 4096 | 4235 | İndir |
| FunctionGemma-270M | Temel (İnce ayar gerekir) | Kanal başına 8 bit | 1024 | 288 | İnce Ayar Kılavuzu |
| ↪ TinyGarden-270M | Demo | Kanal başına 8 bit | 1024 | 288 | İndir / Uygulamayı Dene |
| Llama | |||||
| Llama-3.2-1B-Instruct | Sohbete Hazır | Kanal başına 8 bit | 8192 | 1162 | İndir |
| Llama-3.2-3B-Instruct | Sohbete Hazır | Kanal başına 8 bit | 8192 | 2893 | İndir |
| Phi | |||||
| phi-4-mini | Sohbete Hazır | Kanal başına 8 bit | 4096 | 3728 | İndir |
| Qwen | |||||
| qwen2.5-1.5b | Sohbete Hazır | Kanal başına 8 bit | 4096 | 1524 | İndir |
Performans
Aşağıda, her modelin çeşitli cihazlarda çalıştırılmasıyla ilgili performans sayıları verilmiştir. Karşılaştırmanın, 1.024 jeton ön doldurma ve 256 jeton çözme ile ölçüldüğünü ( Android cihazlarda performans kilidi açıkken) unutmayın.
| Model | Cihaz | Arka uç | Ön doldurma (jeton/sn) | Kod çözme (jeton/sn) | Bağlam boyutu |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1.280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Not: Belirli bir model belirli bir cihaza ilk kez yüklendiğinde ağırlıklar optimize edildiğinden yükleme işlemi daha uzun sürer. Önbelleğe alma sayesinde sonraki yüklemeler daha hızlı olur.
Model Barındırma ve Dağıtım
Bir model, "kablosuz" indirme sınırlarını (genellikle yaklaşık 1,5 GB) aştığında uzaktan getirme stratejisi gerekir.
- Firebase: Android ve iOS'te büyük dosyaları indirmek için önerilir.
- HuggingFace API: HuggingFace API'yi kullanarak modelleri doğrudan getirin.
Sorunları Bildirme
Bir hatayla karşılaşırsanız veya özellik isteğinde bulunmak isterseniz lütfen LiteRT-LM GitHub Sorunları sayfasını kullanın.