LiteRT-LM'ye Genel Bakış

LiteRT-LM, uç cihazlarda yüksek performanslı ve platformlar arası LLM dağıtımları sunmak için tasarlanmış, üretime hazır ve açık kaynaklı bir çıkarım çerçevesidir.

Temel Özellikler

  • Platformlar Arası Destek: Android, iOS, web ve masaüstünde çalışır.
  • Donanım Hızlandırma:
    • GPU: Hem makine öğrenimi hem de üretken yapay zeka modellerini destekleyen ML Drift tarafından desteklenir.
    • NPU: Qualcomm ve MediaTek yonga setlerine sahip cihazlarda çıkarım hızlandırma (erken erişim).
  • Çoklu Mod: Görüntü ve ses girişi desteği.
  • Araç Kullanımı: Temsilci iş akışları için işlev çağrısı desteği.
  • Geniş Model Desteği: Gemma, Llama, Phi-4, Qwen ve daha fazlasını çalıştırın.

Desteklenen arka uçlar ve platformlar

Platform CPU Desteği GPU Desteği NPU Desteği
Android
iOS -
macOS -
Windows -
Linux -
Yerleştirilmiş - -

Hızlı Başlangıç

Önce denemek ister misiniz? Tam kurulum işlemine devam etmeden önce, LiteRT-LM'yi hemen çalıştırmak için masaüstü için önceden oluşturulmuş ikili dosyaları veya mobil cihazlar için Google AI Edge Gallery uygulamasını kullanabilirsiniz.

Mobil Uygulamalar

Google AI Edge Gallery, LiteRT-LM tarafından desteklenen ve en yeni üretken yapay zeka modellerinin gücünü doğrudan elinize veren bir demo uygulamasıdır.

Desktop CLI

lit ikili dosyasını indirdikten sonra seçenekleri görmek için lit komutunu çalıştırmanız yeterlidir.

Platformunuzu Seçme

Dil Durum En uygun olduğu durumlar: Belgeler
Kotlin
Kararlı
Yerel Android uygulamaları ve JVM tabanlı masaüstü araçları. Coroutines için optimize edilmiştir. Kotlin API Referansı
C++
Kararlı
Yüksek performanslı, platformlar arası temel mantık ve yerleştirilmiş sistemler. C++ API Referansı
Swift 🚀
Geliştirme aşamasında
Özel Metal desteğiyle yerel iOS ve macOS entegrasyonu. Çok Yakında
Python 🚀
Geliştirme aşamasında
Hızlı prototip oluşturma, geliştirme ve masaüstü tarafında komut dosyası oluşturma. Çok Yakında

Desteklenen Modeller

Aşağıdaki tabloda, LiteRT-LM ile tam olarak desteklenen ve test edilen modellerden örnekler gösterilmektedir.

Not: "Chat Ready" (Sohbete Hazır), sohbet için ayarlanmış modelleri (talimat ayarlama) ifade eder. "Temel" modeller, belirli tamamlama işlemleri için kullanılmadığı sürece optimum sohbet performansı için genellikle ince ayar gerektirir.

Model Tür Kuantizasyon Bağlam Uzunluğu Boyut (MB) İndir
Gemma
Gemma3-1B Sohbete Hazır Kanal başına 4 bit 4096 557 İndir
Gemma-3n-E2B Sohbete Hazır Kanal başına 4 bit 4096 2965 İndir
Gemma-3n-E4B Sohbete Hazır Kanal başına 4 bit 4096 4235 İndir
FunctionGemma-270M Temel (İnce ayar gerekir) Kanal başına 8 bit 1024 288 İnce Ayar Kılavuzu
↪ TinyGarden-270M Demo Kanal başına 8 bit 1024 288 İndir / Uygulamayı Dene
Llama
Llama-3.2-1B-Instruct Sohbete Hazır Kanal başına 8 bit 8192 1162 İndir
Llama-3.2-3B-Instruct Sohbete Hazır Kanal başına 8 bit 8192 2893 İndir
Phi
phi-4-mini Sohbete Hazır Kanal başına 8 bit 4096 3728 İndir
Qwen
qwen2.5-1.5b Sohbete Hazır Kanal başına 8 bit 4096 1524 İndir

Performans

Aşağıda, her modelin çeşitli cihazlarda çalıştırılmasıyla ilgili performans sayıları verilmiştir. Karşılaştırmanın, 1.024 jeton ön doldurma ve 256 jeton çözme ile ölçüldüğünü ( Android cihazlarda performans kilidi açıkken) unutmayın.

Model Cihaz Arka uç Ön doldurma (jeton/sn) Kod çözme (jeton/sn) Bağlam boyutu
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1.280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Not: Belirli bir model belirli bir cihaza ilk kez yüklendiğinde ağırlıklar optimize edildiğinden yükleme işlemi daha uzun sürer. Önbelleğe alma sayesinde sonraki yüklemeler daha hızlı olur.

Model Barındırma ve Dağıtım

Bir model, "kablosuz" indirme sınırlarını (genellikle yaklaşık 1,5 GB) aştığında uzaktan getirme stratejisi gerekir.

  • Firebase: Android ve iOS'te büyük dosyaları indirmek için önerilir.
  • HuggingFace API: HuggingFace API'yi kullanarak modelleri doğrudan getirin.

Sorunları Bildirme

Bir hatayla karşılaşırsanız veya özellik isteğinde bulunmak isterseniz lütfen LiteRT-LM GitHub Sorunları sayfasını kullanın.