LiteRT-LM के बारे में खास जानकारी

LiteRT-LM, प्रोडक्शन के लिए तैयार, ओपन-सोर्स इन्फ़रेंस फ़्रेमवर्क है. इसे एज डिवाइसों पर, क्रॉस-प्लैटफ़ॉर्म एलएलएम डिप्लॉयमेंट की हाई-परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है.

मुख्य सुविधाएं

  • क्रॉस-प्लैटफ़ॉर्म सपोर्ट: Android, iOS, वेब, और डेस्कटॉप पर काम करता है.
  • हार्डवेयर की मदद से रफ़्तार बढ़ाने की सुविधा:
    • जीपीयू: यह एमएल ड्रिफ़्ट की मदद से काम करता है. साथ ही, एमएल और जनरेटिव एआई, दोनों तरह के मॉडल के साथ काम करता है.
    • एनपीयू: Qualcomm और MediaTek चिपसेट वाले डिवाइसों पर, तेज़ी से अनुमान लगाने की सुविधा (अर्ली ऐक्सेस).
  • मल्टी-मॉडल: विज़न और ऑडियो इनपुट की सुविधा.
  • टूल का इस्तेमाल: एजेंटिक वर्कफ़्लो के लिए, फ़ंक्शन कॉलिंग की सुविधा.
  • कई मॉडल के साथ काम करता है: Gemma, Llama, Phi-4, Qwen वगैरह को चलाएं.

इस्तेमाल किए जा सकने वाले बैकएंड और प्लैटफ़ॉर्म

प्लैटफ़ॉर्म सीपीयू सपोर्ट GPU सपोर्ट एनपीयू की सुविधा
Android
iOS -
macOS -
Windows -
Linux -
एम्बेड किया गया - -

क्विक स्टार्ट

क्या आपको इसे आज़माना है? पूरा सेटअप करने से पहले, डेस्कटॉप के लिए पहले से बनाए गए बाइनरी या मोबाइल के लिए Google AI Edge Gallery ऐप्लिकेशन का इस्तेमाल करके, LiteRT-LM को तुरंत चलाया जा सकता है.

मोबाइल ऐप्लिकेशन

Google AI Edge Gallery एक डेमो ऐप्लिकेशन है. यह आपको सीधे तौर पर, जनरेटिव एआई के बेहतरीन मॉडल इस्तेमाल करने की सुविधा देता है. यह LiteRT-LM की मदद से काम करता है.

डेस्कटॉप सीएलआई

lit बाइनरी डाउनलोड करने के बाद, विकल्प देखने के लिए lit चलाएं.

अपना प्लैटफ़ॉर्म चुनें

भाषा स्थिति इनके लिए सबसे सही... दस्तावेज़
Kotlin
स्टेबल
नेटिव Android ऐप्लिकेशन और जेवीएम पर आधारित डेस्कटॉप टूल. इसे को-रूटीन के लिए ऑप्टिमाइज़ किया गया है. Kotlin API का रेफ़रंस
C++
स्टेबल
बेहतरीन परफ़ॉर्मेंस देने वाले, क्रॉस-प्लैटफ़ॉर्म कोर लॉजिक और एम्बेड किए गए सिस्टम. C++ API का रेफ़रंस
Swift 🚀
डेवलपमेंट वर्शन में
iOS और macOS के साथ नेटिव इंटिग्रेशन और Metal के लिए खास तौर पर तैयार की गई सहायता. जल्द आ रहा है
Python 🚀
डेवलपमेंट वर्शन में
रैपिड प्रोटोटाइपिंग, डेवलपमेंट, और डेस्कटॉप-साइड स्क्रिप्टिंग. जल्द आ रहा है

काम करने वाले मॉडल

इस टेबल में, उन मॉडल के सैंपल दिखाए गए हैं जो LiteRT-LM के साथ पूरी तरह से काम करते हैं और जिनकी जांच की जा चुकी है.

ध्यान दें: "चैट के लिए तैयार" का मतलब है कि मॉडल को चैट के लिए ट्यून किया गया है (निर्देशों के हिसाब से ट्यून किया गया है). "बेस" मॉडल को अक्सर चैट की सबसे अच्छी परफ़ॉर्मेंस के लिए फ़ाइन-ट्यून करने की ज़रूरत होती है. हालांकि, ऐसा तब नहीं होता, जब इनका इस्तेमाल किसी खास काम के लिए किया जाता है.

मॉडल टाइप क्वांटाइज़ेशन कॉन्टेक्स्ट की लंबाई साइज़ (एमबी) डाउनलोड करें
Gemma
Gemma3-1B चैट के लिए तैयार हर चैनल के लिए 4 बिट 4096 557 डाउनलोड करें
Gemma-3n-E2B चैट के लिए तैयार हर चैनल के लिए 4 बिट 4096 2965 डाउनलोड करें
Gemma-3n-E4B चैट के लिए तैयार हर चैनल के लिए 4 बिट 4096 4235 डाउनलोड करें
FunctionGemma-270M बेस (फ़ाइन-ट्यूनिंग ज़रूरी है) हर चैनल के लिए 8-बिट 1024 288 फ़ाइन-ट्यूनिंग गाइड
↪ TinyGarden-270M डेमो हर चैनल के लिए 8-बिट 1024 288 डाउनलोड करें / ऐप्लिकेशन आज़माएं
Llama
Llama-3.2-1B-Instruct चैट के लिए तैयार हर चैनल के लिए 8-बिट 8192 1162 डाउनलोड करें
Llama-3.2-3B-Instruct चैट के लिए तैयार हर चैनल के लिए 8-बिट 8192 2893 डाउनलोड करें
Phi
phi-4-mini चैट के लिए तैयार हर चैनल के लिए 8-बिट 4096 3728 डाउनलोड करें
Qwen
qwen2.5-1.5b चैट के लिए तैयार हर चैनल के लिए 8-बिट 4096 1524 डाउनलोड करें

परफ़ॉर्मेंस

यहां अलग-अलग डिवाइसों पर हर मॉडल की परफ़ॉर्मेंस के आंकड़े दिए गए हैं. ध्यान दें कि बेंचमार्क का आकलन, 1,024 टोकन प्रीफ़िल और 256 टोकन डिकोड के साथ किया जाता है. साथ ही, Android डिवाइसों पर परफ़ॉर्मेंस लॉक की सुविधा चालू होती है.

मॉडल डिवाइस बैकएंड पहले से भरा गया डेटा (टोकन/सेकंड) डिकोड करना (टोकन/सेकंड) कॉन्टेक्स्ट विंडो का साइज़
Gemma3-1B MacBook Pro
(2023 M3)
सीपीयू 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
सीपीयू 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
एनपीयू 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
सीपीयू 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
सीपीयू 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
सीपीयू 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
सीपीयू 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
सीपीयू 1718 126 1024

ध्यान दें: किसी डिवाइस पर पहली बार कोई मॉडल लोड होने में ज़्यादा समय लगेगा, क्योंकि वज़न को ऑप्टिमाइज़ किया जाता है. कैशिंग की वजह से, बाद में लोड होने वाले पेजों को तेज़ी से लोड किया जा सकेगा.

मॉडल होस्ट करना और डिप्लॉय करना

जब कोई मॉडल "ओवर-द-एयर" डाउनलोड करने की सीमाओं (अक्सर 1.5 जीबी के आस-पास) से ज़्यादा हो जाता है, तो रिमोट फ़ेच करने की रणनीति की ज़रूरत होती है.

  • Firebase: Android और iOS पर बड़ी फ़ाइलें डाउनलोड करने के लिए, इसका इस्तेमाल करने का सुझाव दिया जाता है.
  • HuggingFace API: HuggingFace API का इस्तेमाल करके, सीधे तौर पर मॉडल फ़ेच करें.

समस्याओं की रिपोर्ट करना

अगर आपको कोई गड़बड़ी मिलती है या आपको किसी सुविधा का अनुरोध करना है, तो कृपया LiteRT-LM GitHub Issues पेज का इस्तेमाल करें.