LiteRT-LM, प्रोडक्शन के लिए तैयार, ओपन-सोर्स इन्फ़रेंस फ़्रेमवर्क है. इसे एज डिवाइसों पर, क्रॉस-प्लैटफ़ॉर्म एलएलएम डिप्लॉयमेंट की हाई-परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है.
मुख्य सुविधाएं
- क्रॉस-प्लैटफ़ॉर्म सपोर्ट: Android, iOS, वेब, और डेस्कटॉप पर काम करता है.
- हार्डवेयर की मदद से रफ़्तार बढ़ाने की सुविधा:
- जीपीयू: यह एमएल ड्रिफ़्ट की मदद से काम करता है. साथ ही, एमएल और जनरेटिव एआई, दोनों तरह के मॉडल के साथ काम करता है.
- एनपीयू: Qualcomm और MediaTek चिपसेट वाले डिवाइसों पर, तेज़ी से अनुमान लगाने की सुविधा (अर्ली ऐक्सेस).
- मल्टी-मॉडल: विज़न और ऑडियो इनपुट की सुविधा.
- टूल का इस्तेमाल: एजेंटिक वर्कफ़्लो के लिए, फ़ंक्शन कॉलिंग की सुविधा.
- कई मॉडल के साथ काम करता है: Gemma, Llama, Phi-4, Qwen वगैरह को चलाएं.
इस्तेमाल किए जा सकने वाले बैकएंड और प्लैटफ़ॉर्म
| प्लैटफ़ॉर्म | सीपीयू सपोर्ट | GPU सपोर्ट | एनपीयू की सुविधा |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| एम्बेड किया गया | ✅ | - | - |
क्विक स्टार्ट
क्या आपको इसे आज़माना है? पूरा सेटअप करने से पहले, डेस्कटॉप के लिए पहले से बनाए गए बाइनरी या मोबाइल के लिए Google AI Edge Gallery ऐप्लिकेशन का इस्तेमाल करके, LiteRT-LM को तुरंत चलाया जा सकता है.
मोबाइल ऐप्लिकेशन
Google AI Edge Gallery एक डेमो ऐप्लिकेशन है. यह आपको सीधे तौर पर, जनरेटिव एआई के बेहतरीन मॉडल इस्तेमाल करने की सुविधा देता है. यह LiteRT-LM की मदद से काम करता है.
डेस्कटॉप सीएलआई
lit बाइनरी डाउनलोड करने के बाद, विकल्प देखने के लिए lit चलाएं.
अपना प्लैटफ़ॉर्म चुनें
| भाषा | स्थिति | इनके लिए सबसे सही... | दस्तावेज़ |
|---|---|---|---|
| Kotlin | ✅ स्टेबल |
नेटिव Android ऐप्लिकेशन और जेवीएम पर आधारित डेस्कटॉप टूल. इसे को-रूटीन के लिए ऑप्टिमाइज़ किया गया है. | Kotlin API का रेफ़रंस |
| C++ | ✅ स्टेबल |
बेहतरीन परफ़ॉर्मेंस देने वाले, क्रॉस-प्लैटफ़ॉर्म कोर लॉजिक और एम्बेड किए गए सिस्टम. | C++ API का रेफ़रंस |
| Swift | 🚀 डेवलपमेंट वर्शन में |
iOS और macOS के साथ नेटिव इंटिग्रेशन और Metal के लिए खास तौर पर तैयार की गई सहायता. | जल्द आ रहा है |
| Python | 🚀 डेवलपमेंट वर्शन में |
रैपिड प्रोटोटाइपिंग, डेवलपमेंट, और डेस्कटॉप-साइड स्क्रिप्टिंग. | जल्द आ रहा है |
काम करने वाले मॉडल
इस टेबल में, उन मॉडल के सैंपल दिखाए गए हैं जो LiteRT-LM के साथ पूरी तरह से काम करते हैं और जिनकी जांच की जा चुकी है.
ध्यान दें: "चैट के लिए तैयार" का मतलब है कि मॉडल को चैट के लिए ट्यून किया गया है (निर्देशों के हिसाब से ट्यून किया गया है). "बेस" मॉडल को अक्सर चैट की सबसे अच्छी परफ़ॉर्मेंस के लिए फ़ाइन-ट्यून करने की ज़रूरत होती है. हालांकि, ऐसा तब नहीं होता, जब इनका इस्तेमाल किसी खास काम के लिए किया जाता है.
| मॉडल | टाइप | क्वांटाइज़ेशन | कॉन्टेक्स्ट की लंबाई | साइज़ (एमबी) | डाउनलोड करें |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | चैट के लिए तैयार | हर चैनल के लिए 4 बिट | 4096 | 557 | डाउनलोड करें |
| Gemma-3n-E2B | चैट के लिए तैयार | हर चैनल के लिए 4 बिट | 4096 | 2965 | डाउनलोड करें |
| Gemma-3n-E4B | चैट के लिए तैयार | हर चैनल के लिए 4 बिट | 4096 | 4235 | डाउनलोड करें |
| FunctionGemma-270M | बेस (फ़ाइन-ट्यूनिंग ज़रूरी है) | हर चैनल के लिए 8-बिट | 1024 | 288 | फ़ाइन-ट्यूनिंग गाइड |
| ↪ TinyGarden-270M | डेमो | हर चैनल के लिए 8-बिट | 1024 | 288 | डाउनलोड करें / ऐप्लिकेशन आज़माएं |
| Llama | |||||
| Llama-3.2-1B-Instruct | चैट के लिए तैयार | हर चैनल के लिए 8-बिट | 8192 | 1162 | डाउनलोड करें |
| Llama-3.2-3B-Instruct | चैट के लिए तैयार | हर चैनल के लिए 8-बिट | 8192 | 2893 | डाउनलोड करें |
| Phi | |||||
| phi-4-mini | चैट के लिए तैयार | हर चैनल के लिए 8-बिट | 4096 | 3728 | डाउनलोड करें |
| Qwen | |||||
| qwen2.5-1.5b | चैट के लिए तैयार | हर चैनल के लिए 8-बिट | 4096 | 1524 | डाउनलोड करें |
परफ़ॉर्मेंस
यहां अलग-अलग डिवाइसों पर हर मॉडल की परफ़ॉर्मेंस के आंकड़े दिए गए हैं. ध्यान दें कि बेंचमार्क का आकलन, 1,024 टोकन प्रीफ़िल और 256 टोकन डिकोड के साथ किया जाता है. साथ ही, Android डिवाइसों पर परफ़ॉर्मेंस लॉक की सुविधा चालू होती है.
| मॉडल | डिवाइस | बैकएंड | पहले से भरा गया डेटा (टोकन/सेकंड) | डिकोड करना (टोकन/सेकंड) | कॉन्टेक्स्ट विंडो का साइज़ |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
सीपीयू | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
सीपीयू | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
एनपीयू | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
सीपीयू | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
सीपीयू | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
सीपीयू | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
सीपीयू | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
सीपीयू | 1718 | 126 | 1024 |
ध्यान दें: किसी डिवाइस पर पहली बार कोई मॉडल लोड होने में ज़्यादा समय लगेगा, क्योंकि वज़न को ऑप्टिमाइज़ किया जाता है. कैशिंग की वजह से, बाद में लोड होने वाले पेजों को तेज़ी से लोड किया जा सकेगा.
मॉडल होस्ट करना और डिप्लॉय करना
जब कोई मॉडल "ओवर-द-एयर" डाउनलोड करने की सीमाओं (अक्सर 1.5 जीबी के आस-पास) से ज़्यादा हो जाता है, तो रिमोट फ़ेच करने की रणनीति की ज़रूरत होती है.
- Firebase: Android और iOS पर बड़ी फ़ाइलें डाउनलोड करने के लिए, इसका इस्तेमाल करने का सुझाव दिया जाता है.
- HuggingFace API: HuggingFace API का इस्तेमाल करके, सीधे तौर पर मॉडल फ़ेच करें.
समस्याओं की रिपोर्ट करना
अगर आपको कोई गड़बड़ी मिलती है या आपको किसी सुविधा का अनुरोध करना है, तो कृपया LiteRT-LM GitHub Issues पेज का इस्तेमाल करें.