LiteRT-LM, प्रोडक्शन के लिए तैयार, ओपन-सोर्स इन्फ़्रेंस फ़्रेमवर्क है. इसे एज डिवाइसों पर, क्रॉस-प्लैटफ़ॉर्म एलएलएम डिप्लॉयमेंट की हाई-परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है.
- क्रॉस-प्लैटफ़ॉर्म पर काम करता है: Android, iOS, वेब, डेस्कटॉप, और IoT (जैसे, Raspberry Pi) पर काम करता है.
- हार्डवेयर ऐक्सलरेशन: अलग-अलग हार्डवेयर में जीपीयू और एनपीयू ऐक्सलरेटर का इस्तेमाल करके, बेहतर परफ़ॉर्मेंस और सिस्टम को क्रैश या फ़्रीज़ होने से बचाएं.
- मल्टी-मॉडल: विज़न और ऑडियो की सुविधा वाले एलएलएम का इस्तेमाल करें.
- टूल का इस्तेमाल: एजेंटिक वर्कफ़्लो के लिए फ़ंक्शन कॉलिंग की सुविधा. साथ ही, बेहतर सटीकता के लिए डिकोडिंग को सीमित करने की सुविधा.
- कई मॉडल के साथ काम करता है: Gemma, Llama, Phi-4, Qwen वगैरह को चलाएं.
नया क्या है (v0.12.0)
- Swift API: LiteRT-LM को iOS ऐप्लिकेशन में नेटिव तौर पर इंटिग्रेट करें. इसके लिए, Metal GPU ऐक्सेलरेटेड का इस्तेमाल करें. Swift गाइड देखें.
- वेब JavaScript एपीआई: वेब जीपीयू/सीपीयू का इस्तेमाल करके, वेब ब्राउज़र में ज़्यादा परफ़ॉर्मेंस वाले मॉडल चलाएं. JavaScript गाइड देखें.
- LiteRT-LM सीएलआई / Python API से जुड़ा अपडेट: कमांड-लाइन इंटरफ़ेस और Python API अब सीपीयू और जीपीयू बैकएंड के साथ-साथ एनपीयू को भी सपोर्ट करता है. यह Linux, macOS, और Windows पर काम करता है. सीएलआई गाइड देखें.
- कम्यूनिटी की ओर से बनाए गए Flutter API: कम्यूनिटी के flutter_gemma पैकेज का इस्तेमाल करके, अलग-अलग प्लैटफ़ॉर्म पर काम करने वाले Flutter ऐप्लिकेशन बनाएं. Flutter गाइड देखें.
डिवाइस पर जेन एआई की सुविधा दिखाने वाला वीडियो
Google AI Edge Gallery, एक्सपेरिमेंट के तौर पर उपलब्ध एक ऐप्लिकेशन है. इसे डिवाइस पर जनरेटिव एआई की क्षमताओं को दिखाने के लिए डिज़ाइन किया गया है. यह LiteRT-LM का इस्तेमाल करके, पूरी तरह से ऑफ़लाइन काम करता है.
- Google Play: एलएलएम को, Android के साथ काम करने वाले डिवाइसों पर स्थानीय तौर पर इस्तेमाल करें.
- App Store: अपने iOS डिवाइस पर, डिवाइस पर मौजूद एआई की सुविधा का इस्तेमाल करें.
- GitHub सोर्स: गैलरी ऐप्लिकेशन का सोर्स कोड देखें. इससे आपको यह जानने में मदद मिलेगी कि अपने प्रोजेक्ट में LiteRT-LM को कैसे इंटिग्रेट किया जाए.
चुना गया मॉडल: Gemma-4-E2B
- मॉडल का साइज़: 2.58 जीबी
ज़्यादा तकनीकी जानकारी के लिए, HuggingFace मॉडल कार्ड देखें
प्लैटफ़ॉर्म (डिवाइस) बैकएंड पहले से भरा गया डेटा (टीके/सेकंड) डिकोड (टीके/सेकंड) टाइम टू फ़र्स्ट टोकन (सेकंड) सीपीयू की पीक मेमोरी (एमबी) Android (S26 Ultra) सीपीयू 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (iPhone 17 Pro) सीपीयू 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Arm 2.3 और 2.8 GHz, NVIDIA GeForce RTX 4090) सीपीयू 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) सीपीयू 901 42 1.1 736 GPU 7835 160 0.1 1623 Windows (Intel LunarLake) सीपीयू 435 30 2.4 3505 GPU 3751 48 0.3 3540 IoT (Raspberry Pi 5 16GB) सीपीयू 133 8 7.8 1546
बनाना शुरू करें
LiteRT-LM, कई प्रोग्रामिंग भाषाओं और प्लैटफ़ॉर्म के लिए एपीआई उपलब्ध कराता है. इससे आपको डिवाइस पर काम करने वाले एआई ऐप्लिकेशन तेज़ी से बनाने में मदद मिलती है. शुरू करने के लिए, यहां दी गई कोई गाइड चुनें:
| भाषा | स्थिति | इनके लिए सबसे सही... | दस्तावेज़ |
|---|---|---|---|
| CLI | ✅ स्टेबल |
LiteRT-LM को एक मिनट से भी कम समय में इस्तेमाल करना शुरू करें. | सीएलआई गाइड |
| Python | ✅ स्टेबल |
डेस्कटॉप और Raspberry Pi पर, तेज़ी से प्रोटोटाइपिंग और डेवलपमेंट किया जा सकता है. | Python Guide |
| Kotlin | ✅ स्टेबल |
नेटिव Android ऐप्लिकेशन और जेवीएम पर आधारित डेस्कटॉप टूल. कोरूटीन के लिए ऑप्टिमाइज़ किया गया है. | Kotlin Guide |
| Swift | 🚀 सार्वजनिक तौर पर उपलब्ध होने से पहले वाला वर्शन |
iOS और macOS के साथ नेटिव इंटिग्रेशन. साथ ही, Metal के लिए खास तौर पर तैयार की गई सुविधा. | Swift Guide |
| JavaScript (वेब) | 🚀 सार्वजनिक तौर पर उपलब्ध होने से पहले वाला वर्शन |
वेब ब्राउज़र में सीधे तौर पर मॉडल डिप्लॉय करें. इससे आपको बेहतर परफ़ॉर्मेंस मिलेगी. | JavaScript गाइड |
| Flutter | 🚀 कम्यूनिटी |
कम्यूनिटी flutter_gemma का इस्तेमाल करके, क्रॉस-प्लैटफ़ॉर्म Flutter ऐप्लिकेशन. |
Flutter Guide |
| C++ | ✅ स्टेबल |
बेहतरीन परफ़ॉर्मेंस, क्रॉस-प्लेटफ़ॉर्म, कोर लॉजिक, और एम्बेड किए गए सिस्टम. | C++ गाइड |
सोर्स से बनाना
अगर आपको LiteRT-LM को पसंद के मुताबिक बनाना है या इसे किसी खास हार्डवेयर कॉन्फ़िगरेशन के लिए बनाना है, तो इसे सीधे तौर पर सोर्स कोड से कंपाइल किया जा सकता है. अपने एनवायरमेंट को सेट अप करने और फ़्रेमवर्क बनाने के बारे में सिलसिलेवार निर्देशों के लिए, GitHub पर LiteRT-LM Build and Run Guide देखें.
इस्तेमाल किए जा सकने वाले बैकएंड और प्लैटफ़ॉर्म
| त्वरण (एक्सेलेरेशन) | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| सीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| जीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | 🚀 | - | - |
काम करने वाले मॉडल
यहां दी गई टेबल में, LiteRT-LM के साथ काम करने वाले मॉडल की सूची दी गई है. परफ़ॉर्मेंस के बारे में ज़्यादा जानकारी और मॉडल कार्ड के लिए, Hugging Face पर LiteRT कम्यूनिटी पर जाएं.
| मॉडल | टाइप | साइज़ (एमबी) | विवरण | डिवाइस | सीपीयू प्रीफ़िल (tk/s) | सीपीयू डिकोड (tk/s) | जीपीयू के ज़रिए टोकन जनरेट करने की स्पीड (टोकन/सेकंड) | जीपीयू डिकोड (टोकन/सेकंड) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | Chat | 2583 | मॉडल कार्ड | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | Chat | 3654 | मॉडल कार्ड | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2560 | 101 | ||||
| Gemma-3n-E2B | Chat | 2965 | मॉडल कार्ड | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Chat | 4235 | मॉडल कार्ड | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | Chat | 1005 | मॉडल कार्ड | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | बेस | 289 | मॉडल कार्ड | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Chat | 3906 | मॉडल कार्ड | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Chat | 1598 | मॉडल कार्ड | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Chat | 586 | मॉडल कार्ड | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Chat | 521 | मॉडल कार्ड | Samsung S24 Ultra | 251 | 30 | - | - |
समस्याओं की शिकायत करना
अगर आपको कोई गड़बड़ी मिलती है या आपको किसी सुविधा का अनुरोध करना है, तो LiteRT-LM GitHub Issues पर इसकी शिकायत करें.