LiteRT-LM, प्रोडक्शन के लिए तैयार, ओपन-सोर्स इन्फ़रेंस फ़्रेमवर्क है. इसे एज डिवाइसों पर, क्रॉस-प्लैटफ़ॉर्म एलएलएम डिप्लॉयमेंट की हाई-परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है.
- क्रॉस-प्लैटफ़ॉर्म पर काम करता है: Android, iOS, वेब, डेस्कटॉप, और IoT (जैसे, Raspberry Pi) पर काम करता है.
- हार्डवेयर ऐक्सलरेशन: अलग-अलग हार्डवेयर में जीपीयू और एनपीयू ऐक्सलरेटर का इस्तेमाल करके, बेहतर परफ़ॉर्मेंस और सिस्टम को क्रैश या फ़्रीज़ होने से बचाएं.
- मल्टी-मॉडल: विज़न और ऑडियो की सुविधा वाले एलएलएम का इस्तेमाल करें.
- टूल का इस्तेमाल: एजेंटिक वर्कफ़्लो के लिए फ़ंक्शन कॉलिंग की सुविधा. साथ ही, बेहतर सटीकता के लिए डिकोडिंग को सीमित करने की सुविधा.
- कई मॉडल के साथ काम करता है: Gemma, Llama, Phi-4, Qwen वगैरह को चलाएं.
डिवाइस पर काम करने वाले जेन एआई की सुविधाओं का डेमो
Google AI Edge Gallery, एक्सपेरिमेंट के तौर पर बनाया गया एक ऐप्लिकेशन है. इसे डिवाइस पर जनरेटिव एआई की क्षमताओं को दिखाने के लिए डिज़ाइन किया गया है. यह ऐप्लिकेशन, LiteRT-LM का इस्तेमाल करके पूरी तरह से ऑफ़लाइन काम करता है.
- Google Play: LLM को, Android के साथ काम करने वाले डिवाइसों पर स्थानीय तौर पर इस्तेमाल करें.
- App Store: अपने iOS डिवाइस पर, डिवाइस पर मौजूद एआई का इस्तेमाल करें.
- GitHub सोर्स: गैलरी ऐप्लिकेशन का सोर्स कोड देखें. इससे आपको यह जानने में मदद मिलेगी कि अपने प्रोजेक्ट में LiteRT-LM को कैसे इंटिग्रेट किया जाए.
चुना गया मॉडल: Gemma-4-E2B
- मॉडल का साइज़: 2.58 जीबी
ज़्यादा तकनीकी जानकारी के लिए, HuggingFace मॉडल कार्ड देखें
प्लैटफ़ॉर्म (डिवाइस) बैकएंड पहले से भरा गया डेटा (किलोबाइट/सेकंड) डिकोड (टीके/सेकंड) टाइम टू फ़र्स्ट टोकन (सेकंड) सीपीयू की पीक मेमोरी (एमबी) Android (S26 Ultra) सीपीयू 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (iPhone 17 Pro) सीपीयू 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Arm 2.3 और 2.8 GHz, NVIDIA GeForce RTX 4090) सीपीयू 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) सीपीयू 901 42 1.1 736 GPU 7835 160 0.1 1623 IoT (Raspberry Pi 5 16GB) सीपीयू 133 8 7.8 1546
बनाना शुरू करें
यहां दिए गए स्निपेट से पता चलता है कि LiteRT-LM CLI के साथ-साथ Python, Kotlin, और C++ API का इस्तेमाल कैसे शुरू किया जा सकता है.
सीएलआई
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| भाषा | स्थिति | इनके लिए सबसे सही... | दस्तावेज़ |
|---|---|---|---|
| CLI | 🚀 सार्वजनिक तौर पर उपलब्ध होने से पहले वाला वर्शन |
LiteRT-LM को एक मिनट से भी कम समय में इस्तेमाल करना शुरू करें. | सीएलआई गाइड |
| Python | ✅ स्टेबल |
डेस्कटॉप और Raspberry Pi पर रैपिड प्रोटोटाइपिंग और डेवलपमेंट. | Python गाइड |
| Kotlin | ✅ स्टेबल |
नेटिव Android ऐप्लिकेशन और जेवीएम पर आधारित डेस्कटॉप टूल. इसे को-रूटीन के लिए ऑप्टिमाइज़ किया गया है. | Android (Kotlin) गाइड |
| C++ | ✅ स्टेबल |
बेहतरीन परफ़ॉर्मेंस देने वाला, क्रॉस-प्लैटफ़ॉर्म कोर लॉजिक और एम्बेड किए गए सिस्टम. | C++ गाइड |
| Swift | 🚀 डेवलपमेंट वर्शन में |
iOS और macOS के साथ नेटिव इंटिग्रेशन. साथ ही, Metal के लिए खास तौर पर तैयार की गई सहायता. | जल्द आ रहा है |
इस्तेमाल किए जा सकने वाले बैकएंड और प्लैटफ़ॉर्म
| त्वरण (एक्सेलेरेशन) | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| सीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| जीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
काम करने वाले मॉडल
इस टेबल में, LiteRT-LM के साथ काम करने वाले मॉडल की सूची दी गई है. परफ़ॉर्मेंस के बारे में ज़्यादा जानकारी और मॉडल कार्ड के लिए, Hugging Face पर LiteRT कम्यूनिटी पर जाएं.
| मॉडल | टाइप | साइज़ (एमबी) | विवरण | डिवाइस | सीपीयू प्रीफ़िल (tk/s) | सीपीयू डिकोड (tk/s) | जीपीयू के ज़रिए टोकन जनरेट करने की स्पीड (टोकन/सेकंड) | जीपीयू डिकोड (टोकन/सेकंड) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | Chat | 2583 | मॉडल कार्ड | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | Chat | 3654 | मॉडल कार्ड | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2560 | 101 | ||||
| Gemma-3n-E2B | Chat | 2965 | मॉडल कार्ड | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Chat | 4235 | मॉडल कार्ड | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | Chat | 1005 | मॉडल कार्ड | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | बेस | 289 | मॉडल कार्ड | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Chat | 3906 | मॉडल कार्ड | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Chat | 1598 | मॉडल कार्ड | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Chat | 586 | मॉडल कार्ड | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Chat | 521 | मॉडल कार्ड | Samsung S24 Ultra | 251 | 30 | - | - |
समस्याओं की रिपोर्ट करना
अगर आपको कोई गड़बड़ी मिलती है या आपको किसी सुविधा का अनुरोध करना है, तो LiteRT-LM GitHub Issues पर इसकी शिकायत करें.