LiteRT-LM, प्रोडक्शन के लिए तैयार, ओपन-सोर्स इन्फ़रेंस फ़्रेमवर्क है. इसे एज डिवाइसों पर, क्रॉस-प्लैटफ़ॉर्म एलएलएम डिप्लॉयमेंट की हाई-परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है.
- क्रॉस-प्लैटफ़ॉर्म पर काम करता है: Android, iOS, वेब, डेस्कटॉप, और IoT (जैसे, Raspberry Pi) पर काम करता है.
- हार्डवेयर ऐक्सलरेशन: अलग-अलग हार्डवेयर में जीपीयू और एनपीयू ऐक्सलरेटर का इस्तेमाल करके, बेहतर परफ़ॉर्मेंस और सिस्टम को क्रैश या फ़्रीज़ होने से बचाएं.
- मल्टी-मॉडल: विज़न और ऑडियो की सुविधा वाले एलएलएम का इस्तेमाल करें.
- टूल का इस्तेमाल: एजेंटिक वर्कफ़्लो के लिए फ़ंक्शन कॉलिंग की सुविधा. साथ ही, बेहतर सटीकता के लिए डिकोडिंग को सीमित करने की सुविधा.
- कई मॉडल के साथ काम करता है: Gemma, Llama, Phi-4, Qwen वगैरह को चलाएं.
डिवाइस पर काम करने वाले जेन एआई की सुविधाओं का डेमो
Google AI Edge Gallery, एक्सपेरिमेंट के तौर पर बनाया गया एक ऐप्लिकेशन है. इसे डिवाइस पर जनरेटिव एआई की क्षमताओं को दिखाने के लिए डिज़ाइन किया गया है. यह ऐप्लिकेशन, LiteRT-LM का इस्तेमाल करके पूरी तरह से ऑफ़लाइन काम करता है.
- Google Play: LLM को, Android के साथ काम करने वाले डिवाइसों पर स्थानीय तौर पर इस्तेमाल करें.
- App Store: अपने iOS डिवाइस पर, डिवाइस पर मौजूद एआई का इस्तेमाल करें.
- GitHub सोर्स: गैलरी ऐप्लिकेशन का सोर्स कोड देखें. इससे आपको यह जानने में मदद मिलेगी कि अपने प्रोजेक्ट में LiteRT-LM को कैसे इंटिग्रेट किया जाए.
चुना गया मॉडल: Gemma-3n-E2B
| डिवाइस प्रोफ़ाइल | मोड | पहले से भरा गया डेटा (किलोबाइट/सेकंड) | डिकोड (टीके/सेकंड) |
|---|---|---|---|
| MacBook Pro 2023 M3 | सीपीयू | 233 | 28 |
| MacBook Pro 2024 M4 | GPU | 2265 | 48 |
| Samsung S24 (Ultra) | सीपीयू | 111 | 16 |
| GPU | 816 | 16 |
बनाना शुरू करें
यहां दिए गए स्निपेट से पता चलता है कि LiteRT-LM CLI के साथ-साथ Python, Kotlin, और C++ API का इस्तेमाल कैसे शुरू किया जा सकता है.
सीएलआई
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| भाषा | स्थिति | इनके लिए सबसे सही... | दस्तावेज़ |
|---|---|---|---|
| CLI | 🚀 सार्वजनिक तौर पर उपलब्ध होने से पहले वाला वर्शन |
LiteRT-LM को एक मिनट से भी कम समय में इस्तेमाल करना शुरू करें. | सीएलआई गाइड |
| Python | ✅ स्टेबल |
डेस्कटॉप और Raspberry Pi पर रैपिड प्रोटोटाइपिंग और डेवलपमेंट. | Python गाइड |
| Kotlin | ✅ स्टेबल |
नेटिव Android ऐप्लिकेशन और जेवीएम पर आधारित डेस्कटॉप टूल. इसे को-रूटीन के लिए ऑप्टिमाइज़ किया गया है. | Kotlin गाइड |
| C++ | ✅ स्टेबल |
बेहतरीन परफ़ॉर्मेंस देने वाला, क्रॉस-प्लैटफ़ॉर्म कोर लॉजिक और एम्बेड किए गए सिस्टम. | C++ गाइड |
| Swift | 🚀 डेवलपमेंट वर्शन में |
iOS और macOS के साथ नेटिव इंटिग्रेशन. साथ ही, Metal के लिए खास तौर पर तैयार की गई सहायता. | जल्द आ रहा है |
इस्तेमाल किए जा सकने वाले बैकएंड और प्लैटफ़ॉर्म
| त्वरण (एक्सेलेरेशन) | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| सीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| जीपीयू | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
काम करने वाले मॉडल
इस टेबल में, LiteRT-LM के साथ काम करने वाले मॉडल की सूची दी गई है. परफ़ॉर्मेंस के बारे में ज़्यादा जानकारी और मॉडल कार्ड के लिए, Hugging Face पर LiteRT कम्यूनिटी पर जाएं.
| मॉडल | टाइप | साइज़ (एमबी) | डाउनलोड करने का लिंक | डिवाइस | सीपीयू प्रीफ़िल (tk/s) | सीपीयू डिकोड (tk/s) | जीपीयू के ज़रिए टोकन जनरेट करने की स्पीड (टोकन/सेकंड) | जीपीयू डिकोड (टोकन/सेकंड) |
|---|---|---|---|---|---|---|---|---|
| Gemma3-1B | Chat | 1005 | मॉडल कार्ड | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| Gemma-3n-E2B | Chat | 2965 | मॉडल कार्ड | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Chat | 4235 | मॉडल कार्ड | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| FunctionGemma | बेस | 289 | मॉडल कार्ड | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Chat | 3906 | मॉडल कार्ड | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Chat | 1598 | मॉडल कार्ड | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Chat | 586 | मॉडल कार्ड | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Chat | 521 | मॉडल कार्ड | Samsung S24 Ultra | 251 | 30 | - | - |
समस्याओं की रिपोर्ट करना
अगर आपको कोई गड़बड़ी मिलती है या आपको किसी सुविधा का अनुरोध करना है, तो LiteRT-LM GitHub Issues पर इसकी शिकायत करें.