कमांड लाइन इंटरफ़ेस (सीएलआई) की मदद से, मॉडल को तुरंत टेस्ट किया जा सकता है. इसके लिए, कोड की ज़रूरत नहीं होती.
इस्तेमाल किए जा सकने वाले प्लैटफ़ॉर्म:
- Linux
- macOS
- Windows
- Raspberry Pi
इंस्टॉलेशन
पहला तरीका: uvx (क्विक टेस्टिंग के लिए सुझाव दिया गया है)
litert-lm को परमानेंट तौर पर इंस्टॉल किए बिना तुरंत चलाएं. इसके लिए,
uv की ज़रूरत होती है.
किसी भी litert-lm कमांड को ऑन-डिमांड चलाने के लिए, उसके पहले
uvx जोड़ा जा सकता है:
uvx litert-lm run --help
दूसरा तरीका: uv (परमानेंट इंस्टॉल)
litert-lm को सिस्टम-वाइड बाइनरी के तौर पर इंस्टॉल करता है. इसके लिए, uv की ज़रूरत होती है.
uv tool install litert-lm
तीसरा तरीका: pip
वर्चुअल एनवायरमेंट में स्टैंडर्ड इंस्टॉलेशन. --upgrade का इस्तेमाल करने पर, आपको सबसे नया वर्शन मिलता है. भले ही, पहले से कोई वर्शन इंस्टॉल हो.
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm
अपग्रेड किया जा रहा है
litert-lm को नए वर्शन में अपग्रेड करने के लिए:
uvx का इस्तेमाल करने पर (पहला तरीका)
कोई कार्रवाई ज़रूरी नहीं है. uvx अपने-आप नए वर्शन पर चलता है.
uv की मदद से इंस्टॉल करने पर (दूसरा तरीका)
uv tool upgrade litert-lm
pip की मदद से इंस्टॉल करने पर (तीसरा तरीका)
अपना वर्चुअल एनवायरमेंट चालू करें और यह कमांड चलाएं:
pip install --upgrade litert-lm
Chat
HuggingFace से डाउनलोड करें और मॉडल चलाएं:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
🔴 नया: मल्टी-टोकन प्रेडिक्शन (एमटीपी)
मल्टी-टोकन प्रेडिक्शन (एमटीपी) एक परफ़ॉर्मेंस ऑप्टिमाइज़ेशन है. इससे, डिकोड की स्पीड काफ़ी बढ़ जाती है. जीपीयू बैकएंड पर सभी टास्क के लिए, एमटीपी का इस्तेमाल करने का सुझाव दिया जाता है.
सीएलआई में एमटीपी की सुविधा चालू करने के लिए, --enable-speculative-decoding=true फ़्लैग का इस्तेमाल करें:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--backend=gpu \
--enable-speculative-decoding=true \
--prompt="What is the capital of France?"
फ़ंक्शन कॉल करना / टूल
प्रीसेट के साथ टूल चलाए जा सकते हैं. preset.py बनाएं:
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
प्रीसेट के साथ चलाएं:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--preset=preset.py
प्रॉम्प्ट के उदाहरण और इंटरैक्टिव आउटपुट:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
यहां क्या हो रहा है?
जब कोई ऐसा सवाल पूछा जाता है जिसके लिए बाहरी जानकारी की ज़रूरत होती है (जैसे, मौजूदा समय), तो मॉडल को पता चलता है कि उसे किसी टूल को कॉल करना है.
- मॉडल
tool_callएमिट करता है: मॉडल,get_current_timeफ़ंक्शन को कॉल करने के लिए, JSON अनुरोध आउटपुट करता है. - सीएलआई, टूल को एक्ज़ीक्यूट करता है: LiteRT-LM सीएलआई, इस कॉल को इंटरसेप्ट करता है और आपके
preset.pyमें तय किए गए, इससे जुड़े Python फ़ंक्शन को एक्ज़ीक्यूट करता है. - सीएलआई,
tool_responseभेजता है: सीएलआई, नतीजे को वापस मॉडल को भेजता है. - मॉडल, फ़ाइनल जवाब जनरेट करता है: मॉडल, टूल के जवाब का इस्तेमाल करके, उपयोगकर्ता के लिए फ़ाइनल जवाब जनरेट करता है.
यह "फ़ंक्शन कॉल करना" लूप, सीएलआई में अपने-आप होता है. इससे, लोकल एलएलएम को Python की क्षमताओं के साथ बढ़ाया जा सकता है. इसके लिए, ऑर्केस्ट्रेशन का कोई जटिल कोड लिखने की ज़रूरत नहीं होती.
Python, C++, और Kotlin एपीआई से भी यही सुविधाएं उपलब्ध हैं.
अनइंस्टॉल किया जा रहा है
litert-lm को अनइंस्टॉल करने के लिए:
uvx का इस्तेमाल करने पर (पहला तरीका)
कोई कार्रवाई ज़रूरी नहीं है. uvx , अस्थायी कैश से चलता है और परमानेंट तौर पर इंस्टॉल नहीं होता.
uv की मदद से इंस्टॉल करने पर (दूसरा तरीका)
uv tool uninstall litert-lm
pip की मदद से इंस्टॉल करने पर (तीसरा तरीका)
pip uninstall litert-lm