Gemma 4 मॉडल को हर साइज़ में, बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. इसका मकसद, मोबाइल और एज डिवाइस (E2B, E4B) से लेकर, कंज्यूमर जीपीयू और वर्कस्टेशन (26B A4B, 31B) तक के परिनियोजन के अलग-अलग परिदृश्यों को टारगेट करना है. ये मॉडल, तार्किक विश्लेषण, एजेंटिक वर्कफ़्लो, कोडिंग, और मल्टीमॉडल समझ के लिए बेहतर हैं.
Gemma 4 को Apache-2.0 लाइसेंस के तहत लाइसेंस मिला है. ज़्यादा जानकारी के लिए, Gemma 4 मॉडल कार्ड देखें.
शुरू करें
Hugging Face LiteRT कम्यूनिटी पर होस्ट किए गए Gemma4-E2B से चैट करें.
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
Safetensors से परिनियोजित करना
अपने पसंद के मुताबिक बनाए गए safetensors से Gemma 4 को परिनियोजित करने के लिए, यह तरीका अपनाएं. उदाहरण के लिए, अपने इस्तेमाल के हिसाब से मॉडल को फ़ाइन-ट्यून करने के बाद:
इसे
.litertlmफ़ॉर्मैट में बदलें:uv tool install litert-torch-nightly litert-torch export_hf \ --model=google/gemma-4-E2B-it \ --output_dir=/tmp/gemma4_2b \ --externalize_embedder \ --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lmLiteRT-LM क्रॉस-प्लैटफ़ॉर्म एपीआई का इस्तेमाल करके परिनियोजित करें:
litert-lm run \ /tmp/gemma4_2b/model.litertlm \ --prompt="What is the capital of France?"
परफ़ॉर्मेंस की खास जानकारी
Gemma-4-E2B
- मॉडल का साइज़: 2.58 जीबी
ज़्यादा तकनीकी जानकारी, HuggingFace मॉडल कार्ड में मौजूद है
प्लैटफ़ॉर्म (डिवाइस) बैकएंड पहले से भरने की सुविधा (टोकन/सेकंड) डिकोड करने की सुविधा (टोकन/सेकंड) पहला टोकन मिलने में लगने वाला समय (सेकंड) सीपीयू की पीक मेमोरी (एमबी) Android (S26 Ultra) सीपीयू 557 47 1.8 1733 जीपीयू 3808 52 0.3 676 iOS (iPhone 17 Pro) सीपीयू 532 25 1.9 607 जीपीयू 2878 56 0.3 1450 Linux (Arm 2.3 और 2.8 GHz, NVIDIA GeForce RTX 4090) सीपीयू 260 35 4 1628 जीपीयू 11234 143 0.1 913 macOS (MacBook Pro M4) सीपीयू 901 42 1.1 736 जीपीयू 7835 160 0.1 1623 IoT (Raspberry Pi 5 16GB) सीपीयू 133 8 7.8 1546
Gemma-4-E4B
- मॉडल का साइज़: 3.65 जीबी
ज़्यादा तकनीकी जानकारी, HuggingFace मॉडल कार्ड में मौजूद है
प्लैटफ़ॉर्म (डिवाइस) बैकएंड पहले से भरने की सुविधा (टोकन/सेकंड) डिकोड करने की सुविधा (टोकन/सेकंड) पहला टोकन मिलने में लगने वाला समय (सेकंड) सीपीयू की पीक मेमोरी (एमबी) Android (S26 Ultra) सीपीयू 195 18 5.3 3283 जीपीयू 1293 22 0.8 710 iOS (iPhone 17 Pro) सीपीयू 159 10 6.5 961 जीपीयू 1189 25 0.9 3380 Linux (Arm 2.3 और 2.8GHz / RTX 4090) सीपीयू 82 18 12.6 3139 जीपीयू 7260 91 0.2 1119 macOS (MacBook Pro M4 Max) सीपीयू 277 27 3.7 890 जीपीयू 2560 101 0.4 3217 IoT (Raspberry Pi 5 16GB) सीपीयू 51 3 20.5 3069