Gemma, जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल का एक परिवार है. इसका इस्तेमाल कई तरह के जनरेशन टास्क के लिए किया जा सकता है. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क करना. Gemma मॉडल, ओपन वेट के साथ उपलब्ध कराए जाते हैं. साथ ही, कारोबारी इस्तेमाल के लिए ज़िम्मेदारी के साथ इनका इस्तेमाल किया जा सकता है. इससे आपको अपने प्रोजेक्ट और ऐप्लिकेशन में इन्हें ट्यून और डिप्लॉय करने की अनुमति मिलती है.
Gemma 4 मॉडल फ़ैमिली में चार अलग-अलग आर्किटेक्चर शामिल हैं. इन्हें हार्डवेयर की खास ज़रूरतों के हिसाब से बनाया गया है:
- छोटे साइज़: 2B और 4B पैरामीटर वाले मॉडल, जिन्हें अल्ट्रा-मोबाइल, एज, और ब्राउज़र पर डिप्लॉय करने के लिए बनाया गया है. जैसे, Pixel, Chrome.
- डेंस: यह 3100 करोड़ पैरामीटर वाला एक बेहतरीन डेंस मॉडल है. यह सर्वर-ग्रेड परफ़ॉर्मेंस और लोकल एक्ज़ीक्यूशन के बीच के अंतर को कम करता है.
- Mixture-of-Experts: यह 26B MoE मॉडल, ज़्यादा थ्रूपुट और ऐडवांस रीज़निंग के लिए डिज़ाइन किया गया है. इसे बहुत कारगर माना जाता है.
- यूनिफ़ाइड: यह मल्टीमॉडल टास्क के लिए, 12B पैरामीटर वाला एनकोडर फ़्री मॉडल है. इसमें विज़न और ऑडियो एनकोडर को इनपुट के डायरेक्ट लीनियर प्रोजेक्शन से बदल दिया गया है.
Gemma 4 मॉडल को Kaggle और Hugging Face से डाउनलोड किया जा सकता है. Gemma 4 के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड देखें. Gemma के कोर मॉडल के पुराने वर्शन भी डाउनलोड किए जा सकते हैं. ज़्यादा जानकारी के लिए, Gemma के पिछले मॉडल देखें.
इसे Kaggle पर पाएं इसे Hugging Face पर पाएं
क्षमताएं
- वजह: इस फ़ैमिली के सभी मॉडल को, तर्क देने में बहुत ज़्यादा सक्षम बनाया गया है. साथ ही, इनमें सोचने के तरीके कॉन्फ़िगर किए जा सकते हैं.
- टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई क्वेरी को बेहतर तरीके से समझना: यह मॉडल टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल में नेटिव तौर पर इस्तेमाल किया जा सकता है.
- बढ़ी हुई कॉन्टेक्स्ट विंडो: छोटे मॉडल में 1.28 लाख टोकन की कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन की कॉन्टेक्स्ट विंडो होती है.
- बेहतर कोडिंग और एजेंटिक क्षमताएं: इसमें कोडिंग बेंचमार्क में काफ़ी सुधार किया गया है. साथ ही, इसमें फ़ंक्शन-कॉलिंग की सुविधा पहले से मौजूद है. इससे, ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट बनाए जा सकते हैं.
- सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट: Gemma 4 में, सिस्टम रोल के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
- एक से ज़्यादा टोकन का अनुमान लगाना: Gemma 4 के सभी मॉडल (E2B, E4B, 12B, 31B, और 26B A4B) में, अनुमानित डिकोडिंग के लिए एक खास ड्राफ़्ट मॉडल शामिल होता है. इससे क्वालिटी में कोई कमी नहीं आती और अनुमान लगाने की प्रोसेस काफ़ी तेज़ हो जाती है.
पैरामीटर के साइज़ और क्वांटाइज़ेशन
Gemma 4 मॉडल, पैरामीटर के पांच साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 31B, और 26B A4B. इन मॉडल को डिफ़ॉल्ट प्रेसिज़न (16-बिट) के साथ इस्तेमाल किया जा सकता है. इसके अलावा, क्वांटाइज़ेशन का इस्तेमाल करके कम प्रेसिज़न के साथ भी इस्तेमाल किया जा सकता है. अलग-अलग साइज़ और प्रेसिज़न, आपके एआई ऐप्लिकेशन के लिए ट्रेड-ऑफ़ का एक सेट दिखाते हैं. ज़्यादा पैरामीटर और बिट काउंट (ज़्यादा प्रेसिज़न) वाले मॉडल आम तौर पर ज़्यादा बेहतर होते हैं. हालांकि, प्रोसेसिंग साइकल, मेमोरी की लागत, और बिजली की खपत के मामले में इन्हें चलाना ज़्यादा महंगा होता है. कम पैरामीटर और बिट काउंट (कम प्रेसिज़न) वाले मॉडल में कम क्षमताएं होती हैं. हालांकि, ये आपके एआई टास्क के लिए काफ़ी हो सकते हैं.
Gemma 4 के लिए अनुमान लगाने की मेमोरी से जुड़ी ज़रूरी शर्तें
यहां दी गई टेबल में, Gemma 4 मॉडल के हर साइज़ के वर्शन के साथ अनुमान लगाने की प्रोसेस को चलाने के लिए, GPU या TPU की मेमोरी की ज़रूरी शर्तों के बारे में जानकारी दी गई है.
| पैरामीटर | BF16 (16-बिट) | SFP8 (8-बिट) | Q4_0 (4-बिट) | मोबाइल | मोबाइल (सिर्फ़ टेक्स्ट) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 जीबी | 5.7 जीबी | 2.9 जीबी | 1.1 BG | 0.84 जीबी |
| Gemma 4 E4B | 17.9 जीबी | 8.9 जीबी | 4.5 जीबी | 2.5 जीबी | 2.2 जीबी |
| Gemma 4 12B | 26.7 जीबी | 13.4 जीबी | 6.7 जीबी | - | - |
| Gemma 4 26B A4B | 57.7 जीबी | 28.8 जीबी | 14.4 जीबी | - | - |
| Gemma 4 31B | 69.9 जीबी | 34.9 जीबी | 17.5 जीबी | - | - |
पहली टेबल. पैरामीटर की संख्या, क्वॉन्टाइज़ेशन लेवल, और अन्य चीज़ें लोड करने के 20% ओवरहेड के आधार पर, Gemma 4 मॉडल लोड करने के लिए ज़रूरी GPU या TPU मेमोरी का अनुमान. मोबाइल वर्शन में LiteRT-LM का इस्तेमाल किया जाता है.
मेमोरी प्लान करने के लिए ध्यान रखने वाली मुख्य बातें
- बेहतर आर्किटेक्चर (E2B और E4B): "E" का मतलब "इफ़ेक्टिव" पैरामीटर है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है, ताकि उपयोगकर्ता के डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की परफ़ॉर्मेंस को बेहतर बनाया जा सके. मॉडल में ज़्यादा लेयर जोड़ने के बजाय, पीएलई हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, स्टैटिक वेट लोड करने के लिए ज़रूरी कुल मेमोरी, इफ़ेक्टिव पैरामीटर की संख्या से ज़्यादा होती है.
- MoE आर्किटेक्चर (26B A4B): 26B, Mixture of Experts मॉडल है. हालांकि, जनरेशन के दौरान यह हर टोकन के लिए सिर्फ़ चार अरब पैरामीटर चालू करता है, लेकिन तेज़ राउटिंग और अनुमान लगाने की स्पीड बनाए रखने के लिए, सभी 26 अरब पैरामीटर को मेमोरी में लोड करना ज़रूरी है. इसलिए, इसकी बेसलाइन मेमोरी की ज़रूरत, 400 करोड़ पैरामीटर वाले मॉडल की तुलना में 2600 करोड़ पैरामीटर वाले मॉडल के ज़्यादा करीब है.
- सिर्फ़ बेस वेट: ऊपर दी गई टेबल में दिए गए अनुमानों में, स्टैटिक मॉडल वेट को लोड करने के लिए ज़रूरी मेमोरी को सिर्फ़ शामिल किया गया है. इनमें, सॉफ़्टवेयर या कॉन्टेक्स्ट विंडो को सपोर्ट करने के लिए ज़रूरी अतिरिक्त वीआरएएम शामिल नहीं है.
- कॉन्टेक्स्ट विंडो (केवी कैश): मेमोरी की खपत, आपके प्रॉम्प्ट में मौजूद टोकन की कुल संख्या और जनरेट किए गए जवाब के आधार पर, डाइनैमिक तरीके से बढ़ेगी. बड़ी कॉन्टेक्स्ट विंडो के लिए, बेस मॉडल के वज़न के साथ-साथ काफ़ी ज़्यादा वीआरएएम की ज़रूरत होती है.
- फ़ाइन-ट्यूनिंग का ओवरहेड: Gemma मॉडल को फ़ाइन-ट्यून करने के लिए, स्टैंडर्ड इन्फ़्रेंस की तुलना में बहुत ज़्यादा मेमोरी की ज़रूरत होती है. आपका सटीक फ़ुटप्रिंट, डेवलपमेंट फ़्रेमवर्क, बैच का साइज़, और इस बात पर निर्भर करेगा कि फ़ुल-प्रिसिज़न ट्यूनिंग का इस्तेमाल किया जा रहा है या पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) के तरीके का इस्तेमाल किया जा रहा है. जैसे, लो-रैंक अडैप्टेशन (लोरा).
क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी)
जिन डिप्लॉयमेंट के लिए, क्वालिटी से समझौता किए बिना ज़्यादा से ज़्यादा दक्षता की ज़रूरत होती है उनके लिए, Gemma क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी) मॉडल उपलब्ध कराता है.
स्टैंडर्ड पोस्ट-ट्रेनिंग क्वांटाइज़ेशन (पीटीक्यू) में, पूरी तरह से ट्रेन किए गए मॉडल को कंप्रेस किया जाता है. इससे क्वालिटी में गिरावट आ सकती है. हालांकि, क्यूएटी में क्वांटाइज़ेशन सिमुलेशन को ट्रेनिंग प्रोसेस में ही इंटिग्रेट किया जाता है. इससे मॉडल को सटीक जानकारी में होने वाले नुकसान की भरपाई करने के बारे में जानने में मदद मिलती है. इससे छोटे मॉडल तैयार होते हैं, जो ज़्यादा सटीक जानकारी देने वाले मॉडल की तरह ही काम करते हैं.
क्विक राउटिंग टेबल
| टारगेट डिप्लॉयमेंट इंजन | सफ़िक्स डाउनलोड करें | इस्तेमाल का मुख्य उदाहरण |
|---|---|---|
| llama.cpp / LM Studio (लोकल) | {model-name}-qat-q4_0-gguf |
सीपीयू, Apple सिलिकॉन या उपभोक्ता जीपीयू पर, बिना किसी सेटअप के स्थानीय तौर पर डिप्लॉयमेंट किया जा सकता है. |
| vLLM / SGLang | SERVER: {model-name}-qat-w4a16-ctMOBILE: {model-name}-qat-mobile-ct |
16-बिट ऐक्टिवेशन के साथ 4-बिट वेट का इस्तेमाल करके, ज़्यादा थ्रूपुट वाली इनफ़रेंस. |
| अनुमान के आधार पर डिकोडिंग करना | मॉडल: {model-name}-qat-q4_0-unquantizedड्राफ़्टर: {model-name}-qat-q4_0-unquantized-assistant |
टोकन जनरेट करने की प्रोसेस को तेज़ी से पूरा करने के लिए, प्राइमरी मॉडल के साथ-साथ उससे मिलता-जुलता एमटीपी ड्राफ़्ट मॉडल चलाना. मॉडल को क्वांटाइज़ किया जाना चाहिए. |
| दूसरे फ़ॉर्मैट | {model-name}-qat-q4_0-unquantized |
अन्य फ़ॉर्मैट (जैसे, MLX) में बदलने के लिए, बिना क्वॉन्टाइज़ किए गए वेट |
| मोबाइल पर डिप्लॉयमेंट (ट्रांसफ़ॉर्मर) | {model-name}-qat-mobile-transformers |
मोबाइल पर इस्तेमाल करने के उदाहरणों के लिए, एज वेट को ऑप्टिमाइज़ किया गया है. ये अन्य फ़ॉर्मैट के लिए रेफ़रंस के तौर पर काम करते हैं. |
Hugging Face पर QAT के आधिकारिक कलेक्शन
- collections/google/gemma-4-qat-q4_0
- अनक्वांटाइज़्ड QAT चेकपॉइंट (
-unquantized/-assistant): ये हाफ़-प्रेसिज़न वेट होते हैं, जिन्हें QAT पाइपलाइन से सीधे तौर पर निकाला जाता है. ये कस्टम डाउनस्ट्रीम कंपाइलेशन, रिसर्च या असिस्टेंट ड्राफ़्ट मॉडल का इस्तेमाल करके स्पेकुलेटिव डिकोडिंग चलाने के लिए सबसे सही हैं. Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है. - GGUF (
-gguf): स्थानीय एलएलएम नेटवर्क में तुरंत ड्रॉप-इन करने के लिए उपलब्ध चेकपॉइंट. यह सुविधा Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है. - कंप्रेस किए गए टेंसर (
-w4a16-ct): इन्हेंcompressed-tensorsस्टैंडर्ड में नेटिव तौर पर क्रम से लगाया जाता है, ताकि क्लाउड पर ऑप्टिमाइज़ तरीके से और एक साथ कई अनुरोधों को पूरा किया जा सके. Gemma 4 E2B, E4B, 12B, और 31B के लिए उपलब्ध है.
- अनक्वांटाइज़्ड QAT चेकपॉइंट (
- collections/google/gemma-4-qat-mobile
- मोबाइल के लिए ऑप्टिमाइज़ किया गया (
-mobile-transformers/-mobile-ct): इसे कस्टमwNa8o8स्कीमा पर बनाया गया है. इसे खास तौर पर मोबाइल हार्डवेयर की सीमाओं को ध्यान में रखकर बनाया गया है. यह टारगेट की गई 2-बिट डिकोडिंग लेयर, ऑप्टिमाइज़ की गई केवी कैश मेमोरी, और स्टैटिक ऐक्टिवेशन का इस्तेमाल करता है. इससे उपयोगकर्ता के डिवाइस पर रैम की बचत होती है और एज प्रोसेसर पर कोई असर नहीं पड़ता. यह Gemma 4 E2B और E4B के लिए उपलब्ध है.
- मोबाइल के लिए ऑप्टिमाइज़ किया गया (
Gemma 4 QAT के सभी आधिकारिक चेकपॉइंट को सीधे Kaggle से भी ऐक्सेस किया जा सकता है.
Gemma के पिछले मॉडल
Gemma मॉडल की पिछली जनरेशन के साथ काम किया जा सकता है. ये मॉडल, Kaggle और Hugging Face पर भी उपलब्ध हैं. Gemma के पिछले मॉडल के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड वाले ये पेज देखें:
- Gemma 3 मॉडल कार्ड
- Gemma 2 मॉडल कार्ड
- Gemma 1 मॉडल कार्ड
क्या आप इंटिग्रेट करने के लिए तैयार हैं? Gemma मॉडल का इस्तेमाल शुरू करें!