Gemma 4 मॉडल के बारे में खास जानकारी

Gemma, जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल का एक परिवार है. इसका इस्तेमाल कई तरह के जनरेशन टास्क के लिए किया जा सकता है. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क करना. Gemma मॉडल, ओपन वेट के साथ उपलब्ध कराए जाते हैं. साथ ही, कारोबारी इस्तेमाल के लिए ज़िम्मेदारी के साथ इनका इस्तेमाल किया जा सकता है. इससे आपको अपने प्रोजेक्ट और ऐप्लिकेशन में इन्हें ट्यून और डिप्लॉय करने की अनुमति मिलती है.

Gemma 4 मॉडल फ़ैमिली में चार अलग-अलग आर्किटेक्चर शामिल हैं. इन्हें हार्डवेयर की खास ज़रूरतों के हिसाब से बनाया गया है:

  • छोटे साइज़: 2B और 4B पैरामीटर वाले मॉडल, जिन्हें अल्ट्रा-मोबाइल, एज, और ब्राउज़र पर डिप्लॉय करने के लिए बनाया गया है. जैसे, Pixel, Chrome.
  • डेंस: यह 3100 करोड़ पैरामीटर वाला एक बेहतरीन डेंस मॉडल है. यह सर्वर-ग्रेड परफ़ॉर्मेंस और लोकल एक्ज़ीक्यूशन के बीच के अंतर को कम करता है.
  • Mixture-of-Experts: यह 26B MoE मॉडल, ज़्यादा थ्रूपुट और ऐडवांस रीज़निंग के लिए डिज़ाइन किया गया है. इसे बहुत कारगर माना जाता है.
  • यूनिफ़ाइड: यह मल्टीमॉडल टास्क के लिए, 12B पैरामीटर वाला एनकोडर फ़्री मॉडल है. इसमें विज़न और ऑडियो एनकोडर को इनपुट के डायरेक्ट लीनियर प्रोजेक्शन से बदल दिया गया है.

Gemma 4 मॉडल को Kaggle और Hugging Face से डाउनलोड किया जा सकता है. Gemma 4 के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड देखें. Gemma के कोर मॉडल के पुराने वर्शन भी डाउनलोड किए जा सकते हैं. ज़्यादा जानकारी के लिए, Gemma के पिछले मॉडल देखें.

इसे Kaggle पर पाएं इसे Hugging Face पर पाएं

क्षमताएं

  • वजह: इस फ़ैमिली के सभी मॉडल को, तर्क देने में बहुत ज़्यादा सक्षम बनाया गया है. साथ ही, इनमें सोचने के तरीके कॉन्फ़िगर किए जा सकते हैं.
  • टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई क्वेरी को बेहतर तरीके से समझना: यह मॉडल टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल में नेटिव तौर पर इस्तेमाल किया जा सकता है.
  • बढ़ी हुई कॉन्टेक्स्ट विंडो: छोटे मॉडल में 1.28 लाख टोकन की कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन की कॉन्टेक्स्ट विंडो होती है.
  • बेहतर कोडिंग और एजेंटिक क्षमताएं: इसमें कोडिंग बेंचमार्क में काफ़ी सुधार किया गया है. साथ ही, इसमें फ़ंक्शन-कॉलिंग की सुविधा पहले से मौजूद है. इससे, ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट बनाए जा सकते हैं.
  • सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट: Gemma 4 में, सिस्टम रोल के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
  • एक से ज़्यादा टोकन का अनुमान लगाना: Gemma 4 के सभी मॉडल (E2B, E4B, 12B, 31B, और 26B A4B) में, अनुमानित डिकोडिंग के लिए एक खास ड्राफ़्ट मॉडल शामिल होता है. इससे क्वालिटी में कोई कमी नहीं आती और अनुमान लगाने की प्रोसेस काफ़ी तेज़ हो जाती है.

पैरामीटर के साइज़ और क्वांटाइज़ेशन

Gemma 4 मॉडल, पैरामीटर के पांच साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 31B, और 26B A4B. इन मॉडल को डिफ़ॉल्ट प्रेसिज़न (16-बिट) के साथ इस्तेमाल किया जा सकता है. इसके अलावा, क्वांटाइज़ेशन का इस्तेमाल करके कम प्रेसिज़न के साथ भी इस्तेमाल किया जा सकता है. अलग-अलग साइज़ और प्रेसिज़न, आपके एआई ऐप्लिकेशन के लिए ट्रेड-ऑफ़ का एक सेट दिखाते हैं. ज़्यादा पैरामीटर और बिट काउंट (ज़्यादा प्रेसिज़न) वाले मॉडल आम तौर पर ज़्यादा बेहतर होते हैं. हालांकि, प्रोसेसिंग साइकल, मेमोरी की लागत, और बिजली की खपत के मामले में इन्हें चलाना ज़्यादा महंगा होता है. कम पैरामीटर और बिट काउंट (कम प्रेसिज़न) वाले मॉडल में कम क्षमताएं होती हैं. हालांकि, ये आपके एआई टास्क के लिए काफ़ी हो सकते हैं.

Gemma 4 के लिए अनुमान लगाने की मेमोरी से जुड़ी ज़रूरी शर्तें

यहां दी गई टेबल में, Gemma 4 मॉडल के हर साइज़ के वर्शन के साथ अनुमान लगाने की प्रोसेस को चलाने के लिए, GPU या TPU की मेमोरी की ज़रूरी शर्तों के बारे में जानकारी दी गई है.

पैरामीटर BF16 (16-बिट) SFP8 (8-बिट) Q4_0 (4-बिट) मोबाइल मोबाइल (सिर्फ़ टेक्स्ट)
Gemma 4 E2B 11.4 जीबी 5.7 जीबी 2.9 जीबी 1.1 BG 0.84 जीबी
Gemma 4 E4B 17.9 जीबी 8.9 जीबी 4.5 जीबी 2.5 जीबी 2.2 जीबी
Gemma 4 12B 26.7 जीबी 13.4 जीबी 6.7 जीबी - -
Gemma 4 26B A4B 57.7 जीबी 28.8 जीबी 14.4 जीबी - -
Gemma 4 31B 69.9 जीबी 34.9 जीबी 17.5 जीबी - -

पहली टेबल. पैरामीटर की संख्या, क्वॉन्टाइज़ेशन लेवल, और अन्य चीज़ें लोड करने के 20% ओवरहेड के आधार पर, Gemma 4 मॉडल लोड करने के लिए ज़रूरी GPU या TPU मेमोरी का अनुमान. मोबाइल वर्शन में LiteRT-LM का इस्तेमाल किया जाता है.

मेमोरी प्लान करने के लिए ध्यान रखने वाली मुख्य बातें

  • बेहतर आर्किटेक्चर (E2B और E4B): "E" का मतलब "इफ़ेक्टिव" पैरामीटर है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है, ताकि उपयोगकर्ता के डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की परफ़ॉर्मेंस को बेहतर बनाया जा सके. मॉडल में ज़्यादा लेयर जोड़ने के बजाय, पीएलई हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, स्टैटिक वेट लोड करने के लिए ज़रूरी कुल मेमोरी, इफ़ेक्टिव पैरामीटर की संख्या से ज़्यादा होती है.
  • MoE आर्किटेक्चर (26B A4B): 26B, Mixture of Experts मॉडल है. हालांकि, जनरेशन के दौरान यह हर टोकन के लिए सिर्फ़ चार अरब पैरामीटर चालू करता है, लेकिन तेज़ राउटिंग और अनुमान लगाने की स्पीड बनाए रखने के लिए, सभी 26 अरब पैरामीटर को मेमोरी में लोड करना ज़रूरी है. इसलिए, इसकी बेसलाइन मेमोरी की ज़रूरत, 400 करोड़ पैरामीटर वाले मॉडल की तुलना में 2600 करोड़ पैरामीटर वाले मॉडल के ज़्यादा करीब है.
  • सिर्फ़ बेस वेट: ऊपर दी गई टेबल में दिए गए अनुमानों में, स्टैटिक मॉडल वेट को लोड करने के लिए ज़रूरी मेमोरी को सिर्फ़ शामिल किया गया है. इनमें, सॉफ़्टवेयर या कॉन्टेक्स्ट विंडो को सपोर्ट करने के लिए ज़रूरी अतिरिक्त वीआरएएम शामिल नहीं है.
  • कॉन्टेक्स्ट विंडो (केवी कैश): मेमोरी की खपत, आपके प्रॉम्प्ट में मौजूद टोकन की कुल संख्या और जनरेट किए गए जवाब के आधार पर, डाइनैमिक तरीके से बढ़ेगी. बड़ी कॉन्टेक्स्ट विंडो के लिए, बेस मॉडल के वज़न के साथ-साथ काफ़ी ज़्यादा वीआरएएम की ज़रूरत होती है.
  • फ़ाइन-ट्यूनिंग का ओवरहेड: Gemma मॉडल को फ़ाइन-ट्यून करने के लिए, स्टैंडर्ड इन्फ़्रेंस की तुलना में बहुत ज़्यादा मेमोरी की ज़रूरत होती है. आपका सटीक फ़ुटप्रिंट, डेवलपमेंट फ़्रेमवर्क, बैच का साइज़, और इस बात पर निर्भर करेगा कि फ़ुल-प्रिसिज़न ट्यूनिंग का इस्तेमाल किया जा रहा है या पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) के तरीके का इस्तेमाल किया जा रहा है. जैसे, लो-रैंक अडैप्टेशन (लोरा).

क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी)

जिन डिप्लॉयमेंट के लिए, क्वालिटी से समझौता किए बिना ज़्यादा से ज़्यादा दक्षता की ज़रूरत होती है उनके लिए, Gemma क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी) मॉडल उपलब्ध कराता है.

स्टैंडर्ड पोस्ट-ट्रेनिंग क्वांटाइज़ेशन (पीटीक्यू) में, पूरी तरह से ट्रेन किए गए मॉडल को कंप्रेस किया जाता है. इससे क्वालिटी में गिरावट आ सकती है. हालांकि, क्यूएटी में क्वांटाइज़ेशन सिमुलेशन को ट्रेनिंग प्रोसेस में ही इंटिग्रेट किया जाता है. इससे मॉडल को सटीक जानकारी में होने वाले नुकसान की भरपाई करने के बारे में जानने में मदद मिलती है. इससे छोटे मॉडल तैयार होते हैं, जो ज़्यादा सटीक जानकारी देने वाले मॉडल की तरह ही काम करते हैं.

क्विक राउटिंग टेबल

टारगेट डिप्लॉयमेंट इंजन सफ़िक्स डाउनलोड करें इस्तेमाल का मुख्य उदाहरण
llama.cpp / LM Studio (लोकल) {model-name}-qat-q4_0-gguf सीपीयू, Apple सिलिकॉन या उपभोक्ता जीपीयू पर, बिना किसी सेटअप के स्थानीय तौर पर डिप्लॉयमेंट किया जा सकता है.
vLLM / SGLang SERVER: {model-name}-qat-w4a16-ct
MOBILE: {model-name}-qat-mobile-ct
16-बिट ऐक्टिवेशन के साथ 4-बिट वेट का इस्तेमाल करके, ज़्यादा थ्रूपुट वाली इनफ़रेंस.
अनुमान के आधार पर डिकोडिंग करना मॉडल: {model-name}-qat-q4_0-unquantized
ड्राफ़्टर: {model-name}-qat-q4_0-unquantized-assistant
टोकन जनरेट करने की प्रोसेस को तेज़ी से पूरा करने के लिए, प्राइमरी मॉडल के साथ-साथ उससे मिलता-जुलता एमटीपी ड्राफ़्ट मॉडल चलाना. मॉडल को क्वांटाइज़ किया जाना चाहिए.
दूसरे फ़ॉर्मैट {model-name}-qat-q4_0-unquantized अन्य फ़ॉर्मैट (जैसे, MLX) में बदलने के लिए, बिना क्वॉन्टाइज़ किए गए वेट
मोबाइल पर डिप्लॉयमेंट (ट्रांसफ़ॉर्मर) {model-name}-qat-mobile-transformers मोबाइल पर इस्तेमाल करने के उदाहरणों के लिए, एज वेट को ऑप्टिमाइज़ किया गया है. ये अन्य फ़ॉर्मैट के लिए रेफ़रंस के तौर पर काम करते हैं.

Hugging Face पर QAT के आधिकारिक कलेक्शन

  • collections/google/gemma-4-qat-q4_0
    • अनक्वांटाइज़्ड QAT चेकपॉइंट (-unquantized / -assistant): ये हाफ़-प्रेसिज़न वेट होते हैं, जिन्हें QAT पाइपलाइन से सीधे तौर पर निकाला जाता है. ये कस्टम डाउनस्ट्रीम कंपाइलेशन, रिसर्च या असिस्टेंट ड्राफ़्ट मॉडल का इस्तेमाल करके स्पेकुलेटिव डिकोडिंग चलाने के लिए सबसे सही हैं. Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है.
    • GGUF (-gguf): स्थानीय एलएलएम नेटवर्क में तुरंत ड्रॉप-इन करने के लिए उपलब्ध चेकपॉइंट. यह सुविधा Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है.
    • कंप्रेस किए गए टेंसर (-w4a16-ct): इन्हें compressed-tensors स्टैंडर्ड में नेटिव तौर पर क्रम से लगाया जाता है, ताकि क्लाउड पर ऑप्टिमाइज़ तरीके से और एक साथ कई अनुरोधों को पूरा किया जा सके. Gemma 4 E2B, E4B, 12B, और 31B के लिए उपलब्ध है.
  • collections/google/gemma-4-qat-mobile
    • मोबाइल के लिए ऑप्टिमाइज़ किया गया (-mobile-transformers / -mobile-ct): इसे कस्टम wNa8o8 स्कीमा पर बनाया गया है. इसे खास तौर पर मोबाइल हार्डवेयर की सीमाओं को ध्यान में रखकर बनाया गया है. यह टारगेट की गई 2-बिट डिकोडिंग लेयर, ऑप्टिमाइज़ की गई केवी कैश मेमोरी, और स्टैटिक ऐक्टिवेशन का इस्तेमाल करता है. इससे उपयोगकर्ता के डिवाइस पर रैम की बचत होती है और एज प्रोसेसर पर कोई असर नहीं पड़ता. यह Gemma 4 E2B और E4B के लिए उपलब्ध है.

Gemma 4 QAT के सभी आधिकारिक चेकपॉइंट को सीधे Kaggle से भी ऐक्सेस किया जा सकता है.

Gemma के पिछले मॉडल

Gemma मॉडल की पिछली जनरेशन के साथ काम किया जा सकता है. ये मॉडल, Kaggle और Hugging Face पर भी उपलब्ध हैं. Gemma के पिछले मॉडल के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड वाले ये पेज देखें:

क्या आप इंटिग्रेट करने के लिए तैयार हैं? Gemma मॉडल का इस्तेमाल शुरू करें!