Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 मॉडल के बारे में खास जानकारी

Gemma, जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल का एक परिवार है. इनका इस्तेमाल, जनरेशन से जुड़े कई कामों के लिए किया जा सकता है. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क करना. Gemma मॉडल, ओपन वेट के साथ उपलब्ध कराए जाते हैं. साथ ही, इन्हें कारोबारी इस्तेमाल के लिए ज़िम्मेदारी के साथ इस्तेमाल करने की अनुमति दी जाती है. इससे आपको अपने प्रोजेक्ट और ऐप्लिकेशन में इन्हें ट्यून और डिप्लॉय करने की सुविधा मिलती है.

Gemma 4 मॉडल फ़ैमिली में चार अलग-अलग आर्किटेक्चर शामिल हैं. इन्हें हार्डवेयर की खास ज़रूरतों के हिसाब से बनाया गया है:

छोटे साइज़: 2B और 4B पैरामीटर वाले मॉडल, जिन्हें अल्ट्रा-मोबाइल, एज, और ब्राउज़र पर डिप्लॉय करने के लिए बनाया गया है. जैसे, Pixel, Chrome.
डेंस: यह 3100 करोड़ पैरामीटर वाला एक बेहतरीन डेंस मॉडल है. यह सर्वर-ग्रेड परफ़ॉर्मेंस और लोकल एक्ज़ीक्यूशन के बीच के अंतर को कम करता है.
Mixture-of-Experts: यह 26B MoE मॉडल, ज़्यादा थ्रूपुट और ऐडवांस रीज़निंग के लिए डिज़ाइन किया गया है.
यूनिफ़ाइड: यह मल्टीमॉडल टास्क के लिए, 12B पैरामीटर वाला एनकोडर फ़्री मॉडल है. इसमें विज़न और ऑडियो एनकोडर को इनपुट के डायरेक्ट लीनियर प्रोजेक्शन से बदल दिया गया है.

Gemma 4 के मॉडल, Kaggle और Hugging Face से डाउनलोड किए जा सकते हैं. Gemma 4 के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड और तकनीकी रिपोर्ट देखें. Gemma के मुख्य मॉडल के पुराने वर्शन भी डाउनलोड किए जा सकते हैं. ज़्यादा जानकारी के लिए, Gemma के पिछले मॉडल देखें.

इसे Kaggle पर पाएं इसे Hugging Face पर पाएं

क्षमताएं

वजह: इस फ़ैमिली के सभी मॉडल को, तर्क देने में बहुत ज़्यादा सक्षम बनाया गया है. साथ ही, इनमें सोचने के तरीके कॉन्फ़िगर किए जा सकते हैं.
टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई क्वेरी को बेहतर तरीके से समझना: यह मॉडल टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल में नेटिव तौर पर इस्तेमाल किया जा सकता है.
कॉन्टेक्स्ट विंडो का साइज़ बढ़ा: छोटे मॉडल में 1.28 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है.
बेहतर कोडिंग और एजेंटिक क्षमताएं: इसमें कोडिंग बेंचमार्क में काफ़ी सुधार किया गया है. साथ ही, इसमें फ़ंक्शन-कॉलिंग की सुविधा पहले से मौजूद है. इससे, ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट बनाए जा सकते हैं.
सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट: Gemma 4 में, सिस्टम रोल के लिए बिल्ट-इन सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
एक से ज़्यादा टोकन का अनुमान लगाना: Gemma 4 के सभी मॉडल (E2B, E4B, 12B, 31B, और 26B A4B) में, अनुमानित डिकोडिंग के लिए एक खास ड्राफ़्ट मॉडल शामिल होता है. इससे क्वालिटी में कोई कमी नहीं आती और अनुमान लगाने की प्रोसेस काफ़ी तेज़ हो जाती है.

पैरामीटर के साइज़ और क्वांटाइज़ेशन

Gemma 4 मॉडल, पांच पैरामीटर साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 31B, और 26B A4B. इन मॉडल को, डिफ़ॉल्ट तौर पर सटीक जानकारी (16-बिट) के साथ इस्तेमाल किया जा सकता है. इसके अलावा, क्वानटाइज़ेशन का इस्तेमाल करके, कम सटीक जानकारी के साथ भी इस्तेमाल किया जा सकता है. अलग-अलग साइज़ और सटीक जानकारी, आपके एआई ऐप्लिकेशन के लिए कई तरह के फ़ायदे और नुकसान दिखाती है. ज़्यादा पैरामीटर और बिट काउंट (ज़्यादा सटीक) वाले मॉडल आम तौर पर ज़्यादा बेहतर होते हैं. हालांकि, प्रोसेसिंग साइकल, मेमोरी की लागत, और बिजली की खपत के मामले में इन्हें चलाना ज़्यादा महंगा होता है. कम पैरामीटर और बिट काउंट (कम सटीक) वाले मॉडल में कम सुविधाएं होती हैं. हालांकि, ये आपके एआई टास्क के लिए काफ़ी हो सकती हैं.

Gemma 4 के अनुमान लगाने के लिए मेमोरी की ज़रूरी शर्तें

यहां दी गई टेबल में, Gemma 4 मॉडल के हर साइज़ के वर्शन के साथ अनुमान लगाने की प्रोसेस को चलाने के लिए, GPU या TPU की मेमोरी की ज़रूरी शर्तों के बारे में जानकारी दी गई है.

पैरामीटर	BF16 (16-बिट)	SFP8 (8-बिट)	Q4_0 (4-बिट)	मोबाइल	मोबाइल (सिर्फ़ टेक्स्ट)
Gemma 4 E2B	11.4 जीबी	5.7 जीबी	2.9 जीबी	1.1 जीबी	0.84 जीबी
Gemma 4 E4B	17.9 जीबी	8.9 जीबी	4.5 जीबी	2.5 जीबी	2.2 जीबी
Gemma 4 12B	26.7 जीबी	13.4 जीबी	6.7 जीबी	-	-
Gemma 4 26B A4B	57.7 जीबी	28.8 जीबी	14.4 जीबी	-	-
Gemma 4 31B	69.9 जीबी	34.9 जीबी	17.5 जीबी	-	-

पहली टेबल. पैरामीटर की संख्या, क्वॉन्टाइज़ेशन लेवल, और अन्य चीज़ें लोड करने के 20% ओवरहेड के आधार पर, Gemma 4 मॉडल लोड करने के लिए ज़रूरी GPU या TPU मेमोरी का अनुमान. मोबाइल वर्शन में LiteRT-LM का इस्तेमाल किया जाता है.

मेमोरी प्लान करने के लिए ध्यान रखने वाली मुख्य बातें

बेहतर आर्किटेक्चर (E2B और E4B): "E" का मतलब "इफ़ेक्टिव" पैरामीटर से है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है, ताकि डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की क्षमता को ज़्यादा से ज़्यादा किया जा सके. मॉडल में ज़्यादा लेयर जोड़ने के बजाय, PLE हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, स्टैटिक वेट लोड करने के लिए ज़रूरी कुल मेमोरी, पैरामीटर की गिनती से ज़्यादा होती है.
MoE आर्किटेक्चर (26B A4B): 26B, Mixture of Experts मॉडल है. हालांकि, जनरेशन के दौरान यह हर टोकन के लिए सिर्फ़ 400 करोड़ पैरामीटर चालू करता है, लेकिन तेज़ राउटिंग और अनुमान लगाने की स्पीड बनाए रखने के लिए, सभी 2,600 करोड़ पैरामीटर को मेमोरी में लोड करना ज़रूरी है. इसलिए, इसकी बेसलाइन मेमोरी की ज़रूरत, 4B मॉडल की तुलना में 26B मॉडल के ज़्यादा करीब होती है.
सिर्फ़ बेस वेट: ऊपर दी गई टेबल में दिए गए अनुमान, स्टैटिक मॉडल के वेट लोड करने के लिए ज़रूरी मेमोरी के बारे में सिर्फ़ जानकारी देते हैं. इनमें सॉफ़्टवेयर या कॉन्टेक्स्ट विंडो के साथ काम करने के लिए ज़रूरी अतिरिक्त वीआरएएम शामिल नहीं होता.
कॉन्टेक्स्ट विंडो (केवी कैश): मेमोरी का इस्तेमाल, आपके प्रॉम्प्ट में मौजूद टोकन की कुल संख्या और जनरेट किए गए जवाब के आधार पर डाइनैमिक रूप से बढ़ेगा. बड़ी कॉन्टेक्स्ट विंडो के लिए, बेस मॉडल के वेट के अलावा काफ़ी ज़्यादा वीआरएएम की ज़रूरत होती है.
फ़ाइन-ट्यूनिंग का ओवरहेड: Gemma मॉडल को फ़ाइन-ट्यून करने के लिए, स्टैंडर्ड इन्फ़रेंस की तुलना में बहुत ज़्यादा मेमोरी की ज़रूरत होती है. आपका सटीक फ़ुटप्रिंट, डेवलपमेंट फ़्रेमवर्क, बैच साइज़, और इस बात पर निर्भर करेगा कि फ़ुल-प्रिसिज़न ट्यूनिंग का इस्तेमाल किया जा रहा है या पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) के तरीके का इस्तेमाल किया जा रहा है. जैसे, लो-रैंक अडैप्टेशन (लोरा).

क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी)

जिन डिप्लॉयमेंट के लिए, क्वालिटी से समझौता किए बिना ज़्यादा से ज़्यादा दक्षता की ज़रूरत होती है उनके लिए, Gemma क्वांटाइज़ेशन-अवेयर ट्रेनिंग (क्यूएटी) मॉडल उपलब्ध कराता है.

स्टैंडर्ड पोस्ट-ट्रेनिंग क्वांटाइज़ेशन (पीटीक्यू) में, पूरी तरह से ट्रेन किए गए मॉडल को कंप्रेस किया जाता है. इससे क्वालिटी में गिरावट आ सकती है. हालांकि, क्यूएटी में क्वांटाइज़ेशन सिमुलेशन को ट्रेनिंग प्रोसेस में ही इंटिग्रेट किया जाता है. इससे मॉडल को सटीक जानकारी में होने वाले नुकसान की भरपाई करने के बारे में जानने में मदद मिलती है. इससे छोटे मॉडल बनते हैं, जो ज़्यादा सटीक जानकारी देने वाले मॉडल की तरह ही काम करते हैं.

क्विक राउटिंग टेबल

टारगेट डिप्लॉयमेंट इंजन	सफ़िक्स डाउनलोड करें	इस्तेमाल का मुख्य उदाहरण
llama.cpp / LM Studio (लोकल)	`{model-name}-qat-q4_0-gguf`	सीपीयू, Apple सिलिकॉन या उपभोक्ता जीपीयू पर, बिना किसी सेटअप के स्थानीय तौर पर डिप्लॉयमेंट किया जा सकता है.
vLLM / SGLang	SERVER: `{model-name}-qat-w4a16-ct` MOBILE: `{model-name}-qat-mobile-ct`	16-बिट ऐक्टिवेशन के साथ 4-बिट वेट का इस्तेमाल करके, ज़्यादा थ्रूपुट वाली इनफ़रेंस.
अनुमान के आधार पर डिकोड करने की सुविधा	मॉडल: `{model-name}-qat-q4_0-unquantized` ड्राफ़्टर: `{model-name}-qat-q4_0-unquantized-assistant`	टोकन जनरेट करने की प्रोसेस को तेज़ी से पूरा करने के लिए, मुख्य मॉडल के साथ-साथ उससे मिलता-जुलता एमटीपी ड्राफ़्ट मॉडल इस्तेमाल किया जा रहा है. मॉडल को क्वांटाइज़ किया जाना चाहिए.
दूसरे फ़ॉर्मैट	`{model-name}-qat-q4_0-unquantized`	अन्य फ़ॉर्मैट (जैसे, MLX) में बदलने के लिए, बिना क्वॉन्टाइज़ किए गए वेट
मोबाइल पर डिप्लॉयमेंट (ट्रांसफ़ॉर्मर)	`{model-name}-qat-mobile-transformers`	मोबाइल पर इस्तेमाल करने के उदाहरणों के लिए, एज वेट को ऑप्टिमाइज़ किया गया है. ये अन्य फ़ॉर्मैट के लिए रेफ़रंस के तौर पर काम करते हैं.

Hugging Face पर QAT के आधिकारिक कलेक्शन

collections/google/gemma-4-qat-q4-0
- अनक्वांटाइज़्ड QAT चेकपॉइंट (-unquantized / -assistant): ये हाफ़-प्रेसिज़न वेट होते हैं, जिन्हें QAT पाइपलाइन से सीधे तौर पर निकाला जाता है. ये कस्टम डाउनस्ट्रीम कंपाइलेशन, रिसर्च या असिस्टेंट ड्राफ़्ट मॉडल का इस्तेमाल करके स्पेकुलेटिव डिकोडिंग चलाने के लिए सबसे सही हैं. Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है.
- GGUF (-gguf): स्थानीय एलएलएम के नेटवर्क में, तुरंत ड्रॉप-इन करने की सुविधा के साथ उपलब्ध चेकपॉइंट. Gemma 4 E2B, E4B, 12B, 26B A4B, और 31B के लिए उपलब्ध है.
- कंप्रेस किए गए टेंसर (-w4a16-ct): इन्हें compressed-tensors स्टैंडर्ड में नेटिव तौर पर क्रम से लगाया जाता है, ताकि क्लाउड पर ऑप्टिमाइज़ तरीके से और एक साथ कई अनुरोधों को पूरा किया जा सके. Gemma 4 E2B, E4B, 12B, और 31B के लिए उपलब्ध है.
collections/google/gemma-4-qat-mobile
- मोबाइल के लिए ऑप्टिमाइज़ किया गया (-mobile-transformers / -mobile-ct): इसे कस्टम wNa8o8 स्कीमा पर बनाया गया है. यह खास तौर पर मोबाइल हार्डवेयर की सीमाओं को ध्यान में रखकर बनाया गया है. यह टारगेट की गई 2-बिट डिकोडिंग लेयर, ऑप्टिमाइज़ की गई केवी कैश, और स्टैटिक ऐक्टिवेशन का इस्तेमाल करता है. इससे डिवाइस पर रैम की बचत होती है और एज प्रोसेसर पर कोई असर नहीं पड़ता. Gemma 4 E2B और E4B के लिए उपलब्ध है.

Gemma 4 QAT के सभी आधिकारिक चेकपॉइंट को सीधे Kaggle से भी ऐक्सेस किया जा सकता है.

Gemma के पिछले मॉडल

Gemma के पिछले जनरेशन के मॉडल का इस्तेमाल किया जा सकता है. ये मॉडल, Kaggle और Hugging Face पर भी उपलब्ध हैं. Gemma के पिछले मॉडल के बारे में ज़्यादा तकनीकी जानकारी के लिए, मॉडल कार्ड वाले ये पेज देखें:

क्या आप इंटिग्रेट करने के लिए तैयार हैं? Gemma मॉडल का इस्तेमाल शुरू करें!