Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 मॉडल कार्ड

Gemma 4 बैनर

Hugging Face | GitHub | लॉन्च ब्लॉग | दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind

Gemma, Google DeepMind के बनाए गए ओपन मॉडल का एक परिवार है. Gemma 4 मॉडल मल्टीमॉडल हैं. ये टेक्स्ट और इमेज इनपुट को प्रोसेस करते हैं. साथ ही, टेक्स्ट आउटपुट जनरेट करते हैं. E2B, E4B, और 12B मॉडल में ऑडियो इनपुट को प्रोसेस करने की सुविधा भी उपलब्ध है. इस रिलीज़ में, ओपन-वेट मॉडल शामिल हैं. ये मॉडल, प्री-ट्रेन किए गए और निर्देश के मुताबिक फ़ाइन-ट्यून किए गए, दोनों तरह के वैरिएंट में उपलब्ध हैं. Gemma 4 में 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करता है.

Gemma 4 में डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (MoE) आर्किटेक्चर, दोनों शामिल हैं. यह टेक्स्ट जनरेट करने, कोडिंग करने, और रीज़निंग जैसे कामों के लिए सबसे सही है. ये मॉडल पांच अलग-अलग साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 26B A4B, और 31B. इनके अलग-अलग साइज़ की वजह से, इन्हें महंगे फ़ोन से लेकर लैपटॉप और सर्वर तक, हर तरह के डिवाइस पर इस्तेमाल किया जा सकता है. इससे, अत्याधुनिक एआई को सभी के लिए उपलब्ध कराया जा सकता है.

Gemma 4 में बेहतर सुविधाएं और आर्किटेक्चर से जुड़ी नई टेक्नोलॉजी शामिल की गई हैं:

वजह – इस फ़ैमिली के सभी मॉडल को, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किया गया है. साथ ही, इनमें सोचने के तरीके को कॉन्फ़िगर किया जा सकता है.
एक्सटेंडेड मल्टीमॉडल – यह टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल पर नेटिव तौर पर इस्तेमाल किया जा सकता है.
अलग-अलग और असरदार आर्किटेक्चर – इसमें अलग-अलग साइज़ के डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) वैरिएंट उपलब्ध हैं, ताकि इन्हें आसानी से डिप्लॉय किया जा सके.
डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया गया है – छोटे मॉडल खास तौर पर लैपटॉप और मोबाइल डिवाइसों पर बेहतर तरीके से काम करने के लिए डिज़ाइन किए गए हैं.
कॉन्टेक्स्ट विंडो में बढ़ोतरी – छोटे मॉडल में 1.28 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है.
बेहतर कोडिंग और एजेंटिक क्षमताएँ – कोडिंग के बेंचमार्क में काफ़ी सुधार करती है. साथ ही, नेटिव फ़ंक्शन-कॉलिंग की सुविधा देती है, जिससे ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट काम कर पाते हैं.
सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट – Gemma 4 में, system भूमिका के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.

मॉडल के बारे में खास जानकारी

Gemma 4 मॉडल को हर साइज़ में, सबसे बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. ये मॉडल, मोबाइल और एज डिवाइस (E2B, E4B) से लेकर उपभोक्ता के जीपीयू और वर्कस्टेशन (12B, 26B A4B, 31B) तक के डिप्लॉयमेंट के अलग-अलग उदाहरणों को टारगेट करते हैं. ये मॉडल, गहराई से विश्लेषण, एजेंटिक वर्कफ़्लो, कोडिंग, और टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाले मॉडल को समझने के लिए सबसे सही हैं.

इन मॉडल में हाइब्रिड अटेंशन मैकेनिज़्म का इस्तेमाल किया जाता है. इसमें लोकल स्लाइडिंग विंडो अटेंशन को फ़ुल ग्लोबल अटेंशन के साथ इंटरलीव किया जाता है. इससे यह पक्का होता है कि फ़ाइनल लेयर हमेशा ग्लोबल हो. इस हाइब्रिड डिज़ाइन की मदद से, मुश्किल और लंबे कॉन्टेक्स्ट वाले टास्क के लिए ज़रूरी जानकारी को बनाए रखते हुए, हल्के मॉडल की प्रोसेसिंग स्पीड और कम मेमोरी फ़ुटप्रिंट मिलता है. लंबे कॉन्टेक्स्ट के लिए मेमोरी को ऑप्टिमाइज़ करने के लिए, ग्लोबल लेयर की सुविधा में यूनिफ़ाइड कुंजियां और वैल्यू होती हैं. साथ ही, इसमें प्रोपोर्शनल RoPE (p-RoPE) लागू होता है.

डेंस मॉडल

प्रॉपर्टी	E2B	E4B	12B यूनिफ़ाइड	31B Dense
कुल पैरामीटर	2.3B पैरामीटर (एम्बेडिंग के साथ 5.1B)	4.5 अरब पैरामीटर (एम्बेडिंग के साथ 8 अरब)	11.95B	30.7 अरब
लेयर	35	42	48	60
स्लाइडिंग विंडो	512 टोकन	512 टोकन	1024 टोकन	1024 टोकन
कॉन्टेक्स्ट की लंबाई	1,28,000 टोकन	1,28,000 टोकन	2,56,000 टोकन	2,56,000 टोकन
शब्दावली का साइज़	262K	262K	262K	262K
इस्तेमाल की जा सकने वाली सुविधाएं	टेक्स्ट, इमेज, ऑडियो	टेक्स्ट, इमेज, ऑडियो	टेक्स्ट, इमेज, ऑडियो	टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर	~15 करोड़	~15 करोड़	-	~55 करोड़
ऑडियो एन्कोडर पैरामीटर	~30 करोड़	~30 करोड़	-	कोई ऑडियो नहीं

E2B और E4B में "E" का मतलब "इफ़ेक्टिव" पैरामीटर होता है. छोटे मॉडल, उपयोगकर्ता के डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की क्षमता को बढ़ाने के लिए, पर-लेयर एम्बेडिंग (पीएलई) को शामिल करते हैं. मॉडल में ज़्यादा लेयर या पैरामीटर जोड़ने के बजाय, पीएलई हर टोकन के लिए, हर डिकोडर लेयर को अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तेज़ी से लुकअप करने के लिए किया जाता है. इसलिए, असरदार पैरामीटर की संख्या कुल संख्या से बहुत कम होती है.

Gemma 4 12B Unified में "Unified" का मतलब है कि इसमें एनकोडर-फ़्री आर्किटेक्चर का इस्तेमाल किया गया है. Gemma 4 के अन्य मॉडल, मल्टीमॉडल डेटा को प्रोसेस करने के लिए खास तौर पर बनाए गए एनकोडर का इस्तेमाल करते हैं. इसके बाद, वे इस डेटा को एलएलएम को भेजते हैं. Gemma 4 12B, इन एनकोडर को पूरी तरह से हटा देता है. यह रॉ इमेज पैच और ऑडियो वेवफ़ॉर्म को सीधे तौर पर एलएलएम के एम्बेडिंग स्पेस में प्रोजेक्ट करता है. इसके लिए, हल्के लीनियर लेयर का इस्तेमाल किया जाता है. इस यूनिफ़ाइड अप्रोच का मतलब है कि सभी मोडैलिटी सीधे तौर पर सिर्फ़ एक डिकोडर-ओनली ट्रांसफ़ॉर्मर में जाती हैं. इससे मल्टीमॉडल लेटेंसी कम हो जाती है और पूरे मॉडल को एक ही पास में फ़ाइन-ट्यून किया जा सकता है.

Mixture-of-Experts (MoE) मॉडल

प्रॉपर्टी	26B A4B MoE
कुल पैरामीटर	25.2B
ऐक्टिव पैरामीटर	3.8B
लेयर	30
स्लाइडिंग विंडो	1024 टोकन
कॉन्टेक्स्ट की लंबाई	2,56,000 टोकन
शब्दावली का साइज़	262K
एक्सपर्ट की संख्या	8 चालू / 128 कुल और 1 शेयर किया गया
इस्तेमाल की जा सकने वाली सुविधाएं	टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर	~55 करोड़

26B A4B में "A" का मतलब "ऐक्टिव पैरामीटर" है. यह मॉडल में मौजूद पैरामीटर की कुल संख्या से अलग है. इन्फ़रेंस के दौरान सिर्फ़ 400 करोड़ पैरामीटर के सबसेट को चालू करके, Mixture-of-Experts मॉडल, 2,600 करोड़ पैरामीटर वाले मॉडल की तुलना में बहुत तेज़ी से काम करता है. इसलिए, यह 31B मॉडल की तुलना में तेज़ इनफ़्रेंस के लिए एक बेहतरीन विकल्प है. इसकी वजह यह है कि यह 4B-पैरामीटर मॉडल की तरह ही तेज़ी से काम करता है.

मानदंड के नतीजे

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में मार्क किए गए आकलन के नतीजे, निर्देश के मुताबिक तैयार किए गए मॉडल के लिए हैं.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B यूनिफ़ाइड	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (सोचने की सुविधा नहीं है)
MMLU Pro	85.2%	82.6%	77.2%	69.4%	60%	67.6%
AIME 2026 no tools	89.2%	88.3%	77.5%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	72.0%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	1659	940	633	110
GPQA Diamond	84.3%	82.3%	78.8%	58.6%	43.4%	42.4%
Tau2 (औसत 3 से ज़्यादा)	76.9%	68.2%	69.0%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	5.2%	-	-	-
खोज की सुविधा के साथ एचएलई	26.5%	17.2%	-	-	-	-
BigBench Extra Hard	74.4%	64.8%	53.0%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	83.4%	76.6%	67.4%	70.7%
देखने से जुड़ी समस्या वाले लोगों के लिए सुलभता सुविधाएं
MMMU Pro	76.9%	73.8%	69.1%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर)	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	79.7%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	48.7%	28.7%	23.5%	-
ऑडियो
CoVoST	-	-	38.5^*	35.54	33.47	-
FLEURS (कम स्कोर बेहतर होता है)	-	-	0.069^*	0.08	0.09	-
ज़्यादा कॉन्टेक्स्ट वाली विंडो
MRCR v2 8 नीडल 128k (औसत)	66.4%	44.1%	43.4%	25.4%	19.1%	13.5%

^*इसमें चाइनीज़ भाषा शामिल नहीं है.

मुख्य सुविधाएं

Gemma 4 मॉडल, टेक्स्ट, विज़न, और ऑडियो से जुड़े कई तरह के काम कर सकते हैं. मुख्य सुविधाओं में ये शामिल हैं:

सोचना – यह एक बिल्ट-इन रीज़निंग मोड है. इससे मॉडल को जवाब देने से पहले, एक-एक करके सोचने का मौका मिलता है.
ज़्यादा कॉन्टेक्स्ट वाली विंडो – 1.28 लाख टोकन (E2B/E4B) और 2.56 लाख टोकन (12B/26B A4B/31B) तक की कॉन्टेक्स्ट विंडो.
इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
वीडियो को समझना – फ़्रेम के क्रम को प्रोसेस करके वीडियो का विश्लेषण करना.
टेक्स्ट और इमेज के बेहतरीन सीक्वेंस वाला मल्टीमोडल इनपुट – एक ही प्रॉम्प्ट में, टेक्स्ट और इमेज को किसी भी क्रम में आसानी से मिक्स करें.
फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
कोडिंग – कोड जनरेट करना, उसे पूरा करना, और उसमें सुधार करना.
कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ही ट्रेन किया गया है.
ऑडियो (सिर्फ़ E2B, E4B, और 12B Unified के लिए) – ऑटोमैटिक तरीके से बोली की पहचान करना (एएसआर) और बोली को अनुवादित टेक्स्ट में बदलने की सुविधा, कई भाषाओं में उपलब्ध है.

सबसे सही तरीके

बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:

1. सैंपलिंग पैरामीटर

इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:

temperature=1.0
top_p=0.95
top_k=64

2. सूझ-बूझ वाले मोड का कॉन्फ़िगरेशन

Gemma 3 की तुलना में, इन मॉडल में स्टैंडर्ड system, assistant, और user भूमिकाओं का इस्तेमाल किया जाता है. सोचने की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:

सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में <|think|> टोकन शामिल करके, सोचने की सुविधा को चालू किया जाता है. सोचने की सुविधा बंद करने के लिए, टोकन हटाएं.
स्टैंडर्ड जनरेशन: थिंकिंग मोड चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, जवाब देने के लिए इस्तेमाल की गई अपनी इंटरनल प्रोसेस और फिर फ़ाइनल जवाब देगा: <|channel>thought\n[इंटरनल प्रोसेस]<channel|>
सोचने की सुविधा बंद होने पर: E2B और E4B वर्शन को छोड़कर, सभी मॉडल के लिए सोचने की सुविधा बंद होने पर भी मॉडल टैग जनरेट करेगा. हालाँकि, इसमें 'सोचें' ब्लॉक खाली होगा: <|channel>thought\n<channel|>[फ़ाइनल जवाब]

ध्यान दें कि Transformers और llama.cpp जैसी कई लाइब्रेरी, चैट टेम्प्लेट की जटिलताओं को आपके लिए मैनेज करती हैं.

3. एक से ज़्यादा बार की जाने वाली बातचीत

इतिहास में सोचने से जुड़ा कॉन्टेंट नहीं होना चाहिए: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ आखिरी जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों में शामिल 'सोच' वाले हिस्से को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.

4. मोडेलिटी का क्रम

मल्टीमॉडल इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, ये काम करें:

आपके प्रॉम्प्ट में मौजूद टेक्स्ट से पहले इमेज कॉन्टेंट.
आपके प्रॉम्प्ट में मौजूद टेक्स्ट के बाद का ऑडियो कॉन्टेंट.

5. इमेज के रिज़ॉल्यूशन के अलग-अलग विकल्प

अलग-अलग पहलू अनुपात के अलावा, Gemma 4 में इमेज के अलग-अलग रिज़ॉल्यूशन का इस्तेमाल किया जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, ज़्यादा कंप्यूटिंग की कीमत पर ज़्यादा विज़ुअल जानकारी मिलती है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए बारीकी से समझने की ज़रूरत नहीं होती.

इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और 1120.
- क्लासिफ़िकेशन, कैप्शनिंग या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा फ़्रेम को तेज़ी से प्रोसेस करने और अनुमान लगाने को ज़्यादा अहमियत दी जाती है.
- ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.

6. ऑडियो

ऑडियो प्रोसेसिंग के लिए, यहां दिए गए प्रॉम्प्ट स्ट्रक्चर इस्तेमाल करें:

ऑडियो से बोली पहचानने की सुविधा (एएसआर)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

ऑटोमैटिक स्पीच ट्रांसलेशन (एएसटी)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ऑडियो और वीडियो की अवधि

सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. हालांकि, E2B, E4B, और 12B मॉडल, ऑडियो इनपुट के साथ भी काम करते हैं. ऑडियो की अवधि ज़्यादा से ज़्यादा 30 सेकंड हो सकती है. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड होनी चाहिए. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड पर प्रोसेस किया जाए.

मॉडल डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग के लिए डेटासेट

प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, अलग-अलग तरह के डेटा का एक बड़ा कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटा को जनवरी 2025 तक इकट्ठा किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:

वेब दस्तावेज़: वेब टेक्स्ट के अलग-अलग कलेक्शन से यह पक्का होता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में जानकारी मिले. ट्रेनिंग डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
गणित: गणित के टेक्स्ट की ट्रेनिंग देने से, मॉडल को तार्किक तर्क, सिंबॉलिक रिप्रेजेंटेशन, और गणित की क्वेरी हल करने में मदद मिलती है.
इमेज: अलग-अलग तरह की इमेज से, मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने के टास्क पूरे करने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा प्रीप्रोसेसिंग

ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:

सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रोसेस लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया जा सका.
अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

नैतिकता और सुरक्षा

ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. Gemma 4 को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, हमारे मालिकाना हक वाले Gemini मॉडल की तरह ही किया जाता है.

आकलन का तरीका

Gemma 4 मॉडल को, सुरक्षा और ज़िम्मेदारी के साथ एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर बनाया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल, दोनों तरीकों से कई बार आकलन किया गया. ये आकलन, Google के एआई से जुड़े सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक किए जाते हैं. इनका मकसद, हमारे जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:

बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे असल ज़िंदगी में नुकसान पहुंच सकता है)
साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
नफ़रत फैलाने वाली भाषा (जैसे, सुरक्षित ग्रुप के सदस्यों के साथ अमानवीय बर्ताव करना)
उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)

मूल्यांकन के नतीजे

सुरक्षा से जुड़ी सभी जांचों में, हमने कॉन्टेंट की सुरक्षा की सभी कैटगरी में, Gemma के पिछले मॉडल की तुलना में काफ़ी सुधार देखे. कुल मिलाकर, Gemma 4 मॉडल, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर हैं. साथ ही, ये बिना किसी वजह के जवाब देने से मना नहीं करते. मॉडल की क्षमताओं और व्यवहारों का आकलन करने के लिए, सभी टेस्टिंग बिना सुरक्षा फ़िल्टर के की गई थी. टेक्स्ट प्रॉम्प्ट से टेक्स्ट जनरेट होने की प्रोसेस और इमेज टू टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ के लिए, मॉडल ने नीति का उल्लंघन बहुत कम किए. साथ ही, पिछले Gemma मॉडल की परफ़ॉर्मेंस के मुकाबले, इसमें काफ़ी सुधार देखने को मिला.

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

मल्टीमॉडल मॉडल (जो विज़न, भाषा, और/या ऑडियो को प्रोसेस कर सकते हैं) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी इस्तेमाल शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में जानकारी देना है जिनके बारे में मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान सोचा था.

कॉन्टेंट बनाना और कम्यूनिकेट करना
- टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाना.
- टेक्स्ट की खास जानकारी जनरेट करना: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करना.
- इमेज से डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, समझने, और उसकी खास जानकारी देने के लिए किया जा सकता है.
- ऑडियो प्रोसेसिंग और इंटरैक्शन: E2B, E4B, और 12B मॉडल, ऑडियो इनपुट का विश्लेषण और व्याख्या कर सकते हैं. इससे, आवाज़ से इंटरैक्ट करने और ट्रांसक्रिप्शन की सुविधा मिलती है.
रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, रिसर्च करने वालों के लिए एक आधार के तौर पर काम कर सकते हैं. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण ठीक करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
- जानकारी एक्सप्लोर करना: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.

सीमाएं

ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
- ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन कामों को बेहतर तरीके से पूरा करते हैं जिनके लिए साफ़ तौर पर प्रॉम्प्ट और निर्देश दिए गए हों. ऐसे टास्क जिनमें कई तरह के जवाब दिए जा सकते हैं या जो बहुत मुश्किल हैं उन्हें पूरा करने में समस्या आ सकती है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर आउटपुट मिलते हैं. हालांकि, ऐसा एक तय सीमा तक ही होता है.
भाषा से जुड़ी अस्पष्टता और बारीकियां
- नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
तथ्यों का सही होना
- मॉडल, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, ये मॉडल नॉलेज बेस नहीं होते. ऐसा हो सकता है कि वे तथ्यों के बारे में गलत या पुरानी जानकारी दें.
Common Sense
- मॉडल, भाषा में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में, वे सामान्य ज्ञान का इस्तेमाल न कर पाएं.

नैतिक तौर पर अहम बातें और जोखिम

विजन-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. इस कार्ड में दी गई जानकारी के मुताबिक, Gemma 4 मॉडल की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उनका आकलन किया गया, ताकि इन पूर्वाग्रहों के जोखिम को कम किया जा सके.
गलत जानकारी और गलत इस्तेमाल
- VLMs का गलत इस्तेमाल करके, ऐसा टेक्स्ट जनरेट किया जा सकता है जो गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
- मॉडल का ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. इसके लिए, ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने से जुड़ा टूलकिट देखें.
पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किए गए ओपन मॉडल से, इनोवेशन को शेयर करने का मौका मिलता है. इससे एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस करना आसान हो जाता है.

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करते समय सावधानी बरतें.
नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाओं और डेवलपर और उपयोगकर्ता की शिक्षा से मदद मिल सकती है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
निजता का उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटा दिया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता से जुड़े कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
पूर्वाग्रहों को बढ़ावा मिलना: मॉडल की ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के मामलों के दौरान, लगातार निगरानी करने का सुझाव दिया जाता है. इसके लिए, आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा करने का इस्तेमाल करें. साथ ही, पूर्वाग्रहों को कम करने की तकनीकों का पता लगाएं.

फ़ायदे

रिलीज़ के समय, मॉडल के इस फ़ैमिली में बेहतर परफ़ॉर्म करने वाले ओपन विज़न-लैंग्वेज मॉडल उपलब्ध हैं. इन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, शुरू से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर हैं.