
Hugging Face |
GitHub |
लॉन्च ब्लॉग |
दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind
Gemma, Google DeepMind के बनाए गए ओपन मॉडल का एक परिवार है. Gemma 4 मॉडल मल्टीमॉडल हैं. ये टेक्स्ट और इमेज इनपुट को प्रोसेस करते हैं. साथ ही, टेक्स्ट आउटपुट जनरेट करते हैं. E2B, E4B, और 12B मॉडल में ऑडियो इनपुट को प्रोसेस करने की सुविधा भी उपलब्ध है. इस रिलीज़ में, ओपन-वेट मॉडल शामिल हैं. ये मॉडल, प्री-ट्रेन किए गए और निर्देश के मुताबिक फ़ाइन-ट्यून किए गए, दोनों तरह के वैरिएंट में उपलब्ध हैं. Gemma 4 में 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करता है.
Gemma 4 में डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (MoE) आर्किटेक्चर, दोनों शामिल हैं. यह टेक्स्ट जनरेट करने, कोडिंग करने, और रीज़निंग जैसे कामों के लिए सबसे सही है. ये मॉडल पांच अलग-अलग साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 26B A4B, और 31B. इनके अलग-अलग साइज़ की वजह से, इन्हें महंगे फ़ोन से लेकर लैपटॉप और सर्वर तक, हर तरह के डिवाइस पर इस्तेमाल किया जा सकता है. इससे, अत्याधुनिक एआई को सभी के लिए उपलब्ध कराया जा सकता है.
Gemma 4 में बेहतर सुविधाएं और आर्किटेक्चर से जुड़ी नई टेक्नोलॉजी शामिल की गई हैं:
वजह – इस फ़ैमिली के सभी मॉडल को, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किया गया है. साथ ही, इनमें सोचने के तरीके को कॉन्फ़िगर किया जा सकता है.
एक्सटेंडेड मल्टीमॉडल – यह टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल पर नेटिव तौर पर इस्तेमाल किया जा सकता है.
अलग-अलग और असरदार आर्किटेक्चर – इसमें अलग-अलग साइज़ के डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) वैरिएंट उपलब्ध हैं, ताकि इन्हें आसानी से डिप्लॉय किया जा सके.
डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया गया है – छोटे मॉडल खास तौर पर लैपटॉप और मोबाइल डिवाइसों पर बेहतर तरीके से काम करने के लिए डिज़ाइन किए गए हैं.
कॉन्टेक्स्ट विंडो में बढ़ोतरी – छोटे मॉडल में 1.28 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है.
बेहतर कोडिंग और एजेंटिक क्षमताएँ – कोडिंग के बेंचमार्क में काफ़ी सुधार करती है. साथ ही, नेटिव फ़ंक्शन-कॉलिंग की सुविधा देती है, जिससे ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट काम कर पाते हैं.
सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट – Gemma 4 में,
systemभूमिका के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
मॉडल के बारे में खास जानकारी
Gemma 4 मॉडल को हर साइज़ में, सबसे बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. ये मॉडल, मोबाइल और एज डिवाइस (E2B, E4B) से लेकर उपभोक्ता के जीपीयू और वर्कस्टेशन (12B, 26B A4B, 31B) तक के डिप्लॉयमेंट के अलग-अलग उदाहरणों को टारगेट करते हैं. ये मॉडल, गहराई से विश्लेषण, एजेंटिक वर्कफ़्लो, कोडिंग, और टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाले मॉडल को समझने के लिए सबसे सही हैं.
इन मॉडल में हाइब्रिड अटेंशन मैकेनिज़्म का इस्तेमाल किया जाता है. इसमें लोकल स्लाइडिंग विंडो अटेंशन को फ़ुल ग्लोबल अटेंशन के साथ इंटरलीव किया जाता है. इससे यह पक्का होता है कि फ़ाइनल लेयर हमेशा ग्लोबल हो. इस हाइब्रिड डिज़ाइन की मदद से, मुश्किल और लंबे कॉन्टेक्स्ट वाले टास्क के लिए ज़रूरी जानकारी को बनाए रखते हुए, हल्के मॉडल की प्रोसेसिंग स्पीड और कम मेमोरी फ़ुटप्रिंट मिलता है. लंबे कॉन्टेक्स्ट के लिए मेमोरी को ऑप्टिमाइज़ करने के लिए, ग्लोबल लेयर की सुविधा में यूनिफ़ाइड कुंजियां और वैल्यू होती हैं. साथ ही, इसमें प्रोपोर्शनल RoPE (p-RoPE) लागू होता है.
डेंस मॉडल
| प्रॉपर्टी | E2B | E4B | 12B यूनिफ़ाइड | 31B Dense |
|---|---|---|---|---|
| कुल पैरामीटर | 2.3B पैरामीटर (एम्बेडिंग के साथ 5.1B) | 4.5 अरब पैरामीटर (एम्बेडिंग के साथ 8 अरब) | 11.95B | 30.7 अरब |
| लेयर | 35 | 42 | 48 | 60 |
| स्लाइडिंग विंडो | 512 टोकन | 512 टोकन | 1024 टोकन | 1024 टोकन |
| कॉन्टेक्स्ट की लंबाई | 1,28,000 टोकन | 1,28,000 टोकन | 2,56,000 टोकन | 2,56,000 टोकन |
| शब्दावली का साइज़ | 262K | 262K | 262K | 262K |
| इस्तेमाल की जा सकने वाली सुविधाएं | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज |
| विज़न एनकोडर पैरामीटर | ~15 करोड़ | ~15 करोड़ | - | ~55 करोड़ |
| ऑडियो एन्कोडर पैरामीटर | ~30 करोड़ | ~30 करोड़ | - | कोई ऑडियो नहीं |
E2B और E4B में "E" का मतलब "इफ़ेक्टिव" पैरामीटर होता है. छोटे मॉडल, उपयोगकर्ता के डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की क्षमता को बढ़ाने के लिए, पर-लेयर एम्बेडिंग (पीएलई) को शामिल करते हैं. मॉडल में ज़्यादा लेयर या पैरामीटर जोड़ने के बजाय, पीएलई हर टोकन के लिए, हर डिकोडर लेयर को अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तेज़ी से लुकअप करने के लिए किया जाता है. इसलिए, असरदार पैरामीटर की संख्या कुल संख्या से बहुत कम होती है.
Gemma 4 12B Unified में "Unified" का मतलब है कि इसमें एनकोडर-फ़्री आर्किटेक्चर का इस्तेमाल किया गया है. Gemma 4 के अन्य मॉडल, मल्टीमॉडल डेटा को प्रोसेस करने के लिए खास तौर पर बनाए गए एनकोडर का इस्तेमाल करते हैं. इसके बाद, वे इस डेटा को एलएलएम को भेजते हैं. Gemma 4 12B, इन एनकोडर को पूरी तरह से हटा देता है. यह रॉ इमेज पैच और ऑडियो वेवफ़ॉर्म को सीधे तौर पर एलएलएम के एम्बेडिंग स्पेस में प्रोजेक्ट करता है. इसके लिए, हल्के लीनियर लेयर का इस्तेमाल किया जाता है. इस यूनिफ़ाइड अप्रोच का मतलब है कि सभी मोडैलिटी सीधे तौर पर सिर्फ़ एक डिकोडर-ओनली ट्रांसफ़ॉर्मर में जाती हैं. इससे मल्टीमॉडल लेटेंसी कम हो जाती है और पूरे मॉडल को एक ही पास में फ़ाइन-ट्यून किया जा सकता है.
Mixture-of-Experts (MoE) मॉडल
| प्रॉपर्टी | 26B A4B MoE |
|---|---|
| कुल पैरामीटर | 25.2B |
| ऐक्टिव पैरामीटर | 3.8B |
| लेयर | 30 |
| स्लाइडिंग विंडो | 1024 टोकन |
| कॉन्टेक्स्ट की लंबाई | 2,56,000 टोकन |
| शब्दावली का साइज़ | 262K |
| एक्सपर्ट की संख्या | 8 चालू / 128 कुल और 1 शेयर किया गया |
| इस्तेमाल की जा सकने वाली सुविधाएं | टेक्स्ट, इमेज |
| विज़न एनकोडर पैरामीटर | ~55 करोड़ |
26B A4B में "A" का मतलब "ऐक्टिव पैरामीटर" है. यह मॉडल में मौजूद पैरामीटर की कुल संख्या से अलग है. इन्फ़रेंस के दौरान सिर्फ़ 400 करोड़ पैरामीटर के सबसेट को चालू करके, Mixture-of-Experts मॉडल, 2,600 करोड़ पैरामीटर वाले मॉडल की तुलना में बहुत तेज़ी से काम करता है. इसलिए, यह 31B मॉडल की तुलना में तेज़ इनफ़्रेंस के लिए एक बेहतरीन विकल्प है. इसकी वजह यह है कि यह 4B-पैरामीटर मॉडल की तरह ही तेज़ी से काम करता है.
मानदंड के नतीजे
इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में मार्क किए गए आकलन के नतीजे, निर्देश के मुताबिक तैयार किए गए मॉडल के लिए हैं.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B यूनिफ़ाइड | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (सोचने की सुविधा नहीं है) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 77.2% | 69.4% | 60% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 77.5% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 72.0% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 78.8% | 58.6% | 43.4% | 42.4% |
| Tau2 (औसत 3 से ज़्यादा) | 76.9% | 68.2% | 69.0% | 42.2% | 24.5% | 16.2% |
| HLE no tools | 19.5% | 8.7% | 5.2% | - | - | - |
| खोज की सुविधा के साथ एचएलई | 26.5% | 17.2% | - | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 53.0% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 83.4% | 76.6% | 67.4% | 70.7% |
| देखने से जुड़ी समस्या वाले लोगों के लिए सुलभता सुविधाएं | ||||||
| MMMU Pro | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर) | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 79.7% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 48.7% | 28.7% | 23.5% | - |
| ऑडियो | ||||||
| CoVoST | - | - | 38.5* | 35.54 | 33.47 | - |
| FLEURS (कम स्कोर बेहतर होता है) | - | - | 0.069* | 0.08 | 0.09 | - |
| ज़्यादा कॉन्टेक्स्ट वाली विंडो | ||||||
| MRCR v2 8 नीडल 128k (औसत) | 66.4% | 44.1% | 43.4% | 25.4% | 19.1% | 13.5% |
*इसमें चाइनीज़ भाषा शामिल नहीं है.
मुख्य सुविधाएं
Gemma 4 मॉडल, टेक्स्ट, विज़न, और ऑडियो से जुड़े कई तरह के काम कर सकते हैं. मुख्य सुविधाओं में ये शामिल हैं:
- सोचना – यह एक बिल्ट-इन रीज़निंग मोड है. इससे मॉडल को जवाब देने से पहले, एक-एक करके सोचने का मौका मिलता है.
- ज़्यादा कॉन्टेक्स्ट वाली विंडो – 1.28 लाख टोकन (E2B/E4B) और 2.56 लाख टोकन (12B/26B A4B/31B) तक की कॉन्टेक्स्ट विंडो.
- इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
- वीडियो को समझना – फ़्रेम के क्रम को प्रोसेस करके वीडियो का विश्लेषण करना.
- टेक्स्ट और इमेज के बेहतरीन सीक्वेंस वाला मल्टीमोडल इनपुट – एक ही प्रॉम्प्ट में, टेक्स्ट और इमेज को किसी भी क्रम में आसानी से मिक्स करें.
- फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
- कोडिंग – कोड जनरेट करना, उसे पूरा करना, और उसमें सुधार करना.
- कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ही ट्रेन किया गया है.
- ऑडियो (सिर्फ़ E2B, E4B, और 12B Unified के लिए) – ऑटोमैटिक तरीके से बोली की पहचान करना (एएसआर) और बोली को अनुवादित टेक्स्ट में बदलने की सुविधा, कई भाषाओं में उपलब्ध है.
सबसे सही तरीके
बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:
1. सैंपलिंग पैरामीटर
इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:
temperature=1.0top_p=0.95top_k=64
2. सूझ-बूझ वाले मोड का कॉन्फ़िगरेशन
Gemma 3 की तुलना में, इन मॉडल में स्टैंडर्ड system, assistant, और user
भूमिकाओं का इस्तेमाल किया जाता है. सोचने की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:
- सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में
<|think|>टोकन शामिल करके, सोचने की सुविधा को चालू किया जाता है. सोचने की सुविधा बंद करने के लिए, टोकन हटाएं. - स्टैंडर्ड जनरेशन: थिंकिंग मोड चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, जवाब देने के लिए इस्तेमाल की गई अपनी इंटरनल प्रोसेस और फिर फ़ाइनल जवाब देगा:
<|channel>thought\n[इंटरनल प्रोसेस]<channel|> - सोचने की सुविधा बंद होने पर: E2B और E4B वर्शन को छोड़कर, सभी मॉडल के लिए सोचने की सुविधा बंद होने पर भी मॉडल टैग जनरेट करेगा. हालाँकि, इसमें 'सोचें' ब्लॉक खाली होगा:
<|channel>thought\n<channel|>[फ़ाइनल जवाब]
ध्यान दें कि Transformers और llama.cpp जैसी कई लाइब्रेरी, चैट टेम्प्लेट की जटिलताओं को आपके लिए मैनेज करती हैं.
3. एक से ज़्यादा बार की जाने वाली बातचीत
- इतिहास में सोचने से जुड़ा कॉन्टेंट नहीं होना चाहिए: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ आखिरी जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों में शामिल 'सोच' वाले हिस्से को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.
4. मोडेलिटी का क्रम
मल्टीमॉडल इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, ये काम करें:
- आपके प्रॉम्प्ट में मौजूद टेक्स्ट से पहले इमेज कॉन्टेंट.
- आपके प्रॉम्प्ट में मौजूद टेक्स्ट के बाद का ऑडियो कॉन्टेंट.
5. इमेज के रिज़ॉल्यूशन के अलग-अलग विकल्प
अलग-अलग पहलू अनुपात के अलावा, Gemma 4 में इमेज के अलग-अलग रिज़ॉल्यूशन का इस्तेमाल किया जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, ज़्यादा कंप्यूटिंग की कीमत पर ज़्यादा विज़ुअल जानकारी मिलती है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए बारीकी से समझने की ज़रूरत नहीं होती.
- इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और
1120.
- क्लासिफ़िकेशन, कैप्शनिंग या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा फ़्रेम को तेज़ी से प्रोसेस करने और अनुमान लगाने को ज़्यादा अहमियत दी जाती है.
- ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.
6. ऑडियो
ऑडियो प्रोसेसिंग के लिए, यहां दिए गए प्रॉम्प्ट स्ट्रक्चर इस्तेमाल करें:
- ऑडियो से बोली पहचानने की सुविधा (एएसआर)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- ऑटोमैटिक स्पीच ट्रांसलेशन (एएसटी)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. ऑडियो और वीडियो की अवधि
सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. हालांकि, E2B, E4B, और 12B मॉडल, ऑडियो इनपुट के साथ भी काम करते हैं. ऑडियो की अवधि ज़्यादा से ज़्यादा 30 सेकंड हो सकती है. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड होनी चाहिए. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड पर प्रोसेस किया जाए.
मॉडल डेटा
मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.
ट्रेनिंग के लिए डेटासेट
प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, अलग-अलग तरह के डेटा का एक बड़ा कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटा को जनवरी 2025 तक इकट्ठा किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:
- वेब दस्तावेज़: वेब टेक्स्ट के अलग-अलग कलेक्शन से यह पक्का होता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में जानकारी मिले. ट्रेनिंग डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
- कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
- गणित: गणित के टेक्स्ट की ट्रेनिंग देने से, मॉडल को तार्किक तर्क, सिंबॉलिक रिप्रेजेंटेशन, और गणित की क्वेरी हल करने में मदद मिलती है.
- इमेज: अलग-अलग तरह की इमेज से, मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने के टास्क पूरे करने में मदद मिलती है.
इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.
डेटा प्रीप्रोसेसिंग
ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:
- सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रोसेस लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
- संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया जा सका.
- अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.
नैतिकता और सुरक्षा
ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. Gemma 4 को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, हमारे मालिकाना हक वाले Gemini मॉडल की तरह ही किया जाता है.
आकलन का तरीका
Gemma 4 मॉडल को, सुरक्षा और ज़िम्मेदारी के साथ एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर बनाया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल, दोनों तरीकों से कई बार आकलन किया गया. ये आकलन, Google के एआई से जुड़े सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक किए जाते हैं. इनका मकसद, हमारे जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:
- बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
- खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे असल ज़िंदगी में नुकसान पहुंच सकता है)
- साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
- नफ़रत फैलाने वाली भाषा (जैसे, सुरक्षित ग्रुप के सदस्यों के साथ अमानवीय बर्ताव करना)
- उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)
मूल्यांकन के नतीजे
सुरक्षा से जुड़ी सभी जांचों में, हमने कॉन्टेंट की सुरक्षा की सभी कैटगरी में, Gemma के पिछले मॉडल की तुलना में काफ़ी सुधार देखे. कुल मिलाकर, Gemma 4 मॉडल, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर हैं. साथ ही, ये बिना किसी वजह के जवाब देने से मना नहीं करते. मॉडल की क्षमताओं और व्यवहारों का आकलन करने के लिए, सभी टेस्टिंग बिना सुरक्षा फ़िल्टर के की गई थी. टेक्स्ट प्रॉम्प्ट से टेक्स्ट जनरेट होने की प्रोसेस और इमेज टू टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ के लिए, मॉडल ने नीति का उल्लंघन बहुत कम किए. साथ ही, पिछले Gemma मॉडल की परफ़ॉर्मेंस के मुकाबले, इसमें काफ़ी सुधार देखने को मिला.
इस्तेमाल और सीमाएं
इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.
इस्तेमाल का मकसद
मल्टीमॉडल मॉडल (जो विज़न, भाषा, और/या ऑडियो को प्रोसेस कर सकते हैं) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी इस्तेमाल शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में जानकारी देना है जिनके बारे में मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान सोचा था.
- कॉन्टेंट बनाना और कम्यूनिकेट करना
- टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाना.
- टेक्स्ट की खास जानकारी जनरेट करना: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करना.
- इमेज से डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, समझने, और उसकी खास जानकारी देने के लिए किया जा सकता है.
- ऑडियो प्रोसेसिंग और इंटरैक्शन: E2B, E4B, और 12B मॉडल, ऑडियो इनपुट का विश्लेषण और व्याख्या कर सकते हैं. इससे, आवाज़ से इंटरैक्ट करने और ट्रांसक्रिप्शन की सुविधा मिलती है.
- रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, रिसर्च करने वालों के लिए एक आधार के तौर पर काम कर सकते हैं. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण ठीक करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
- जानकारी एक्सप्लोर करना: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.
सीमाएं
- ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
- ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
- कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन कामों को बेहतर तरीके से पूरा करते हैं जिनके लिए साफ़ तौर पर प्रॉम्प्ट और निर्देश दिए गए हों. ऐसे टास्क जिनमें कई तरह के जवाब दिए जा सकते हैं या जो बहुत मुश्किल हैं उन्हें पूरा करने में समस्या आ सकती है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर आउटपुट मिलते हैं. हालांकि, ऐसा एक तय सीमा तक ही होता है.
- भाषा से जुड़ी अस्पष्टता और बारीकियां
- नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
- तथ्यों का सही होना
- मॉडल, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, ये मॉडल नॉलेज बेस नहीं होते. ऐसा हो सकता है कि वे तथ्यों के बारे में गलत या पुरानी जानकारी दें.
- Common Sense
- मॉडल, भाषा में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में, वे सामान्य ज्ञान का इस्तेमाल न कर पाएं.
नैतिक तौर पर अहम बातें और जोखिम
विजन-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:
- पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. इस कार्ड में दी गई जानकारी के मुताबिक, Gemma 4 मॉडल की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उनका आकलन किया गया, ताकि इन पूर्वाग्रहों के जोखिम को कम किया जा सके.
- गलत जानकारी और गलत इस्तेमाल
- VLMs का गलत इस्तेमाल करके, ऐसा टेक्स्ट जनरेट किया जा सकता है जो गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
- मॉडल का ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. इसके लिए, ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने से जुड़ा टूलकिट देखें.
- पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किए गए ओपन मॉडल से, इनोवेशन को शेयर करने का मौका मिलता है. इससे एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस करना आसान हो जाता है.
पहचाने गए जोखिम और उन्हें कम करने के तरीके:
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करते समय सावधानी बरतें.
- नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाओं और डेवलपर और उपयोगकर्ता की शिक्षा से मदद मिल सकती है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
- निजता का उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटा दिया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता से जुड़े कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
- पूर्वाग्रहों को बढ़ावा मिलना: मॉडल की ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के मामलों के दौरान, लगातार निगरानी करने का सुझाव दिया जाता है. इसके लिए, आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा करने का इस्तेमाल करें. साथ ही, पूर्वाग्रहों को कम करने की तकनीकों का पता लगाएं.
फ़ायदे
रिलीज़ के समय, मॉडल के इस फ़ैमिली में बेहतर परफ़ॉर्म करने वाले ओपन विज़न-लैंग्वेज मॉडल उपलब्ध हैं. इन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, शुरू से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर हैं.