
Hugging Face |
GitHub |
लॉन्च ब्लॉग |
दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind
Gemma, Google DeepMind के बनाए गए ओपन मॉडल का एक परिवार है. Gemma 4 मॉडल, मल्टीमॉडल हैं. ये टेक्स्ट और इमेज इनपुट को प्रोसेस कर सकते हैं. साथ ही, टेक्स्ट आउटपुट जनरेट कर सकते हैं. E2B, E4B, और 12B मॉडल में ऑडियो इनपुट को प्रोसेस करने की सुविधा भी उपलब्ध है. इस रिलीज़ में, ओपन-वेट मॉडल शामिल हैं. ये मॉडल, पहले से ट्रेन किए गए और निर्देश के मुताबिक फ़ाइन-ट्यून किए गए, दोनों तरह के वैरिएंट में उपलब्ध हैं. Gemma 4 में 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करता है.
Gemma 4 में डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (MoE) आर्किटेक्चर, दोनों शामिल हैं. यह टेक्स्ट जनरेट करने, कोडिंग करने, और रीज़निंग जैसे कामों के लिए सबसे सही है. ये मॉडल पांच अलग-अलग साइज़ में उपलब्ध हैं: E2B, E4B, 12B, 26B A4B, और 31B. इनके अलग-अलग साइज़ की वजह से, इन्हें महंगे फ़ोन से लेकर लैपटॉप और सर्वर तक, हर तरह के डिवाइस पर इस्तेमाल किया जा सकता है. इससे, अत्याधुनिक एआई को सभी के लिए उपलब्ध कराया जा सकता है.
Gemma 4 में, बेहतर सुविधाएं और आर्किटेक्चर से जुड़ी नई टेक्नोलॉजी शामिल की गई हैं:
तर्क करने की क्षमता – इस फ़ैमिली के सभी मॉडल, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किए गए हैं. इनमें सोचने के मोड को कॉन्फ़िगर किया जा सकता है.
एक्सटेंडेड मल्टीमॉडल – यह टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B, E4B, और 12B मॉडल पर नेटिव तौर पर इस्तेमाल किया जा सकता है.
अलग-अलग और असरदार आर्किटेक्चर – इसमें बड़े पैमाने पर डिप्लॉयमेंट के लिए, अलग-अलग साइज़ के डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) वैरिएंट उपलब्ध हैं.
डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया गया है – छोटे मॉडल को खास तौर पर लैपटॉप और मोबाइल डिवाइसों पर बेहतर तरीके से काम करने के लिए डिज़ाइन किया गया है.
कॉन्टेक्स्ट विंडो का साइज़ बढ़ा – छोटे मॉडल में 1.28 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो होती है.
बेहतर कोडिंग और एजेंटिक क्षमताएँ – कोडिंग के बेंचमार्क में काफ़ी सुधार करती है. साथ ही, नेटिव फ़ंक्शन-कॉलिंग की सुविधा देती है, जिससे ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट काम कर पाते हैं.
सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट – Gemma 4 में,
systemभूमिका के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.
मॉडल के बारे में खास जानकारी
Gemma 4 मॉडल को हर साइज़ में, बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. ये मोबाइल और एज डिवाइस (E2B, E4B) से लेकर उपभोक्ता जीपीयू और वर्कस्टेशन (12B, 26B A4B, 31B) तक के डिप्लॉयमेंट के अलग-अलग तरीकों को टारगेट करते हैं. ये गहराई से विश्लेषण, एजेंटिक वर्कफ़्लो, कोडिंग, और टेक्स्ट, इमेज वग़ैरह को समझने के लिए सबसे सही हैं.
इन मॉडल में हाइब्रिड अटेंशन मैकेनिज़्म का इस्तेमाल किया जाता है. इसमें लोकल स्लाइडिंग विंडो अटेंशन को फ़ुल ग्लोबल अटेंशन के साथ इंटरलीव किया जाता है. इससे यह पक्का होता है कि फ़ाइनल लेयर हमेशा ग्लोबल हो. यह हाइब्रिड डिज़ाइन, प्रोसेसिंग की तेज़ स्पीड और कम मेमोरी फ़ुटप्रिंट देता है. साथ ही, यह जटिल और लंबे कॉन्टेक्स्ट वाले टास्क के लिए ज़रूरी डीप लर्निंग को भी बनाए रखता है. लंबे कॉन्टेक्स्ट के लिए मेमोरी को ऑप्टिमाइज़ करने के लिए, ग्लोबल लेयर की सुविधा में यूनिफ़ाइड की और वैल्यू होती हैं. साथ ही, इसमें प्रोपोर्शनल RoPE (p-RoPE) लागू होता है.
डेंस मॉडल
| प्रॉपर्टी | E2B | E4B | 12B यूनिफ़ाइड | 31B Dense |
|---|---|---|---|---|
| कुल पैरामीटर | 2.3B पैरामीटर (एम्बेडिंग के साथ 5.1B) | 4.5 अरब पैरामीटर (एम्बेडिंग के साथ 8 अरब) | 11.95B | 30.7 अरब |
| लेयर | 35 | 42 | 48 | 60 |
| स्लाइडिंग विंडो | 512 टोकन | 512 टोकन | 1024 टोकन | 1024 टोकन |
| कॉन्टेक्स्ट की लंबाई | 1,28,000 टोकन | 1,28,000 टोकन | 2,56,000 टोकन | 2,56,000 टोकन |
| शब्दावली का साइज़ | 262K | 262K | 262K | 262K |
| इस्तेमाल की जा सकने वाली सुविधाएं | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज, ऑडियो | टेक्स्ट, इमेज |
| विज़न एनकोडर पैरामीटर | ~15 करोड़ | ~15 करोड़ | - | ~55 करोड़ |
| ऑडियो एन्कोडर पैरामीटर | ~30 करोड़ | ~30 करोड़ | - | कोई ऑडियो नहीं |
E2B और E4B में "E" का मतलब "इफ़ेक्टिव" पैरामीटर होता है. छोटे मॉडल, उपयोगकर्ता के डिवाइस पर डिप्लॉयमेंट के दौरान पैरामीटर की क्षमता को बढ़ाने के लिए, पर-लेयर एम्बेडिंग (पीएलई) को शामिल करते हैं. मॉडल में ज़्यादा लेयर या पैरामीटर जोड़ने के बजाय, पीएलई हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तेज़ी से लुकअप करने के लिए किया जाता है. इसलिए, असरदार पैरामीटर की संख्या कुल संख्या से बहुत कम होती है.
Gemma 4 12B Unified में "Unified" का मतलब, इसके एनकोडर-फ़्री आर्किटेक्चर से है. Gemma 4 के अन्य मॉडल, मल्टीमॉडल डेटा को प्रोसेस करने के लिए खास एनकोडर का इस्तेमाल करते हैं. इसके बाद, वे इसे एलएलएम को पास करते हैं. Gemma 4 12B में इन एनकोडर को पूरी तरह से हटा दिया गया है. यह सीधे तौर पर इमेज पैच और ऑडियो वेवफ़ॉर्म को एलएलएम के एम्बेडिंग स्पेस में प्रोजेक्ट करता है. इसके लिए, हल्के लीनियर लेयर का इस्तेमाल किया जाता है. इस यूनिफ़ाइड अप्रोच का मतलब है कि सभी मोडैलिटी सीधे तौर पर सिर्फ़ एक डिकोडर वाले ट्रांसफ़ॉर्मर में जाती हैं. इससे मल्टीमॉडल लेटेन्सी कम हो जाती है और पूरे मॉडल को एक बार में फ़ाइन-ट्यून किया जा सकता है.
Mixture-of-Experts (MoE) मॉडल
| प्रॉपर्टी | 26B A4B MoE |
|---|---|
| कुल पैरामीटर | 25.2B |
| ऐक्टिव पैरामीटर | 3.8B |
| लेयर | 30 |
| स्लाइडिंग विंडो | 1024 टोकन |
| कॉन्टेक्स्ट की लंबाई | 2,56,000 टोकन |
| शब्दावली का साइज़ | 262K |
| एक्सपर्ट की संख्या | 8 चालू / 128 कुल और 1 शेयर की गई |
| इस्तेमाल की जा सकने वाली सुविधाएं | टेक्स्ट, इमेज |
| विज़न एनकोडर पैरामीटर | ~55 करोड़ |
26B A4B में "A" का मतलब "ऐक्टिव पैरामीटर" है. यह मॉडल में मौजूद पैरामीटर की कुल संख्या से अलग है. इन्फ़रेंस के दौरान सिर्फ़ 400 करोड़ पैरामीटर के सबसेट को चालू करके, Mixture-of-Experts मॉडल, 2,600 करोड़ पैरामीटर वाले मॉडल की तुलना में बहुत तेज़ी से काम करता है. इसलिए, यह 31B मॉडल की तुलना में तेज़ इनफ़रेंस के लिए एक बेहतरीन विकल्प है. इसकी वजह यह है कि यह 4B-पैरामीटर मॉडल की तरह ही तेज़ी से काम करता है.
मानदंड के नतीजे
इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में मार्क किए गए आकलन के नतीजे, निर्देश के मुताबिक तैयार किए गए मॉडल के लिए हैं.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B यूनिफ़ाइड | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (सोचने की सुविधा नहीं है) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 77.2% | 69.4% | 60% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 77.5% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 72.0% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 78.8% | 58.6% | 43.4% | 42.4% |
| Tau2 (औसत 3 से ज़्यादा) | 76.9% | 68.2% | 69.0% | 42.2% | 24.5% | 16.2% |
| HLE no tools | 19.5% | 8.7% | 5.2% | - | - | - |
| खोज की सुविधा के साथ एचएलई | 26.5% | 17.2% | - | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 53.0% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 83.4% | 76.6% | 67.4% | 70.7% |
| देखने से जुड़ी समस्या वालों के लिए सुलभता सुविधाएं | ||||||
| MMMU Pro | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर) | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 79.7% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 48.7% | 28.7% | 23.5% | - |
| ऑडियो | ||||||
| CoVoST | - | - | 38.5 | 35.54 | 33.47 | - |
| FLEURS (कम स्कोर बेहतर होता है) | - | - | 0.069 | 0.08 | 0.09 | - |
| ज़्यादा कॉन्टेक्स्ट वाली विंडो | ||||||
| MRCR v2 8 सुई 128k (औसत) | 66.4% | 44.1% | 43.4% | 25.4% | 19.1% | 13.5% |
मुख्य सुविधाएं
Gemma 4 मॉडल, टेक्स्ट, विज़न, और ऑडियो से जुड़े कई तरह के टास्क पूरे कर सकते हैं. मुख्य सुविधाओं में ये शामिल हैं:
- सोचना – यह एक बिल्ट-इन तर्क मोड है. इससे मॉडल को जवाब देने से पहले, चरण-दर-चरण सोचने का मौका मिलता है.
- ज़्यादा कॉन्टेक्स्ट वाली विंडो – 1.28 लाख टोकन (E2B/E4B) और 2.56 लाख टोकन (12B/26B A4B/31B) तक की कॉन्टेक्स्ट विंडो.
- इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
- वीडियो को समझना – फ़्रेम के क्रम को प्रोसेस करके वीडियो का विश्लेषण करना.
- टेक्स्ट और इमेज के बेहतरीन सीक्वेंस वाला मल्टीमोडल इनपुट – एक ही प्रॉम्प्ट में, टेक्स्ट और इमेज को किसी भी क्रम में आसानी से मिक्स करें.
- फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
- कोडिंग – कोड जनरेट करना, उसे पूरा करना, और उसमें सुधार करना.
- कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ट्रेन किया गया है.
- ऑडियो (सिर्फ़ E2B, E4B, और 12B Unified के लिए) – ऑटोमैटिक तरीके से बोली की पहचान करना (एएसआर) और बोली को अनुवादित टेक्स्ट में बदलने की सुविधा, कई भाषाओं में उपलब्ध है.
सबसे सही तरीके
बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:
1. सैंपलिंग पैरामीटर
इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:
temperature=1.0top_p=0.95top_k=64
2. सूझ-बूझ वाले मोड का कॉन्फ़िगरेशन
Gemma 3 की तुलना में, ये मॉडल स्टैंडर्ड system, assistant, और user भूमिकाओं का इस्तेमाल करते हैं. सोच-विचार की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:
- सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में
<|think|>टोकन शामिल करके, सोचने की सुविधा चालू की जाती है. इस सुविधा को बंद करने के लिए, टोकन हटाएं. - स्टैंडर्ड जनरेशन: थिंकिंग की सुविधा चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, जवाब देने के लिए अपनी इंटरनल लॉजिक और फ़ाइनल जवाब को आउटपुट करेगा:
<|channel>thought\n[इंटरनल लॉजिक]<channel|> - सोचने की सुविधा बंद होने पर व्यवहार: E2B और E4B वैरिएंट को छोड़कर, सभी मॉडल के लिए सोचने की सुविधा बंद होने पर भी मॉडल टैग जनरेट करेगा. हालाँकि, इसमें 'सोचें' ब्लॉक खाली होगा:
<|channel>thought\n<channel|>[फ़ाइनल जवाब]
ध्यान दें कि Transformers और llama.cpp जैसी कई लाइब्रेरी, चैट टेम्प्लेट की जटिलताओं को आपके लिए मैनेज करती हैं.
3. एक से ज़्यादा बार की जाने वाली बातचीत
- इतिहास में सोचने से जुड़ा कॉन्टेंट शामिल न हो: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ फ़ाइनल जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों में शामिल 'सोच' वाले हिस्से को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.
4. मोडेलिटी का क्रम
मल्टीमॉडल इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, ये काम करें:
- आपके प्रॉम्प्ट में मौजूद टेक्स्ट से पहले इमेज कॉन्टेंट.
- आपके प्रॉम्प्ट में मौजूद टेक्स्ट के बाद का ऑडियो कॉन्टेंट.
5. इमेज के रिज़ॉल्यूशन के अलग-अलग विकल्प
अलग-अलग पहलू अनुपात के अलावा, Gemma 4 में इमेज के अलग-अलग रिज़ॉल्यूशन का इस्तेमाल किया जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, ज़्यादा कंप्यूटिंग पावर का इस्तेमाल करके इमेज की ज़्यादा जानकारी को सुरक्षित रखा जा सकता है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए ज़्यादा जानकारी की ज़रूरत नहीं होती.
- इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और
1120.
- क्लासिफ़िकेशन, कैप्शनिंग या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा फ़्रेम को तेज़ी से प्रोसेस करने और अनुमान लगाने को ज़्यादा अहमियत दी जाती है.
- ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.
6. ऑडियो
ऑडियो प्रोसेसिंग के लिए, यहां दिए गए प्रॉम्प्ट स्ट्रक्चर इस्तेमाल करें:
- ऑडियो से बोली की पहचान करने की सुविधा (एएसआर)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- ऑटोमैटिक स्पीच ट्रांसलेशन (एएसटी)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. ऑडियो और वीडियो की अवधि
सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. हालांकि, E2B, E4B, और 12B मॉडल, ऑडियो इनपुट के साथ भी काम करते हैं. ऑडियो की अवधि ज़्यादा से ज़्यादा 30 सेकंड हो सकती है. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड होनी चाहिए. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड पर प्रोसेस किया जाए.
मॉडल डेटा
मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.
ट्रेनिंग के लिए डेटासेट
प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, बड़े पैमाने पर अलग-अलग तरह के डेटा का कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटासेट को जनवरी 2025 तक अपडेट किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:
- वेब दस्तावेज़: वेब पर मौजूद अलग-अलग तरह के टेक्स्ट से, मॉडल को अलग-अलग तरह की भाषा शैली, विषयों, और शब्दावली के बारे में जानकारी मिलती है. ट्रेनिंग के लिए इस्तेमाल किए गए डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
- कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
- गणित: गणित के टेक्स्ट की ट्रेनिंग देने से, मॉडल को तार्किक तर्क, सिंबॉलिक प्रज़ेंटेशन, और गणित से जुड़ी क्वेरी को हल करने में मदद मिलती है.
- इमेज: अलग-अलग तरह की इमेज से, मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने के टास्क पूरे करने में मदद मिलती है.
इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.
डेटा प्रीप्रोसेसिंग
ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:
- सीएसएएम कॉन्टेंट को फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रक्रिया लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
- संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया जा सका.
- अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.
नैतिकता और सुरक्षा
ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. Gemma 4 को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, हमारे मालिकाना हक वाले Gemini मॉडल की तरह ही किया जाता है.
आकलन का तरीका
Gemma 4 मॉडल को, सुरक्षा और ज़िम्मेदारी के साथ एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर बनाया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल, दोनों तरीकों से कई बार आकलन किया गया. ये आकलन, Google के एआई से जुड़े सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक किए जाते हैं. इनका मकसद, हमारे जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:
- बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
- खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे असल ज़िंदगी में नुकसान पहुंच सकता है)
- साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
- नफ़रत फैलाने वाली भाषा (जैसे, सुरक्षित ग्रुप के सदस्यों के साथ अमानवीय बर्ताव करना)
- उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)
मूल्यांकन के नतीजे
सुरक्षा से जुड़ी सभी जांचों में, हमने कॉन्टेंट की सुरक्षा की सभी कैटगरी में, Gemma के पिछले मॉडल की तुलना में काफ़ी सुधार देखे. कुल मिलाकर, Gemma 4 मॉडल, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर हैं. साथ ही, ये बिना किसी वजह के जवाब देने से मना नहीं करते. मॉडल की क्षमताओं और व्यवहारों का आकलन करने के लिए, सभी टेस्टिंग बिना सुरक्षा फ़िल्टर के की गई थी. टेक्स्ट प्रॉम्प्ट से टेक्स्ट जनरेट होने की प्रोसेस और इमेज-टू-टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ में, मॉडल ने नीति के उल्लंघन बहुत कम किए. साथ ही, पिछले Gemma मॉडल की परफ़ॉर्मेंस के मुकाबले, इसमें काफ़ी सुधार देखने को मिला.
इस्तेमाल और सीमाएं
इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.
इस्तेमाल का मकसद
मल्टीमॉडल मॉडल (देखने, भाषा, और/या ऑडियो को प्रोसेस करने की क्षमता रखने वाले) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में कई तरह से किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची पूरी नहीं है. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन पर मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान विचार किया था.
- कॉन्टेंट बनाना और कम्यूनिकेट करना
- टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाना.
- टेक्स्ट की खास जानकारी जनरेट करना: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करना.
- इमेज से डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, समझने, और उसकी खास जानकारी देने के लिए किया जा सकता है.
- ऑडियो प्रोसेसिंग और इंटरैक्शन: E2B, E4B, और 12B मॉडल, ऑडियो इनपुट का विश्लेषण और व्याख्या कर सकते हैं. इससे, आवाज़ से इंटरैक्ट करने और ट्रांसक्रिप्शन की सुविधा मिलती है.
- रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, रिसर्च करने वालों के लिए एक आधार के तौर पर काम कर सकते हैं. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण ठीक करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
- जानकारी एक्सप्लोर करना: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.
सीमाएं
- ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
- ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
- कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन टास्क को बेहतर तरीके से पूरा करते हैं जिनके लिए प्रॉम्प्ट और निर्देश साफ़ तौर पर दिए गए हों. हालांकि, ऐसे टास्क को पूरा करने में मुश्किल हो सकती है जिनमें सवाल साफ़ तौर पर न पूछा गया हो या जो बेहद मुश्किल हों.
- मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
- भाषा से जुड़ी अस्पष्टता और बारीकियां
- नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
- तथ्यों का सही होना
- मॉडल, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, वे नॉलेज बेस नहीं होते. वे तथ्यों के बारे में गलत या पुरानी जानकारी दे सकते हैं.
- सामान्य नियम
- मॉडल, भाषा में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में, वे सामान्य ज्ञान का इस्तेमाल न कर पाएं.
नैतिक तौर पर अहम बातें और जोखिम
विजन-लैंग्वेज मॉडल (वीएलएम) को डेवलप करने से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:
- पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. Gemma 4 मॉडल की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उनका आकलन किया गया. इस कार्ड में दी गई जानकारी के मुताबिक, इन पूर्वाग्रहों के जोखिम को कम करने के लिए ऐसा किया गया.
- गलत जानकारी और गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, ऐसा टेक्स्ट जनरेट किया जा सकता है जो गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
- मॉडल का ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. इसके लिए, ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने से जुड़ा टूलकिट देखें.
- पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ तैयार किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं को वीएलएम टेक्नोलॉजी उपलब्ध कराकर, इनोवेशन को शेयर करने का मौका देता है.
पहचाने गए जोखिम और उन्हें कम करने के तरीके:
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे सावधानी बरतें और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करें.
- नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाओं और डेवलपर और उपयोगकर्ता की शिक्षा से मदद मिल सकती है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
- निजता का उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटाया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता से जुड़े कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
- पूर्वाग्रहों को बढ़ावा मिलना: मॉडल की ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के मामलों के दौरान, लगातार निगरानी करने का सुझाव दिया जाता है. इसके लिए, आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा करने का इस्तेमाल करें. साथ ही, पूर्वाग्रहों को कम करने की तकनीकों का पता लगाएं.
फ़ायदे
रिलीज़ के समय, मॉडल के इस फ़ैमिली में बेहतर परफ़ॉर्म करने वाले ओपन विज़न-लैंग्वेज मॉडल उपलब्ध हैं. इन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, शुरू से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर हैं.