Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 मॉडल कार्ड

Gemma 4 Banner

Hugging Face | GitHub | लॉन्च ब्लॉग | दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind

Gemma, Google DeepMind के बनाए गए ओपन मॉडल का एक परिवार है. Gemma 4 मॉडल, टेक्स्ट और इमेज, दोनों तरह के इनपुट को प्रोसेस कर सकते हैं. छोटे मॉडल में ऑडियो भी प्रोसेस किया जा सकता है. साथ ही, ये मॉडल टेक्स्ट आउटपुट जनरेट करते हैं. इस रिलीज़ में, प्री-ट्रेन किए गए और निर्देश के मुताबिक फ़ाइन-ट्यून किए गए, दोनों तरह के ओपन-वेट मॉडल शामिल हैं. Gemma 4 में 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो होती है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करता है.

Gemma 4 में डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (MoE) आर्किटेक्चर, दोनों शामिल हैं. यह टेक्स्ट जनरेट करने, कोडिंग करने, और रीज़निंग जैसे कामों के लिए सबसे सही है. ये मॉडल चार अलग-अलग साइज़ में उपलब्ध हैं: E2B, E4B, 26B A4B, और 31B. इनके अलग-अलग साइज़ की वजह से, इन्हें हाई-एंड फ़ोन से लेकर लैपटॉप और सर्वर तक, हर तरह के एनवायरमेंट में डिप्लॉय किया जा सकता है. इससे, अत्याधुनिक एआई को ऐक्सेस करना आसान हो जाता है.

Gemma 4 में, बेहतर सुविधाएं और आर्किटेक्चर से जुड़ी नई टेक्नोलॉजी शामिल की गई हैं:

तर्क करने की क्षमता – इस फ़ैमिली के सभी मॉडल, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किए गए हैं. इनमें सोचने के मोड को कॉन्फ़िगर किया जा सकता है.
एक्सटेंडेड मल्टीमॉडल – यह टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B और E4B मॉडल पर नेटिव तौर पर इस्तेमाल किया जा सकता है.
अलग-अलग और असरदार आर्किटेक्चर – इसमें अलग-अलग साइज़ के डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) वैरिएंट उपलब्ध हैं, ताकि इन्हें आसानी से डिप्लॉय किया जा सके.
डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया गया है – छोटे मॉडल खास तौर पर लैपटॉप और मोबाइल डिवाइसों पर बेहतर तरीके से काम करने के लिए डिज़ाइन किए गए हैं.
बढ़ी हुई कॉन्टेक्स्ट विंडो – छोटे मॉडल में 1,28,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2,56,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है.
बेहतर कोडिंग और एजेंटिक क्षमताएँ – कोडिंग के बेंचमार्क में काफ़ी सुधार करती है. साथ ही, नेटिव फ़ंक्शन-कॉलिंग की सुविधा देती है, जिससे ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट काम कर पाते हैं.
सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट – Gemma 4 में, system भूमिका के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.

मॉडल के बारे में खास जानकारी

Gemma 4 के मॉडल को हर साइज़ में, बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. ये मॉडल, मोबाइल और एज डिवाइस (E2B, E4B) से लेकर उपभोक्ता जीपीयू और वर्कस्टेशन (26B A4B, 31B) तक के डिप्लॉयमेंट के अलग-अलग तरीकों को टारगेट करते हैं. ये मॉडल, तर्क करने, एजेंटिक वर्कफ़्लो, कोडिंग, और मल्टीमॉडल को समझने के लिए सबसे सही हैं.

इन मॉडल में हाइब्रिड अटेंशन मैकेनिज़्म का इस्तेमाल किया जाता है. यह लोकल स्लाइडिंग विंडो अटेंशन को फ़ुल ग्लोबल अटेंशन के साथ इंटरलीव करता है. इससे यह पक्का होता है कि फ़ाइनल लेयर हमेशा ग्लोबल हो. इस हाइब्रिड डिज़ाइन की मदद से, हल्के मॉडल की प्रोसेसिंग स्पीड और कम मेमोरी फ़ुटप्रिंट मिलता है. साथ ही, यह जटिल और लंबे कॉन्टेक्स्ट वाले टास्क के लिए ज़रूरी जानकारी भी देता है. लंबे कॉन्टेक्स्ट के लिए मेमोरी को ऑप्टिमाइज़ करने के लिए, ग्लोबल लेयर की सुविधा में यूनिफ़ाइड की और वैल्यू होती हैं. साथ ही, इसमें प्रोपोर्शनल RoPE (p-RoPE) लागू होता है.

डेंस मॉडल

प्रॉपर्टी	E2B	E4B	31B Dense
कुल पैरामीटर	2.3B पैरामीटर (एम्बेडिंग के साथ 5.1B)	4.5 अरब पैरामीटर (एम्बेडिंग के साथ 8 अरब पैरामीटर)	30.7 अरब
लेयर	35	42	60
स्लाइडिंग विंडो	512 टोकन	512 टोकन	1024 टोकन
कॉन्टेक्स्ट की लंबाई	128 हज़ार टोकन	128 हज़ार टोकन	256K टोकन
शब्दावली का साइज़	262K	262K	262K
इस्तेमाल की जा सकने वाली सुविधाएं	टेक्स्ट, इमेज, ऑडियो	टेक्स्ट, इमेज, ऑडियो	टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर	करीब 15 करोड़	करीब 15 करोड़	करीब 55 करोड़
ऑडियो एन्कोडर पैरामीटर	~30 करोड़	~30 करोड़	कोई ऑडियो नहीं

E2B और E4B में "E" का मतलब "इफ़ेक्टिव" पैरामीटर है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है. इससे डिवाइस पर डिप्लॉयमेंट के दौरान, पैरामीटर की क्षमता को ज़्यादा से ज़्यादा किया जा सकता है. मॉडल में ज़्यादा लेयर या पैरामीटर जोड़ने के बजाय, पीएलई हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, असरदार पैरामीटर की संख्या कुल संख्या से बहुत कम होती है.

मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) मॉडल

प्रॉपर्टी	26B A4B MoE
कुल पैरामीटर	25.2B
ऐक्टिव पैरामीटर	3.8B
लेयर	30
स्लाइडिंग विंडो	1024 टोकन
कॉन्टेक्स्ट की लंबाई	256K टोकन
शब्दावली का साइज़	262K
एक्सपर्ट की संख्या	8 चालू / 128 कुल और 1 शेयर किया गया
इस्तेमाल की जा सकने वाली सुविधाएं	टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर	करीब 55 करोड़

26B A4B में "A" का मतलब "चालू पैरामीटर" है. यह मॉडल में मौजूद पैरामीटर की कुल संख्या से अलग है. इन्फ़रेंस के दौरान सिर्फ़ 400 करोड़ पैरामीटर के सबसेट को चालू करके, Mixture-of-Experts मॉडल, 2,600 करोड़ पैरामीटर वाले मॉडल की तुलना में बहुत तेज़ी से काम करता है. इस वजह से, यह 31B मॉडल की तुलना में तेज़ इनफ़्रेंस के लिए एक बेहतरीन विकल्प है. ऐसा इसलिए, क्योंकि यह 4B-पैरामीटर मॉडल की तरह ही तेज़ी से काम करता है.

मानदंड के नतीजे

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में दिखाए गए आकलन के नतीजे, निर्देश के मुताबिक काम करने वाले मॉडल के लिए हैं.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (no think)
MMLU Pro	85.2%	82.6%	69.4%	60%	67.6%
AIME 2026 no tools	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (औसत 3 से ज़्यादा)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	-	-	-
खोज की सुविधा के साथ एचएलई	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
देखने से जुड़ी समस्या वालों के लिए सुलभता सुविधाएं
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
ऑडियो
CoVoST	-	-	35.54	33.47	-
FLEURS (कम स्कोर बेहतर होता है)	-	-	0.08	0.09	-
ज़्यादा कॉन्टेक्स्ट वाली विंडो
MRCR v2 8 सुई 128k (औसत)	66.4%	44.1%	25.4%	19.1%	13.5%

मुख्य सुविधाएं

Gemma 4 मॉडल, टेक्स्ट, विज़न, और ऑडियो से जुड़े कई तरह के टास्क पूरे कर सकते हैं. मुख्य सुविधाओं में ये शामिल हैं:

सोचना – यह एक बिल्ट-इन तर्क मोड है. इसकी मदद से मॉडल, जवाब देने से पहले चरण-दर-चरण सोच सकता है.
ज़्यादा कॉन्टेक्स्ट वाली विंडो – E2B/E4B के लिए 1.28 लाख टोकन और 26B A4B/31B के लिए 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो.
इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर की सुविधा शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
वीडियो को समझना – फ़्रेम के क्रम को प्रोसेस करके वीडियो का विश्लेषण करना.
टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाले मोडल के इनपुट को इंटरलीव करना – एक ही प्रॉम्प्ट में टेक्स्ट और इमेज को किसी भी क्रम में शामिल करें.
फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
कोडिंग – कोड जनरेट करना, उसे पूरा करना, और उसमें सुधार करना.
कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ही ट्रेन किया गया है.
ऑडियो (सिर्फ़ E2B और E4B के लिए) – अपने-आप बोली पहचानने की सुविधा (एएसआर) और बोली को अनुवादित टेक्स्ट में बदलने की सुविधा, कई भाषाओं में उपलब्ध है.

सबसे सही तरीके

बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:

1. सैंपलिंग पैरामीटर

इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:

temperature=1.0
top_p=0.95
top_k=64

2. सोचने के तरीके को कॉन्फ़िगर करना

Gemma 3 की तुलना में, इन मॉडल में स्टैंडर्ड system, assistant, और user भूमिकाओं का इस्तेमाल किया जाता है. सोचने की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:

सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में <|think|> टोकन शामिल करके, सोचने की सुविधा को चालू किया जाता है. सोचने की सुविधा बंद करने के लिए, टोकन हटाएं.
स्टैंडर्ड जनरेशन: 'सोचने की सुविधा' चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, जवाब देने से पहले यह बताएगा कि उसने जवाब देने के लिए क्या-क्या किया: <|channel>thought\n[जवाब देने से पहले की गई कार्रवाई]<channel|>
सोचने की सुविधा बंद होने पर: E2B और E4B वैरिएंट को छोड़कर, सभी मॉडल के लिए सोचने की सुविधा बंद होने पर भी मॉडल टैग जनरेट करेगा. हालांकि, इसमें थॉट ब्लॉक खाली होगा: <|channel>thought\n<channel|>[फ़ाइनल जवाब]

ध्यान दें कि Transformers और llama.cpp जैसी कई लाइब्रेरी, चैट टेम्प्लेट की जटिलताओं को आपके लिए मैनेज करती हैं.

3. एक से ज़्यादा बार की जाने वाली बातचीत

इतिहास में सोचने से जुड़ा कॉन्टेंट नहीं होना चाहिए: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ फ़ाइनल जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों में शामिल जानकारी को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.

4. मोडेलिटी ऑर्डर

टेक्स्ट, इमेज, और वीडियो वग़ैरह को प्रोसेस करने वाले मोडल के इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, अपने प्रॉम्प्ट में टेक्स्ट से पहले इमेज और/या ऑडियो कॉन्टेंट डालें.

5. इमेज के रिज़ॉल्यूशन में बदलाव करने की सुविधा

आस्पेक्ट रेशियो के अलावा, Gemma 4 में इमेज के रिज़ॉल्यूशन को भी बदला जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, कंप्यूटिंग की अतिरिक्त लागत पर ज़्यादा विज़ुअल जानकारी मिलती है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए बारीकी से समझने की ज़रूरत नहीं होती.

इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और 1120.
- क्लासिफ़िकेशन, कैप्शन जोड़ने या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा जानकारी के मुकाबले, तेज़ी से अनुमान लगाने और कई फ़्रेम प्रोसेस करने को ज़्यादा अहमियत दी जाती है.
- ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.

6. ऑडियो

ऑडियो प्रोसेसिंग के लिए, प्रॉम्प्ट के इन स्ट्रक्चर का इस्तेमाल करें:

ऑडियो से बोली की पहचान करने की सुविधा (एएसआर)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

अपने-आप होने वाला बातचीत का अनुवाद (एएसटी)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ऑडियो और वीडियो की अवधि

सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. वहीं, E2B और E4B मॉडल, ऑडियो इनपुट के साथ भी काम करते हैं. ऑडियो की अवधि ज़्यादा से ज़्यादा 30 सेकंड हो सकती है. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड हो सकती है. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड पर प्रोसेस किया जाए.

मॉडल डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग डेटासेट

प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, अलग-अलग तरह के डेटा का एक बड़ा कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटा को जनवरी 2025 तक इकट्ठा किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:

वेब दस्तावेज़: वेब टेक्स्ट के अलग-अलग कलेक्शन से यह पक्का किया जाता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में जानकारी हो. ट्रेनिंग डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
गणित: गणित के टेक्स्ट की ट्रेनिंग देने से, मॉडल को तार्किक तर्क, सिंबॉलिक प्रज़ेंटेशन, और गणित की क्वेरी हल करने में मदद मिलती है.
इमेज: कई तरह की इमेज से मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने के टास्क पूरे करने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा प्रीप्रोसेसिंग

ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:

सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रोसेस लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

नैतिकता और सुरक्षा

ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. Gemma 4 को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, Gemini मॉडल की तरह ही किया जाता है.

मूल्यांकन का तरीका

Gemma 4 मॉडल को, सुरक्षा और ज़िम्मेदारी के साथ एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर बनाया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल, दोनों तरीकों से कई बार समीक्षा की गई. ये आकलन, Google के एआई सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक होते हैं. इनका मकसद, जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:

बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे लोगों को असल में नुकसान पहुंच सकता है)
साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
नफ़रत फैलाने वाली भाषा (जैसे, सुरक्षित ग्रुप के सदस्यों को अमानवीय बताना)
उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)

मूल्यांकन के नतीजे

सुरक्षा से जुड़े सभी टेस्ट में, हमें कॉन्टेंट की सुरक्षा की सभी कैटगरी में, Gemma के पिछले मॉडल की तुलना में काफ़ी सुधार देखने को मिले. कुल मिलाकर, Gemma 4 मॉडल, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर हैं. साथ ही, ये बिना किसी वजह के जवाब देने से मना नहीं करते. मॉडल की क्षमताओं और व्यवहारों का आकलन करने के लिए, सभी टेस्टिंग सुरक्षा फ़िल्टर के बिना की गई थी. टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ में, मॉडल ने नीति के उल्लंघन से जुड़ी कम से कम समस्याएं दिखाईं. साथ ही, पिछले Gemma मॉडल की परफ़ॉर्मेंस के मुकाबले, इसमें काफ़ी सुधार देखने को मिला.

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

मल्टीमॉडल मॉडल (जो विज़न, भाषा, और/या ऑडियो को प्रोसेस कर सकते हैं) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी इस्तेमाल शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान ध्यान में रखा था.

कॉन्टेंट बनाना और कम्यूनिकेट करना
- टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है. जैसे, कविताएं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल के ड्राफ़्ट.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाना.
- टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
- इमेज से डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, समझने, और उसकी खास जानकारी देने के लिए किया जा सकता है.
- ऑडियो प्रोसेसिंग और इंटरैक्शन: छोटे मॉडल (E2B और E4B), ऑडियो इनपुट का विश्लेषण और व्याख्या कर सकते हैं. इससे आवाज़ से इंटरैक्ट करने और ऑडियो को टेक्स्ट में बदलने की सुविधा मिलती है.
रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को बेहतर बनाने में योगदान दे सकते हैं.
- भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
  - जानकारी एक्सप्लोर करना: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.

सीमाएं

ट्रेनिंग के लिए डेटा
- ट्रेनिंग के लिए इस्तेमाल किए गए डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
- ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन कामों को बेहतर तरीके से पूरा करते हैं जिनके लिए साफ़ तौर पर प्रॉम्प्ट और निर्देश दिए गए हों. ऐसे टास्क मुश्किल हो सकते हैं जिनमें सवाल साफ़ तौर पर न पूछा गया हो या जो बहुत मुश्किल हों.
- मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक सीमा तक ही होता है.
भाषा से जुड़ी अस्पष्टता और बारीकियां
- नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
तथ्यों का सही होना
- मॉडल, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, वे नॉलेज बेस नहीं होते. ये गलत या पुरानी जानकारी दे सकते हैं.
Common Sense
- मॉडल, भाषा में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में, वे सामान्य ज्ञान के आधार पर तर्क न दे पाएं.

नैतिक तौर पर अहम बातें और जोखिम

विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. Gemma 4 मॉडल की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उनका आकलन किया गया. इस कार्ड में दी गई जानकारी के मुताबिक, इन पूर्वाग्रहों के जोखिम को कम करने के लिए ऐसा किया गया.
गलत जानकारी और गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, ऐसा टेक्स्ट जनरेट किया जा सकता है जो गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
- मॉडल का ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. इसके लिए, ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने से जुड़ा टूलकिट देखें.
पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ तैयार किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं को वीएलएम टेक्नोलॉजी उपलब्ध कराकर, इनोवेशन को शेयर करने का मौका देता है.

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे सावधानी बरतें और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के मामलों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करें.
नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाओं और डेवलपर और एंड-यूज़र को जानकारी देना ज़रूरी है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
निजता से जुड़े उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटा दिया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता के कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
पूर्वाग्रहों को बढ़ावा मिलना: मॉडल की ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के मामलों के दौरान, लगातार निगरानी करने का सुझाव दिया जाता है. इसके लिए, आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा का इस्तेमाल करें. साथ ही, पूर्वाग्रहों को कम करने की तकनीकों का पता लगाएं.

फ़ायदे

रिलीज़ के समय, मॉडल के इस फ़ैमिली में बेहतर परफ़ॉर्म करने वाले ओपन विज़न-लैंग्वेज मॉडल उपलब्ध हैं. इन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, शुरू से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर हैं.