Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma मॉडल कार्ड

Hugging Face | GitHub | लॉन्च ब्लॉग | दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind

DiffusionGemma, Google DeepMind का बनाया गया एक जनरेटिव मॉडल है. DiffusionGemma, 26B A4B Mixture-of-Experts (MoE) Gemma 4 आर्किटेक्चर पर आधारित है. यह डिसक्रीट डिफ़्यूज़न का इस्तेमाल करके टोकन जनरेट करता है. यह ओपन-वेट मॉडल, मल्टीमॉडल है. यह टेक्स्ट, इमेज, और वीडियो इनपुट को प्रोसेस करके टेक्स्ट आउटपुट जनरेट करता है.

MoE पर आधारित DiffusionGemma को, जनरेशन की स्पीड (हर सेकंड में टोकन) को बेहतर बनाने के लिए डिज़ाइन किया गया है. साथ ही, इसे अलग-अलग हार्डवेयर एनवायरमेंट में डिप्लॉय किया जा सकता है. DiffusionGemma, Gemma 4 की आर्किटेक्चरल और क्षमता से जुड़ी नई सुविधाओं पर आधारित है. इसमें कई मुख्य सुविधाएं शामिल हैं:

डिस्क्रीट टेक्स्ट डिफ़्यूज़न – यह टोकन-बाय-टोकन ऑटोरेग्रेशन से ब्लॉक-ऑटोरग्रेसिव मल्टी-कैनवस सैंपलिंग पर स्विच करता है. यह टेक्स्ट जनरेट करने के लिए, समानांतर रूप से टोकन के ब्लॉक (एक 'कैनवस') को बार-बार डीनोइज़ करता है. इससे डिकोडिंग की स्पीड काफ़ी बढ़ जाती है.
मल्टीमॉडल इनपुट प्रोसेसिंग – यह सुविधा, इमेज और टेक्स्ट के बेहतरीन सीक्वेंस वाले इनपुट, इमेज (अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन के साथ), और वीडियो इनपुट को प्रोसेस करके टेक्स्ट आउटपुट जनरेट करती है.
एन्कोडर-डीकोडर आर्किटेक्चर – यह प्रॉम्प्ट के कॉन्टेक्स्ट को प्रोसेस और कैश करने के लिए, ऑटोरेग्रेसिव एन्कोडर का इस्तेमाल करता है. साथ ही, इसमें एक डीकोडर होता है, जो जनरेशन कैनवस पर दोनों दिशाओं में ध्यान देता है.
मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) की क्षमता – यह एक स्पार्स एमओई डिज़ाइन का इस्तेमाल करता है. इसमें कुल 128 में से 8 एक्सपर्ट सक्रिय होते हैं. इससे, तर्क करने की बेहतर क्षमता मिलती है. साथ ही, यह कम मेमोरी का इस्तेमाल करता है, ताकि इसे स्थानीय तौर पर इस्तेमाल किया जा सके.
सोच-समझकर जवाब देने वाला मोड (गहराई से विश्लेषण) – इसे सोच-समझकर जवाब देने वाले एक बेहतरीन मॉडल के तौर पर डिज़ाइन किया गया है. इसमें सोच-समझकर जवाब देने वाले मोड को कॉन्फ़िगर किया जा सकता है.
कम बैच साइज़ वाले अनुमान के लिए ऑप्टिमाइज़ किया गया – इसे खास तौर पर, एक ही ऐक्सलरेटर पर कम इंतज़ार के समय और तेज़ी से जनरेट करने के लिए डिज़ाइन किया गया है.
सिस्टम प्रॉम्प्ट की सुविधा – Gemma 4 की तरह, इसमें भी system भूमिका को अपडेट करने की सुविधा है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.

मॉडल की खास जानकारी

DiffusionGemma को इस तरह से बनाया गया है कि यह स्टैंडर्ड कैज़ुअल लैंग्वेज मॉडल की सीक्वेंशियल बॉटलनेक को कम कर सके. यह एन्कोडर-डिकोडर आर्किटेक्चर का इस्तेमाल करता है. इसे खास तौर पर, अनुमान लगाने की रफ़्तार को बेहतर बनाने के लिए ऑप्टिमाइज़ किया गया है.

एनकोडर, प्रीफ़िल मोड में काम करता है. यह शुरुआती प्रॉम्प्ट को प्रोसेस करता है और केवी कैश जनरेट करता है. इसके बाद, डिकोडर, टोकन के इनपुट ब्लॉक ('कैनवस') को प्रोसेस करने के लिए, दोनों दिशाओं में ध्यान देने की सुविधा का इस्तेमाल करता है. साथ ही, क्रॉस-अटेंशन के ज़रिए कैश मेमोरी में सेव किए गए कॉन्टेक्स्ट को ऐक्सेस करता है.

इन्फ़रेंस के दौरान, DiffusionGemma मल्टी-कैनवस सैंपलिंग का इस्तेमाल करता है. एक बार में एक टोकन जनरेट करने के बजाय, मॉडल, डिफ़्यूज़न सैंपलर का इस्तेमाल करके, टोकन के पूरे ब्लॉक को बार-बार डीनॉइज़ करता है. जब कैनवस पूरी तरह से डीनॉइज़ हो जाता है, तब उसे एनकोडर प्रोसेस करता है और केवी कैश में जोड़ देता है. इसके बाद, मॉडल अगले कैनवस को जनरेट करता है. ब्लॉक-ऑटोरग्रेसिव अप्रोच की मदद से, टेक्स्ट को ज़्यादा तेज़ी से जनरेट किया जा सकता है.

DiffusionGemma

मानदंड के नतीजे

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में दिए गए आकलन के नतीजे, निर्देश के मुताबिक तैयार किए गए मॉडल के लिए हैं. इनमें सुझाया गया एंट्रॉपी बाउंड (ईबी) सैंपलर इस्तेमाल किया गया है. इसके बारे में यहां सबसे सही तरीके दिए गए हैं.

मानदंड	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 no tools	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
Codeforces ELO	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2 (औसत 3 से ज़्यादा)	56.2%	68.2%
HLE no tools	11%	8.7%
खोज की सुविधा के साथ एचएलई	11.9%	17.2%
BigBench Extra Hard	47.6%	64.8%
MMMLU	81.5%	86.3%
देखने से जुड़ी समस्या वालों के लिए सुलभता सुविधाएं
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर)	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
ज़्यादा कॉन्टेक्स्ट वाली विंडो
MRCR v2 8 सुई 128k (औसत)	32.0%	44.1%

मुख्य सुविधाएं

DiffusionGemma, टेक्स्ट और विज़न से जुड़े कई तरह के टास्क पूरे कर सकता है. मुख्य सुविधाओं में ये शामिल हैं:

तेज़ी से जनरेट करना - डिफ़्यूज़न सैंपलिंग के ज़रिए 256 टोकन को एक साथ डीनॉइज़ किया जाता है. इससे हर फ़ॉरवर्ड पास में 15 से 20 टोकन जनरेट करके, कम इंतज़ार के समय में नतीजे मिलते हैं. साथ ही, कम बैच का साइज़ सेटिंग (H100, FP8) में हर उपयोगकर्ता के लिए, एक सेकंड में 1,100 से ज़्यादा टोकन जनरेट किए जा सकते हैं.
अनुकूलित इन्फ़रेंस टाइम कंप्यूटेशन - कोड जैसे आसान प्रॉम्प्ट और स्ट्रक्चर्ड टास्क के लिए, डीनॉइज़िंग के कम चरणों की ज़रूरत होती है. इससे टास्क की जटिलता के आधार पर, डाइनैमिक टोकन-प्रति-सेकंड की स्पीड मिलती है.
सोचना – यह एक बिल्ट-इन तर्क मोड है. इससे मॉडल को जवाब देने से पहले, चरण-दर-चरण सोचने का मौका मिलता है.
ज़्यादा कॉन्टेक्स्ट वाली विंडो – 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो.
इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
वीडियो को समझना – यह फ़्रेम के क्रम को प्रोसेस करके, वीडियो के कॉन्टेंट का विश्लेषण करता है और उसके बारे में बताता है.
टेक्स्ट, इमेज, और वीडियो को मिलाकर इनपुट देना – किसी एक प्रॉम्प्ट में इमेज, वीडियो, और टेक्स्ट को मिलाकर इनपुट दें, ताकि Gemini को जवाब देने के लिए ज़्यादा जानकारी मिल सके.
फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
कोडिंग और तर्क – कोड जनरेट करने, उसे पूरा करने, और क्रम से तर्क देने में सक्षम है.
कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ट्रेन किया गया है.

सबसे सही तरीके

बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:

1. डिफ़्यूज़न सैंपलिंग की सेटिंग

इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:

तरीका: एंट्रॉपी-बाउंडेड डीनॉइज़िंग और अडैप्टिव स्टॉपिंग के साथ डिफ़्यूज़न सैंपलिंग.
सैंपलिंग कॉन्फ़िगरेशन:
- डीनॉइज़िंग के ज़्यादा से ज़्यादा चरण = 48
- तापमान का शेड्यूल (लॉजिट शेपिंग के लिए): 0.8 → 0.4 से लीनियर डेके
- टोकन चुनना: हर चरण में, सैंपलर सबसे कम एंट्रॉपी वाले टोकन चुनता है, ताकि उनकी आपसी जानकारी की सीमा, एंट्रॉपी की सीमा = 0.1 से कम रहे
- टोकन रीनॉइज़िंग: सैंपलर, चुने नहीं गए टोकन को पूरी तरह से रीनॉइज़ करता है
अडैप्टिव स्टॉपिंग: सैंपलिंग को जल्दी तब बंद किया जाता है, जब ये दोनों शर्तें एक साथ पूरी होती हैं:
- भरोसेमंद अनुमान: कैनवस पर मॉडल की औसत एंट्रॉपी, एंट्रॉपी थ्रेशोल्ड = 0.005 से कम है
- अनुमानों में स्थिरता: सबसे ज़्यादा संभावना वाले टोकन के अनुमान, डीनॉइज़िंग के दो चरणों में एक जैसे रहते हैं

2. सूझ-बूझ वाले मोड का कॉन्फ़िगरेशन

Gemma 4 मॉडल की तरह ही, हम स्टैंडर्ड system, assistant, और user भूमिकाओं का इस्तेमाल करते हैं. सोचने की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:

सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में <|think|> टोकन शामिल करके, सोचने की सुविधा चालू की जाती है. इस सुविधा को बंद करने के लिए, टोकन हटाएं. ध्यान दें कि सोचने की सुविधा बंद होने के बाद भी, खाली थिंकिंग चैनल दिख सकता है.
स्टैंडर्ड जनरेशन: थिंकिंग मोड चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, सबसे पहले अपने हिसाब से तर्क देगा और फिर जवाब देगा: <|channel>thought\n[Internal reasoning]<channel|>.
सोचने की सुविधा बंद होने पर: अगर सोचने की सुविधा बंद है, तो मॉडल अब भी टैग जनरेट करेगा. हालांकि, इसमें 'सोचा गया' ब्लॉक खाली होगा: <|channel>thought\n<channel|>[Final answer].

ध्यान दें कि ट्रांसफ़ॉर्मर जैसी कई लाइब्रेरी, चैट टेंप्लेट की मुश्किलों को आपके लिए मैनेज करती हैं.

3. एक से ज़्यादा बार की जाने वाली बातचीत

इतिहास में सोचने से जुड़ा कॉन्टेंट शामिल न हो: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ फ़ाइनल जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.

4. मोडेलिटी का क्रम

टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाले मोडल के इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, अपने प्रॉम्प्ट में टेक्स्ट से पहले इमेज का कॉन्टेंट डालें.

5. इमेज के रिज़ॉल्यूशन के अलग-अलग विकल्प

आस्पेक्ट रेशियो के अलावा, DiffusionGemma में इमेज के रिज़ॉल्यूशन को भी बदला जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, ज़्यादा कंप्यूटिंग पावर का इस्तेमाल करके इमेज की ज़्यादा जानकारी को सुरक्षित रखा जा सकता है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए ज़्यादा जानकारी की ज़रूरत नहीं होती.

इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और 1120.
- क्लासिफ़िकेशन, कैप्शनिंग या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा फ़्रेम को तेज़ी से प्रोसेस करने और अनुमान लगाने को ज़्यादा अहमियत दी जाती है.
- ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.

6. वीडियो अवधि

सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड होनी चाहिए. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड के हिसाब से प्रोसेस किया जाए.

मॉडल डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग के लिए डेटासेट

प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, बड़े पैमाने पर अलग-अलग तरह के डेटा का कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटासेट को जनवरी 2025 तक अपडेट किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:

वेब दस्तावेज़: वेब पर मौजूद अलग-अलग तरह के टेक्स्ट से, यह पक्का किया जाता है कि मॉडल को अलग-अलग तरह की भाषा शैली, विषयों, और शब्दावली के बारे में जानकारी मिले. ट्रेनिंग के लिए इस्तेमाल किए गए डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
गणित: गणित के टेक्स्ट की ट्रेनिंग देने से मॉडल को तार्किक तर्क, सिंबॉलिक रिप्रेजेंटेशन, और गणित की क्वेरी को हल करने में मदद मिलती है.
इमेज: अलग-अलग तरह की इमेज से, मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने की सुविधा वाले काम करने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा प्रीप्रोसेसिंग

ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:

सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रोसेस लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमैटिक तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

नैतिकता और सुरक्षा

ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. DiffusionGemma को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, हमारे मालिकाना हक वाले Gemini मॉडल की तरह ही किया जाता है.

आकलन का तरीका

DiffusionGemma को, सुरक्षा और ज़िम्मेदारी के साथ एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर डेवलप किया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल तरीके से कई बार इसका आकलन किया गया है. ये आकलन, एआई के बारे में Google के सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक किए गए हैं. इन नीतियों का मकसद, हमारे जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:

बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे असल ज़िंदगी में नुकसान पहुंच सकता है)
साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
नफ़रत फैलाने वाली भाषा (जैसे, सुरक्षित ग्रुप के सदस्यों के साथ अमानवीय बर्ताव करना)
उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)

मूल्यांकन के नतीजे

सुरक्षा से जुड़े सभी टेस्ट में, हमें कॉन्टेंट की सुरक्षा की सभी कैटगरी में बड़े सुधार देखने को मिले. ये सुधार, Gemma के पिछले मॉडल की तुलना में किए गए हैं. कुल मिलाकर, DiffusionGemma, Gemma 4 मॉडल की तरह ही, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर है. साथ ही, यह बिना किसी वजह के जवाब देने से मना करने की समस्या को कम करता है. सभी टेस्टिंग जान-बूझकर सुरक्षा फ़िल्टर के बिना की गई थी, ताकि मॉडल की बुनियादी क्षमताओं और व्यवहारों का आकलन किया जा सके. टेक्स्ट प्रॉम्प्ट से टेक्स्ट जनरेट होने की प्रोसेस और इमेज टू टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ के लिए, मॉडल ने नीति के उल्लंघन के बहुत कम मामले दिखाए. साथ ही, पिछले Gemma मॉडल की तुलना में काफ़ी सुधार दिखाया.

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

मल्टीमॉडल मॉडल (देखने, भाषा, और/या ऑडियो को प्रोसेस करने की क्षमता रखने वाले) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में कई तरह से किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची पूरी नहीं है. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन पर मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान विचार किया था.

कॉन्टेंट बनाना और कम्यूनिकेट करना
- टेक्स्ट जनरेट करना: यह कविताएं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल के ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करता है.
- चैटबॉट और बातचीत वाला एआई मॉडल: बातचीत वाले इंटरफ़ेस को बेहतर बनाता है. जैसे, ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन.
- टेक्स्ट की खास जानकारी: यह सुविधा, टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करती है.
- इमेज से डेटा निकालना: यह सुविधा, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालती है, उसकी व्याख्या करती है, और उसकी खास जानकारी देती है.
रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: यह रिसर्च करने वालों के लिए एक आधार के तौर पर काम करता है. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
- ज्ञान की खोज: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.

सीमाएं

ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
- ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
कॉन्टेक्स्ट और टास्क की जटिलता
- यह मॉडल, ऐसे टास्क को आसानी से पूरा कर सकता है जिनके लिए साफ़ तौर पर प्रॉम्प्ट और निर्देश दिए गए हों. हालांकि, ऐसे टास्क को पूरा करने में मुश्किल हो सकती है जिनके लिए साफ़ तौर पर प्रॉम्प्ट और निर्देश न दिए गए हों या जो बहुत मुश्किल हों.
- मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर आउटपुट मिलते हैं. हालांकि, ऐसा एक तय सीमा तक ही होता है.
भाषा से जुड़ी अस्पष्टता और बारीकियां
- नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
तथ्यों का सही होना
- मॉडल, ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करता है. हालांकि, ये नॉलेज बेस नहीं होते. ऐसा हो सकता है कि मॉडल, तथ्यों के बारे में गलत या पुरानी जानकारी दे.
सामान्य नियम
- यह मॉडल, भाषा के आंकड़ों पर आधारित पैटर्न पर काम करता है. ऐसा हो सकता है कि कुछ स्थितियों में, इसमें सामान्य ज्ञान के आधार पर तर्क देने की क्षमता न हो.

नैतिक तौर पर अहम बातें और जोखिम

ओपन विज़न-लैंग्वेज मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. इस कार्ड में दी गई जानकारी के मुताबिक, DiffusionGemma की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उसका आकलन किया गया, ताकि इन पूर्वाग्रहों के जोखिम को कम किया जा सके.
गलत जानकारी और गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, ऐसा टेक्स्ट जनरेट किया जा सकता है जो गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
- मॉडल का ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. इसके लिए, ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने से जुड़ा टूलकिट देखें.
पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ तैयार किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं को वीएलएम टेक्नोलॉजी उपलब्ध कराकर, इनोवेशन को शेयर करने का मौका देता है.

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे सावधानी बरतें और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करें.
नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाएं तय की जा सकती हैं. साथ ही, डेवलपर और उपयोगकर्ताओं को वीएलएम के बारे में जानकारी दी जा सकती है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
निजता से जुड़े उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटाने के लिए फ़िल्टर किया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ-साथ, निजता से जुड़े कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
पूर्वाग्रहों को बढ़ावा मिलना: मॉडल को ट्रेनिंग देने, फ़ाइन-ट्यून करने, और अन्य इस्तेमाल के मामलों के दौरान, लगातार मॉनिटर करने (आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा का इस्तेमाल करके) और पूर्वाग्रहों को कम करने की तकनीकों का इस्तेमाल करने का सुझाव दिया जाता है.

फ़ायदे

रिलीज़ के समय, यह कम इंतज़ार का समय लेने वाला और बेहतर परफ़ॉर्मेंस देने वाला ओपन विज़न-लैंग्वेज मॉडल है. यह डेवलपर और डिफ़्यूज़न लैंग्वेज मॉडल पर रिसर्च करने में दिलचस्पी रखने वाले लोगों के लिए एक बेहतरीन विकल्प है. इस मॉडल को, इसी तरह के अन्य मॉडल की तुलना में, ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए डिज़ाइन किया गया है.