Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma मॉडल की खास जानकारी

DiffusionGemma, एक्सपेरिमेंट के तौर पर उपलब्ध एक ओपन मॉडल है. यह टेक्स्ट डिफ़्यूज़न के बारे में बताता है. टेक्स्ट डिफ़्यूज़न, टेक्स्ट जनरेट करने का एक बहुत तेज़ तरीका है. DiffusionGemma, 26B (4B ऐक्टिव) Mixture-of-Experts (MoE) Gemma 4 आर्किटेक्चर पर आधारित है. यह डिसक्रीट डिफ़्यूज़न का इस्तेमाल करके टोकन जनरेट करता है. यह ओपन-वेट मॉडल, टेक्स्ट, इमेज, और वीडियो इनपुट को प्रोसेस करके टेक्स्ट आउटपुट जनरेट करता है.

MoE पर आधारित DiffusionGemma को, जनरेशन की स्पीड (हर सेकंड में टोकन) को बेहतर बनाने के लिए डिज़ाइन किया गया है. साथ ही, इसे अलग-अलग हार्डवेयर एनवायरमेंट में डिप्लॉय किया जा सकता है. DiffusionGemma, Gemma 4 की आर्किटेक्चरल और क्षमता से जुड़ी नई सुविधाओं पर आधारित है. इसमें कई मुख्य सुविधाएं शामिल हैं:

डिस्क्रीट टेक्स्ट डिफ़्यूज़न: यह मॉडल, पारंपरिक तौर पर इस्तेमाल होने वाले कैज़ुअल टोकन जनरेशन से हटकर, ब्लॉक-ऑटोरग्रेसिव मल्टी-कैनवस सैंपलिंग का इस्तेमाल करता है. यह मॉडल, टोकन के ब्लॉक ("कैनवस") को बार-बार डीनॉइज़ करके टेक्स्ट जनरेट करता है. ऐसा, डिकोडिंग की स्पीड को काफ़ी हद तक बढ़ाने के लिए, पैरलल में किया जाता है.
मल्टीमोडल प्रोसेसिंग: यह टेक्स्ट, इमेज (अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन के साथ), और वीडियो इनपुट को प्रोसेस कर सकता है. (ध्यान दें: ऑडियो इनपुट की सुविधा उपलब्ध नहीं है).
एनकोडर-डिकोडर आर्किटेक्चर: यह आर्किटेक्चर, प्रॉम्प्ट के कॉन्टेक्स्ट को प्रोसेस और कैश करने के लिए, ऑटोरग्रेसिव एनकोडर का इस्तेमाल करता है. साथ ही, इसमें डीनॉइज़िंग की सुविधा भी होती है. यह सुविधा, जनरेशन कैनवस पर दोनों दिशाओं में ध्यान देती है.
Mixture-of-Experts (MoE) की क्षमता: यह 26B (4B ऐक्टिव) MoE वैरिएंट पर आधारित, स्पार्स MoE डिज़ाइन का इस्तेमाल करता है. इससे कम ओवरहेड के साथ, बेहतर तरीके से तर्क करने की क्षमता मिलती है. क्वांटाइज़ किए जाने पर, यह उपभोक्ता जीपीयू की 18 जीबी वीआरएएम की सीमाओं के अंदर फ़िट हो जाता है. यह लोकल एक्ज़ीक्यूशन के लिए सबसे सही है.
थिंकिंग मोड: इसमें कॉन्फ़िगर किए जा सकने वाले तर्क के चैनल पहले से मौजूद होते हैं. इनकी मदद से मॉडल, जवाब देने से पहले चरण-दर-चरण सोच-विचार कर पाता है.

पारंपरिक मॉडल के साथ समझौता

पारंपरिक भाषा मॉडल, बड़े पैमाने पर क्लाउड डिप्लॉयमेंट के लिए बहुत कारगर होते हैं. ऐसा इसलिए, क्योंकि ये हज़ारों अनुरोधों को बैच कर सकते हैं. हालांकि, किसी एक उपयोगकर्ता के लिए इन्हें स्थानीय तौर पर चलाने से, हार्डवेयर का पूरा इस्तेमाल नहीं हो पाता. DiffusionGemma इस समस्या को हल करता है. इसके लिए, यह एक बार में एक टोकन जनरेट करने के बजाय, एक साथ 256 टोकन का पूरा ब्लॉक जनरेट करता है. इससे लोकल हार्डवेयर की परफ़ॉर्मेंस बेहतर होती है.

हालांकि, इस तरीके का इस्तेमाल सिर्फ़ ग्राहकों से डील करने वाले, कम समय में होने वाले लोकल इस्तेमाल के लिए किया जाता है. ऐसा इसलिए, क्योंकि ज़्यादा क्यूपीएस वाले क्लाउड वर्कलोड के तहत, पैरलल डिकोडिंग से कम फ़ायदा मिलता है. थ्रूपुट का फ़ायदा, एक ही ऐक्सलरेटर पर कम से लेकर मध्यम बैच साइज़ पर सबसे ज़्यादा होता है.

विज्ञापन दिखाने के लिए सुझाया गया कॉन्फ़िगरेशन

हमारा सुझाव है कि डिफ़्यूज़न सैंपलिंग सेटिंग के लिए, यहां दिए गए डिफ़ॉल्ट पैरामीटर का इस्तेमाल करके डिप्लॉय करें. इससे, आपको कम से कम लेटेन्सी और बेहतर क्वालिटी मिलेगी:

पैरामीटर	सुझाई गई वैल्यू	फ़ंक्शन	वजह
डीनॉइज़िंग के ज़्यादा से ज़्यादा चरण	48	हर कैनवस के लिए, नॉइज़ कम करने के चरणों की ऊपरी सीमा.	डीनॉइज़िंग के चरणों की सुरक्षित सीमा. अडैप्टिव स्टॉपिंग की सुविधा चालू होने पर, कम चरणों में नॉइज़ कम हो जाएगी. आम तौर पर, यह सुविधा टास्क के हिसाब से 12 से 16 चरणों में काम करती है.
अपने हिसाब से तापमान में बदलाव करने का शेड्यूल	लीनियर 0.8 -> 0.4	यह एक ऐसा टेंपरेचर स्केलिंग शेड्यूल है जो ज़्यादा से शुरू होता है और डीनॉइज़िंग चरणों के फ़ंक्शन के तौर पर कम होता जाता है.	ज़्यादा तापमान (0.8) होने पर, एक्सप्लोर करने के लिए ज़्यादा विकल्प मिलते हैं. कम तापमान (0.4) होने पर, फ़ाइनल टोकन लॉक हो जाते हैं.
अडैप्टिव अर्ली स्टॉपिंग	एंट्रॉपी थ्रेशोल्ड: 0.005	अगर A) कैनवस पर मॉडल की औसत एंट्रॉपी थ्रेशोल्ड से कम है और B) अगर लगातार दो बार डीनॉइज़र के अनुमान एक जैसे रहते हैं, तो यह फ़ंक्शन, प्रोसेस को जल्दी रोक देता है.	आसान प्रॉम्प्ट और कोड जैसे स्ट्रक्चर्ड टास्क के लिए, डीनॉइज़िंग के कम चरणों की ज़रूरत होती है. इससे, टास्क की जटिलता के आधार पर, डाइनैमिक टोकन-पर-सेकंड की स्पीड मिलती है.
टोकन चुनना	एंट्रॉपी की सीमा: 0.1	हर चरण में, सैंपलर सबसे कम एंट्रॉपी वाले टोकन चुनता है, ताकि उनकी आपसी जानकारी की सीमा, एंट्रॉपी की सीमा से कम रहे. सैंपलर, चुने नहीं गए टोकन में पूरी तरह से फिर से नॉइज़ जोड़ता है.	इससे यह पक्का किया जाता है कि कैनवस को बेहतर बनाने के लिए, सिर्फ़ उन टोकन को चुना जाए जिनके बारे में मॉडल को काफ़ी हद तक भरोसा है. साथ ही, अन्य टोकन को बाद में नॉइज़ हटाने के चरणों में बेहतर बनाया जाता है.

इसे Hugging Face पर पाएं इसे Kaggle पर पाएं इसे Vertex पर ऐक्सेस करें

एक्सपेरिमेंट के तौर पर उपलब्ध मॉडल के वेट का ऐक्सेस पाएं. इन्हें Apache 2.0 लाइसेंस के तहत रिलीज़ किया गया है. इससे आपको अपने प्रोजेक्ट और ऐप्लिकेशन में इसे डिप्लॉय करने की अनुमति मिलती है.

DiffusionGemma के आर्किटेक्चर के बारे में ज़्यादा जानें DiffusionGemma आज़माएं

DiffusionGemma को फ़ाइन-ट्यून करना DiffusionGemma को डिप्लॉय करना