मॉडल पेज: RecurrentGemma
संसाधन और तकनीकी दस्तावेज़:
इस्तेमाल की शर्तें: शर्तें
लेखक: Google
मॉडल की जानकारी
मॉडल की खास जानकारी
ब्यौरा
RecurrentGemma, ओपन भाषा मॉडल का एक फ़ैमिली है. इसे Google ने नए रीकर्सिव आर्किटेक्चर पर आधारित करके बनाया है. पहले से ट्रेन किए गए और निर्देशों के हिसाब से ट्यून किए गए, दोनों वर्शन अंग्रेज़ी में उपलब्ध हैं.
Gemma की तरह ही, RecurrentGemma मॉडल भी टेक्स्ट जनरेट करने से जुड़े कई कामों के लिए सही हैं. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क देना. अपने नए आर्किटेक्चर की वजह से, RecurrentGemma को Gemma की तुलना में कम मेमोरी की ज़रूरत होती है. साथ ही, लंबे क्रम जनरेट करते समय, यह तेज़ी से अनुमान लगाता है.
इनपुट और आउटपुट
- इनपुट: टेक्स्ट स्ट्रिंग (जैसे, कोई सवाल, प्रॉम्प्ट या ऐसा दस्तावेज़ जिसकी खास जानकारी चाहिए).
- आउटपुट: इनपुट के जवाब में, अंग्रेज़ी भाषा में जनरेट किया गया टेक्स्ट (उदाहरण के लिए, सवाल का जवाब, दस्तावेज़ की खास जानकारी).
उद्धरण
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
मॉडल का डेटा
ट्रेनिंग डेटासेट और डेटा प्रोसेसिंग
RecurrentGemma उसी ट्रेनिंग डेटा और डेटा प्रोसेसिंग का इस्तेमाल करता है जिसका इस्तेमाल Gemma मॉडल फ़ैमिली करती है. इस बारे में पूरी जानकारी, Gemma मॉडल के कार्ड पर देखी जा सकती है.
लागू करने से जुड़ी जानकारी
ट्रेनिंग के दौरान इस्तेमाल किए गए हार्डवेयर और फ़्रेमवर्क
Gemma की तरह ही, RecurrentGemma को TPUv5e पर, JAX और ML Pathways का इस्तेमाल करके ट्रेन किया गया था.
इवैलुएशन की जानकारी
बेंचमार्क के नतीजे
आकलन का तरीका
इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था, ताकि टेक्स्ट जनरेशन के अलग-अलग पहलुओं को कवर किया जा सके:
जांच के नतीजे
मानदंड | मेट्रिक | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | पांच शॉट, टॉप-1 | 38.4 | 60.5 |
HellaSwag | बिना उदाहरण वाला प्रॉम्प्ट | 71.0 | 80.4 |
PIQA | बिना उदाहरण वाला प्रॉम्प्ट | 78.5 | 81.3 |
SocialIQA | बिना उदाहरण वाला प्रॉम्प्ट | 51.8 | 52.3 |
BoolQ | बिना उदाहरण वाला प्रॉम्प्ट | 71.3 | 80.3 |
WinoGrande | कुछ हिस्से का स्कोर | 67.8 | 73.6 |
CommonsenseQA | सात शॉट | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | पांच शॉट | 52.5 | 70.5 |
सामान्य सवाल | पांच शॉट | 11.5 | 21.7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | तीन शॉट | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4-शॉट | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
औसत | 44.6 | 56.1 |
नैतिकता और सुरक्षा
नैतिकता और सुरक्षा से जुड़े आकलन
जांच का तरीका
हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:
- टेक्स्ट से टेक्स्ट कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़ी नीतियों के तहत आने वाले प्रॉम्प्ट का मानवीय आकलन. इन नीतियों में, बच्चों के यौन शोषण और उनके साथ बुरे बर्ताव, उत्पीड़न, हिंसा और खून-खराबा दिखाने वाले कॉन्टेंट के साथ-साथ नफ़रत फैलाने वाली भाषा शामिल है.
- टेक्स्ट से टेक्स्ट में बदलने की सुविधा से होने वाले नुकसान: WinoBias और BBQ Dataset जैसे काम के अकादमिक डेटासेट के मुकाबले बेंचमार्क करें.
- याद रखने की सुविधा: ट्रेनिंग डेटा को याद रखने की सुविधा का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी के ज़ाहिर होने का जोखिम भी शामिल है.
- बड़े पैमाने पर नुकसान पहुंचाने वाली गतिविधियां: “खतरनाक क्षमताओं” के लिए टेस्ट. जैसे, रासायनिक, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) जोखिम. साथ ही, मन बहलाने और धोखाधड़ी, साइबर सुरक्षा, और अपने-आप कॉपी होने की सुविधा के लिए टेस्ट.
जांच के नतीजे
नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, नुकसान पहुंचाने वाले कॉन्टेंट, याद रखने की सुविधा, बड़े पैमाने पर नुकसान पहुंचाने वाले कॉन्टेंट जैसी कैटगरी के लिए बनी इंटरनल नीतियों के मुताबिक हैं. यहां सुरक्षा से जुड़े मानदंडों के आधार पर किए गए आकलन के नतीजे दिखाए गए हैं. इनमें BBQ, Winogender, WinoBias, RealToxicity, और TruthfulQA जैसे मानदंड शामिल हैं.
मानदंड | मेट्रिक | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | औसत | 9.8 | 7.60 | 10.3 | 8.8 |
बोल्ड | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
मॉडल का इस्तेमाल और सीमाएं
सीमाएं
इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए:
- ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और उसमें मौजूद अलग-अलग तरह के डेटा का असर, मॉडल की परफ़ॉर्मेंस पर काफ़ी पड़ता है. ट्रेनिंग डेटा में पक्षपात या गैप होने पर, मॉडल के जवाबों में सीमाएं आ सकती हैं.
- ट्रेनिंग डेटासेट के दायरे से यह तय होता है कि मॉडल किन विषयों को असरदार तरीके से मैनेज कर सकता है.
- कॉन्टेक्स्ट और टास्क की जटिलता
- एलएलएम, उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ तौर पर दिए गए प्रॉम्प्ट और निर्देशों के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की संख्या का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
- भाषा में मौजूद अस्पष्टता और बारीकियों की वजह से होने वाली गड़बड़ी
- नैचुरल लैंग्वेज अपने-आप जटिल होती है. एलएलएम को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
- तथ्यों की सटीक जानकारी
- एलएलएम, ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं हैं. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
- सामान्य नियमों का पालन करना
- एलएलएम, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ मामलों में, सामान्य समझ का इस्तेमाल न कर पाएं.
नैतिकता से जुड़ी बातें और जोखिम
लार्ज लैंग्वेज मॉडल (एलएलएम) बनाने से, नैतिकता से जुड़ी कई समस्याएं आती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:
- नफ़रत फैलाने वाला कॉन्टेंट और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट डेटा पर ट्रेन किए गए एलएलएम, ट्रेनिंग मटीरियल में मौजूद सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने के बारे में बताया गया है. साथ ही, इन मॉडल के बाद के आकलन की जानकारी भी इस कार्ड में दी गई है.
- गलत जानकारी और गलत इस्तेमाल
- एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
- मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने के लिए टूलकिट देखें.
- पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई नेटवर्क के डेवलपर और शोधकर्ताओं के लिए एलएलएम टेक्नोलॉजी को उपलब्ध कराता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.
पहचाने गए जोखिम और उन्हें कम करने के तरीके:
- पक्षपात को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और अन्य इस्तेमाल के उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करें. साथ ही, पक्षपात को कम करने वाली तकनीकों को एक्सप्लोर करें.
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि इसके लिए नीतियां और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
- बुरे मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और आखिरी उपयोगकर्ता को दी जाने वाली शिक्षा से, एलएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. उपयोगकर्ताओं को गलत इस्तेमाल की शिकायत करने के लिए, जानकारी देने वाले संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के इस्तेमाल से जुड़ी पाबंदियों के बारे में, इस्तेमाल की शर्तों में बताया गया है.
- निजता के उल्लंघन: मॉडल को, व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) हटाने के लिए फ़िल्टर किए गए डेटा पर ट्रेन किया गया था. डेवलपर को निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करने के लिए बढ़ावा दिया जाता है.
इस्तेमाल का मकसद
ऐप्लिकेशन
ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) का इस्तेमाल, कई इंडस्ट्री और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था.
- कॉन्टेंट बनाना और कम्यूनिकेशन
- टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, ईमेल ड्राफ़्ट वगैरह जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
- टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
- रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) से जुड़ी रिसर्च: ये मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इनकी मदद से, वे एनएलपी तकनीकों का इस्तेमाल करके प्रयोग कर सकते हैं, एल्गोरिदम बना सकते हैं, और इस क्षेत्र को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने के टूल: ये टूल, भाषा सीखने के इंटरैक्टिव अनुभवों के साथ काम करते हैं. साथ ही, व्याकरण में सुधार करने या लिखने का अभ्यास करने में मदद करते हैं.
- नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में सवालों के जवाब देकर या खास विषयों के बारे में खास जानकारी जनरेट करके, शोधकर्ताओं को बड़े टेक्स्ट को एक्सप्लोर करने में मदद करता है.
फ़ायदे
रिलीज़ के समय, मॉडल का यह फ़ैमिली, ज़्यादा परफ़ॉर्म करने वाले ओपन लार्ज लैंग्वेज मॉडल लागू करता है. इन मॉडल को शुरू से ही ज़िम्मेदार एआई के डेवलपमेंट के लिए डिज़ाइन किया गया है. यह सुविधा, मिलते-जुलते साइज़ के मॉडल की तुलना में बेहतर है.
इस दस्तावेज़ में बताई गई बेंचमार्क मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना के हिसाब से, साइज़ में मिलते-जुलते अन्य ओपन मॉडल के विकल्पों की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.
खास तौर पर, RecurrentGemma मॉडल की परफ़ॉर्मेंस, Gemma मॉडल के बराबर होती है. हालांकि, इन मॉडल की अनुमान लगाने की प्रोसेस तेज़ होती है और इनमें कम मेमोरी की ज़रूरत होती है. खास तौर पर, लंबे क्रम के लिए.