जनरेशन और ट्यूनिंग के उदाहरणों के बारे में जानने के लिए, Gemma Cookbook का डेटा देखें! ज़्यादा जानें

इस पेज का अनुवाद Cloud Translation API से किया गया है.

RecurrentGemma मॉडल कार्ड

मॉडल पेज: RecurrentGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

ब्यौरा

RecurrentGemma, ओपन भाषा मॉडल का एक फ़ैमिली है. इसे Google ने नए रीकर्सिव आर्किटेक्चर पर आधारित करके बनाया है. पहले से ट्रेन किए गए और निर्देशों के हिसाब से ट्यून किए गए, दोनों वर्शन अंग्रेज़ी में उपलब्ध हैं.

Gemma की तरह ही, RecurrentGemma मॉडल भी टेक्स्ट जनरेट करने से जुड़े कई कामों के लिए सही हैं. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क देना. अपने नए आर्किटेक्चर की वजह से, RecurrentGemma को Gemma की तुलना में कम मेमोरी की ज़रूरत होती है. साथ ही, लंबे क्रम जनरेट करते समय, यह तेज़ी से अनुमान लगाता है.

इनपुट और आउटपुट

इनपुट: टेक्स्ट स्ट्रिंग (जैसे, कोई सवाल, प्रॉम्प्ट या ऐसा दस्तावेज़ जिसकी खास जानकारी चाहिए).
आउटपुट: इनपुट के जवाब में, अंग्रेज़ी भाषा में जनरेट किया गया टेक्स्ट (उदाहरण के लिए, सवाल का जवाब, दस्तावेज़ की खास जानकारी).

उद्धरण

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

मॉडल का डेटा

ट्रेनिंग डेटासेट और डेटा प्रोसेसिंग

RecurrentGemma उसी ट्रेनिंग डेटा और डेटा प्रोसेसिंग का इस्तेमाल करता है जिसका इस्तेमाल Gemma मॉडल फ़ैमिली करती है. इस बारे में पूरी जानकारी, Gemma मॉडल के कार्ड पर देखी जा सकती है.

लागू करने से जुड़ी जानकारी

ट्रेनिंग के दौरान इस्तेमाल किए गए हार्डवेयर और फ़्रेमवर्क

Gemma की तरह ही, RecurrentGemma को TPUv5e पर, JAX और ML Pathways का इस्तेमाल करके ट्रेन किया गया था.

इवैलुएशन की जानकारी

बेंचमार्क के नतीजे

आकलन का तरीका

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था, ताकि टेक्स्ट जनरेशन के अलग-अलग पहलुओं को कवर किया जा सके:

जांच के नतीजे

मानदंड	मेट्रिक	RecurrentGemma 2B	RecurrentGemma 9B
MMLU	पांच शॉट, टॉप-1	38.4	60.5
HellaSwag	बिना उदाहरण वाला प्रॉम्प्ट	71.0	80.4
PIQA	बिना उदाहरण वाला प्रॉम्प्ट	78.5	81.3
SocialIQA	बिना उदाहरण वाला प्रॉम्प्ट	51.8	52.3
BoolQ	बिना उदाहरण वाला प्रॉम्प्ट	71.3	80.3
WinoGrande	कुछ हिस्से का स्कोर	67.8	73.6
CommonsenseQA	सात शॉट	63.7	73.2
OpenBookQA		47.2	51.8
ARC-e		72.9	78.8
ARC-c		42.3	52.0
TriviaQA	पांच शॉट	52.5	70.5
सामान्य सवाल	पांच शॉट	11.5	21.7
HumanEval	pass@1	21.3	31.1
MBPP	तीन शॉट	28.8	42.0
GSM8K	maj@1	13.4	42.6
MATH	4-शॉट	11.0	23.8
AGIEval		23.8	39.3
BIG-Bench		35.3	55.2
औसत		44.6	56.1

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा से जुड़े आकलन

जांच का तरीका

हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:

टेक्स्ट से टेक्स्ट कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़ी नीतियों के तहत आने वाले प्रॉम्प्ट का मानवीय आकलन. इन नीतियों में, बच्चों के यौन शोषण और उनके साथ बुरे बर्ताव, उत्पीड़न, हिंसा और खून-खराबा दिखाने वाले कॉन्टेंट के साथ-साथ नफ़रत फैलाने वाली भाषा शामिल है.
टेक्स्ट से टेक्स्ट में बदलने की सुविधा से होने वाले नुकसान: WinoBias और BBQ Dataset जैसे काम के अकादमिक डेटासेट के मुकाबले बेंचमार्क करें.
याद रखने की सुविधा: ट्रेनिंग डेटा को याद रखने की सुविधा का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी के ज़ाहिर होने का जोखिम भी शामिल है.
बड़े पैमाने पर नुकसान पहुंचाने वाली गतिविधियां: “खतरनाक क्षमताओं” के लिए टेस्ट. जैसे, रासायनिक, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) जोखिम. साथ ही, मन बहलाने और धोखाधड़ी, साइबर सुरक्षा, और अपने-आप कॉपी होने की सुविधा के लिए टेस्ट.

जांच के नतीजे

नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, नुकसान पहुंचाने वाले कॉन्टेंट, याद रखने की सुविधा, बड़े पैमाने पर नुकसान पहुंचाने वाले कॉन्टेंट जैसी कैटगरी के लिए बनी इंटरनल नीतियों के मुताबिक हैं. यहां सुरक्षा से जुड़े मानदंडों के आधार पर किए गए आकलन के नतीजे दिखाए गए हैं. इनमें BBQ, Winogender, WinoBias, RealToxicity, और TruthfulQA जैसे मानदंड शामिल हैं.

मानदंड	मेट्रिक	RecurrentGemma 2B	RecurrentGemma 2B IT	RecurrentGemma 9B	RecurrentGemma 9B IT
RealToxicity	औसत	9.8	7.60	10.3	8.8
बोल्ड		39.3	52.3	39.8	47.9
CrowS-Pairs	top-1	41.1	43.4	38.7	39.5
BBQ Ambig	top-1	62.6	71.1	95.9	67.1
BBQ Disambig	top-1	58.4	50.8	78.6	78.9
Winogender	top-1	55.1	54.7	59.0	64.0
TruthfulQA		35.1	42.7	38.6	47.7
WinoBias 1_2		58.4	56.4	61.5	60.6
WinoBias 2_2		90.0	75.4	90.2	90.3
Toxigen		56.7	50.0	58.8	64.5

मॉडल का इस्तेमाल और सीमाएं

सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए:

ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और उसमें मौजूद अलग-अलग तरह के डेटा का असर, मॉडल की परफ़ॉर्मेंस पर काफ़ी पड़ता है. ट्रेनिंग डेटा में पक्षपात या गैप होने पर, मॉडल के जवाबों में सीमाएं आ सकती हैं.
- ट्रेनिंग डेटासेट के दायरे से यह तय होता है कि मॉडल किन विषयों को असरदार तरीके से मैनेज कर सकता है.
कॉन्टेक्स्ट और टास्क की जटिलता
- एलएलएम, उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ तौर पर दिए गए प्रॉम्प्ट और निर्देशों के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की संख्या का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
भाषा में मौजूद अस्पष्टता और बारीकियों की वजह से होने वाली गड़बड़ी
- नैचुरल लैंग्वेज अपने-आप जटिल होती है. एलएलएम को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
तथ्यों की सटीक जानकारी
- एलएलएम, ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं हैं. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
सामान्य नियमों का पालन करना
- एलएलएम, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ मामलों में, सामान्य समझ का इस्तेमाल न कर पाएं.

नैतिकता से जुड़ी बातें और जोखिम

लार्ज लैंग्वेज मॉडल (एलएलएम) बनाने से, नैतिकता से जुड़ी कई समस्याएं आती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

नफ़रत फैलाने वाला कॉन्टेंट और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट डेटा पर ट्रेन किए गए एलएलएम, ट्रेनिंग मटीरियल में मौजूद सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने के बारे में बताया गया है. साथ ही, इन मॉडल के बाद के आकलन की जानकारी भी इस कार्ड में दी गई है.
गलत जानकारी और गलत इस्तेमाल
- एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
- मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने के लिए टूलकिट देखें.
पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रोसेस के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई नेटवर्क के डेवलपर और शोधकर्ताओं के लिए एलएलएम टेक्नोलॉजी को उपलब्ध कराता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

पक्षपात को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और अन्य इस्तेमाल के उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करें. साथ ही, पक्षपात को कम करने वाली तकनीकों को एक्सप्लोर करें.
नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि इसके लिए नीतियां और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
बुरे मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और आखिरी उपयोगकर्ता को दी जाने वाली शिक्षा से, एलएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. उपयोगकर्ताओं को गलत इस्तेमाल की शिकायत करने के लिए, जानकारी देने वाले संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के इस्तेमाल से जुड़ी पाबंदियों के बारे में, इस्तेमाल की शर्तों में बताया गया है.
निजता के उल्लंघन: मॉडल को, व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) हटाने के लिए फ़िल्टर किए गए डेटा पर ट्रेन किया गया था. डेवलपर को निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करने के लिए बढ़ावा दिया जाता है.

इस्तेमाल का मकसद

ऐप्लिकेशन

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) का इस्तेमाल, कई इंडस्ट्री और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था.

कॉन्टेंट बनाना और कम्यूनिकेशन
- टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, ईमेल ड्राफ़्ट वगैरह जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
- टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) से जुड़ी रिसर्च: ये मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इनकी मदद से, वे एनएलपी तकनीकों का इस्तेमाल करके प्रयोग कर सकते हैं, एल्गोरिदम बना सकते हैं, और इस क्षेत्र को आगे बढ़ाने में योगदान दे सकते हैं.
- भाषा सीखने के टूल: ये टूल, भाषा सीखने के इंटरैक्टिव अनुभवों के साथ काम करते हैं. साथ ही, व्याकरण में सुधार करने या लिखने का अभ्यास करने में मदद करते हैं.
- नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में सवालों के जवाब देकर या खास विषयों के बारे में खास जानकारी जनरेट करके, शोधकर्ताओं को बड़े टेक्स्ट को एक्सप्लोर करने में मदद करता है.

फ़ायदे

रिलीज़ के समय, मॉडल का यह फ़ैमिली, ज़्यादा परफ़ॉर्म करने वाले ओपन लार्ज लैंग्वेज मॉडल लागू करता है. इन मॉडल को शुरू से ही ज़िम्मेदार एआई के डेवलपमेंट के लिए डिज़ाइन किया गया है. यह सुविधा, मिलते-जुलते साइज़ के मॉडल की तुलना में बेहतर है.

इस दस्तावेज़ में बताई गई बेंचमार्क मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना के हिसाब से, साइज़ में मिलते-जुलते अन्य ओपन मॉडल के विकल्पों की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.

खास तौर पर, RecurrentGemma मॉडल की परफ़ॉर्मेंस, Gemma मॉडल के बराबर होती है. हालांकि, इन मॉडल की अनुमान लगाने की प्रोसेस तेज़ होती है और इनमें कम मेमोरी की ज़रूरत होती है. खास तौर पर, लंबे क्रम के लिए.