RecurrentGemma मॉडल कार्ड

मॉडल पेज: RecurrentGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

ब्यौरा

RecurrentGemma, ओपन लैंग्वेज मॉडल का एक फ़ैमिली ग्रुप है. इसे Google के नॉवल बार-बार बनने वाले आर्किटेक्चर पर बनाया गया है. पहले से ट्रेन किए गए और निर्देश से ट्यून किए गए, दोनों वर्शन अंग्रेज़ी में उपलब्ध हैं.

जेम्मा की तरह, RecurrentGemma मॉडल, टेक्स्ट जनरेट करने से जुड़े कई तरह के कामों के लिए बेहतरीन काम करते हैं. इनमें सवालों के जवाब देना, खास जानकारी देना, और तर्क करना शामिल है. अपने नए आर्किटेक्चर की वजह से, RecurrentGemma को जेमा की तुलना में कम मेमोरी की ज़रूरत होती है. साथ ही, लंबे सीक्वेंस जनरेट करते समय, यह अनुमान जल्दी पता कर लेता है.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग (जैसे, कोई सवाल, प्रॉम्प्ट या ऐसा दस्तावेज़ जिसके बारे में खास जानकारी देनी है).
  • आउटपुट: इनपुट के जवाब में अंग्रेज़ी में जनरेट किया गया टेक्स्ट (जैसे, सवाल का जवाब, दस्तावेज़ का जवाब).

उद्धरण

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

मॉडल डेटा

ट्रेनिंग डेटासेट और डेटा प्रोसेसिंग

RecurrentGemma उसी ट्रेनिंग डेटा और डेटा प्रोसेसिंग का इस्तेमाल करता है जिसे Gemma मॉडल फ़ैमिली इस्तेमाल करती है. पूरी जानकारी को जेमा मॉडल कार्ड पर देखा जा सकता है.

लागू करने की जानकारी

ट्रेनिंग के दौरान इस्तेमाल किया जाने वाला हार्डवेयर और फ़्रेमवर्क

जेमा की तरह RecurrentGemma को TPUv5e पर ट्रेनिंग दी गई. इसके लिए, उन्होंने JAX और एमएल पाथवे का इस्तेमाल किया.

आकलन के बारे में जानकारी

बेंचमार्क परिणाम

आकलन करने का तरीका

इन मॉडल का मूल्यांकन अलग-अलग डेटासेट और मेट्रिक के बड़े संग्रह के आधार पर किया गया था, ताकि टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सके:

इवैलुएशन के नतीजे

मानदंड मेट्रिक बार-बार जेम्मा 2B
एमएमएलयू 5-शॉट, टॉप-1 78.4
HellaSwag 0-शॉट 71.0
पीआईक्यूए 0-शॉट 78.5
SocialIQA 0-शॉट 51.8
BoolQ 0-शॉट 71.3
WinoGrande आंशिक स्कोर 78 जीबी में से
CommonsenseQA सात-शॉट 63.7
OpenBookQA 47.2
ARC-e यूरो
एआरसी-सी 42.3
TriviaQA पांच शॉट 52.5
सामान्य सवाल पांच शॉट 11.5
HumanEval पास@1 21.3
एमबीपीपी तीन-शॉट 78 जीबी में से
जीएसएम8के maj@1 78 जीबी में से
MATH चार-शॉट 11.0
AGIEval 78 जीबी में से
बिग-बेंच 78 जीबी में से
औसत 44.6

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा का आकलन

आकलन करने की प्रोसेस

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड आकलन और काम की कॉन्टेंट की नीतियों की अंदरूनी रेड-टीमिंग टेस्टिंग शामिल है. रेड-टीमिंग को कई अलग-अलग टीमों ने आयोजित किया, जिनमें से हर एक के लक्ष्य और मैन्युअल आकलन मेट्रिक थे. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई कैटगरी को ध्यान में रखकर किया गया. इनमें ये शामिल हैं:

  • टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: इसमें, सुरक्षा नीतियों के आधार पर लोगों का आकलन किया जाता है. इनमें बच्चों का यौन शोषण और उनके साथ बुरा बर्ताव, उत्पीड़न, हिंसा, खून-खराबा, और नफ़रत फैलाने वाली भाषा शामिल है.
  • टेक्स्ट और टेक्स्ट को दिखाने से होने वाला नुकसान: यह मानदंड, WinoBias और बारबेक्यू डेटासेट जैसे काम के अकैडमिक डेटासेट के लिए है.
  • यादगार: ट्रेनिंग डेटा को याद रखने का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी को सार्वजनिक करने का जोखिम भी शामिल है.
  • बड़े पैमाने पर नुकसान: “खतरनाक क्षमताओं” की जांच करना, जैसे कि केमिकल, बायोलॉजिकल, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) से जुड़े जोखिम.

इवैलुएशन के नतीजे

नैतिकता और सुरक्षा की समीक्षा के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, प्रतिनिधित्व करने वाले नुकसान, याददाश्त, और बड़े पैमाने पर नुकसान जैसी कैटगरी के लिए इंटरनल नीतियों को पूरा करने के लिए स्वीकार किए जा सकने वाले थ्रेशोल्ड हैं. बेहतर अंदरूनी आकलन के अलावा, आम तौर पर सुरक्षा से जुड़े मानदंडों के नतीजे यहां दिखाए जाते हैं, जैसे कि बारबेक्यू, Winogender, Winobies, RealToxicity, और Truthफ़ुलQA.

मानदंड मेट्रिक बार-बार जेम्मा 2B RecurrentGemma 2B IT
RealToxicity औसत 9.8 7.6
बोल्ड 78 जीबी में से 52.4
CrowS-जोड़े top-1 41.1 43.4
बीबीक्यू एम्बिग top-1 62.6 71.1
बीबीक्यू डिसंबिग top-1 58.4 50.8 डॉलर
विनोजेंडर top-1 75 54.7
TruthfulQA 75.1 42.7
विनोबिया 1_2 58.4 56.4
विनोबिया 2_2 90.0 75.4
टॉक्सीजन 56.7 50.0

मॉडल का इस्तेमाल और उसकी सीमाएं

सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए:

  • ट्रेनिंग के लिए डेटा
    • ट्रेनिंग डेटा की क्वालिटी और विविधता, मॉडल की क्षमताओं पर काफ़ी असर डालती है. ट्रेनिंग डेटा में किसी तरह का अंतर होने या कोई कमी होने की वजह से, मॉडल के जवाब पर असर पड़ सकता है.
    • ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल, किन विषयों को बेहतर तरीके से हैंडल कर सकता है.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • एलएलएम ऐसे टास्क के लिए बेहतर होते हैं जिन्हें साफ़ तौर पर पूछे गए सवालों और निर्देशों की मदद से फ़्रेम किया जा सकता है. ऐसे टास्क करना मुश्किल हो सकता है जिनका जवाब विस्तार से देना होता है या जिनमें काफ़ी मुश्किल काम है.
    • मॉडल की परफ़ॉर्मेंस पर इस बात का असर हो सकता है कि कितना संदर्भ दिया गया है. ज़्यादा लंबे संदर्भ से आम तौर पर बेहतर नतीजे मिलते हैं.
  • भाषा की बारीकियां और बारीकियां
    • प्राकृतिक भाषा अपने-आप में जटिल होती है. एलएलएम को बारीकियों, व्यंग्य या फ़िल्मों को समझने में मुश्किल हो सकती है.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये कोई नॉलेज बेस नहीं हैं. हालांकि, ऐसा हो सकता है कि वे गलत या पुराने तथ्यों की जानकारी देनें.
  • सामान्य ज्ञान
    • एलएलएम, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. यह मुमकिन है कि कुछ स्थितियों में, वे अपनी सामान्य सूझ-बूझ को लागू न कर पाएं.

नैतिक तौर पर ध्यान देने वाली बातें और जोखिम

बड़े लैंग्वेज मॉडल (एलएलएम) का विकास, नैतिकता से जुड़ी कई चिंताओं को पैदा करता है. सभी के लिए उपलब्ध मॉडल बनाते समय, हमने इन बातों पर ध्यान दिया है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया के टेक्स्ट डेटा पर आधारित एलएलएम, ट्रेनिंग के कॉन्टेंट में शामिल सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की सावधानी से जांच की गई, इनपुट डेटा प्री-प्रोसेसिंग के बारे में और इस कार्ड में रिपोर्ट किए गए पिछले इवैलुएशन के बारे में बताया गया.
  • गलत जानकारी और गलत इस्तेमाल
    • एलएलएम का गलत इस्तेमाल, ऐसा टेक्स्ट जनरेट करने के लिए किया जा सकता है जो ग़लत, गुमराह करने वाला या नुकसान पहुंचाने वाला हो.
    • मॉडल का ज़िम्मेदारी से इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी से जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और ज़िम्मेदारी
    • इस मॉडल कार्ड में मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस की खास जानकारी दी जाती है.
    • ज़िम्मेदार तरीके से बनाया गया ओपन मॉडल, एआई ईकोसिस्टम पर डेवलपर और रिसर्चर के लिए एलएलएम टेक्नोलॉजी को सुलभ बनाकर, इनोवेटिव इनोवेशन को शेयर करने का मौका देता है.

पहचाने गए जोखिमों और उन्हें कम करना:

  • पूर्वाग्रहों को बढ़ावा देना: मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और इस्तेमाल के अन्य उदाहरणों के दौरान, आकलन वाली मेट्रिक और मानवीय समीक्षा का इस्तेमाल करके, लगातार मॉनिटरिंग करना ज़रूरी है.
  • नुकसान पहुंचाने वाला कॉन्टेंट तैयार करना: कॉन्टेंट को सुरक्षित रखने के तरीके और दिशा-निर्देश बहुत ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे खास तौर पर प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, सावधानी बरतने और कॉन्टेंट की सुरक्षा के लिए सही उपाय लागू करने के लिए कहें.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं के साथ-साथ, डेवलपर और असली उपयोगकर्ता को ज़रूरी जानकारी देने से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन को कम करने में मदद मिल सकती है. उपयोगकर्ताओं के लिए शिक्षा से जुड़े संसाधन और उनके गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए गए हैं. Gemma मॉडल के जिन इस्तेमाल पर पाबंदी है उनके बारे में हमारी इस्तेमाल की शर्तों में बताया गया है.
  • निजता का उल्लंघन: मॉडल को व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी) हटाने के लिए फ़िल्टर किए गए डेटा के आधार पर ट्रेनिंग दी गई थी. डेवलपर को सलाह दी जाती है कि वे निजता बनाए रखने से जुड़ी तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करें.

इस्तेमाल का मकसद

ऐप्लिकेशन

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) में अलग-अलग उद्योगों और डोमेन में कई तरह के ऐप्लिकेशन मौजूद होते हैं. संभावित इस्तेमाल की नीचे दी गई सूची को पूरा नहीं किया गया है. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में कॉन्टेक्स्ट के हिसाब से जानकारी देना है जिन्हें मॉडल बनाने वाले लोग, मॉडल ट्रेनिंग और डेवलपमेंट का हिस्सा मानते हैं.

  • कॉन्टेंट बनाना और बातचीत करना
    • टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल कविताओं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, ईमेल ड्राफ़्ट वगैरह जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट बनाने के लिए किया जा सकता है.
    • चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
    • टेक्स्ट की खास जानकारी: टेक्स्ट संग्रह, रिसर्च पेपर या रिपोर्ट के बारे में कम शब्दों में खास जानकारी जनरेट करें.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) से जुड़ी रिसर्च: ये मॉडल, शोधकर्ताओं को एनएलपी की तकनीकों के साथ प्रयोग करने, एल्गोरिदम डेवलप करने, और इस क्षेत्र को बेहतर बनाने में योगदान देने के लिए, एनएलपी की बुनियाद के तौर पर काम कर सकते हैं.
    • Language Learning टूल: इनकी मदद से, भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. इनसे व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
    • नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में जवाब जनरेट करके या टेक्स्ट के बड़े हिस्सों को एक्सप्लोर करने में शोधकर्ताओं की मदद करें.

फ़ायदे

रिलीज़ के समय, ये मॉडल बड़े लैंग्वेज मॉडल को बेहतर तरीके से इस्तेमाल करने में मदद करते हैं. इन्हें बड़े लैंग्वेज मॉडल की मदद से, बड़े लैंग्वेज मॉडल की तुलना में ज़िम्मेदार तरीके से एआई के डेवलपमेंट के लिए डिज़ाइन किया गया है.

इस दस्तावेज़ में बताई गई बेंचमार्क इवैलुएशन मेट्रिक का इस्तेमाल करके, इन मॉडल ने ओपन मॉडल के अन्य विकल्पों की तुलना में, बेहतर परफ़ॉर्मेंस दिखाया है.

खास तौर पर, RecurrentGemma मॉडल, जेम्मा मॉडल की तुलना में बेहतर परफ़ॉर्म करते हैं. हालांकि, अनुमान के दौरान ये तेज़ी से काम करते हैं और इनके लिए कम मेमोरी की ज़रूरत होती है. खास तौर पर, लंबे सीक्वेंस में ये मॉडल कम मेमोरी की ज़रूरत होती है.