RecurrentGemma मॉडल कार्ड

मॉडल पेज: RecurrentGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

कंपनी का ब्यौरा

RecurrentGemma खुले लैंग्वेज मॉडल का एक फ़ैमिली ग्रुप है, जिसे Google में डेवलप किए गए बार-बार लागू होने वाले नए आर्किटेक्चर पर बनाया गया है. पहले से ट्रेनिंग और निर्देशों वाले, दोनों वर्शन अंग्रेज़ी में उपलब्ध हैं.

जेमा की तरह, RecurrentGemma मॉडल भी टेक्स्ट जनरेट करने से जुड़े कई तरह के काम के लिए सबसे अच्छे होते हैं जैसे, सवाल का जवाब देना, ख़ास जानकारी देना, और तर्क करना. RecurrentGemma की नई बनावट की वजह से, इसे जेमा के मुकाबले कम मेमोरी की ज़रूरत होती है. साथ ही, यह लंबे क्रम बनाते समय तेज़ी से अनुमान लगा पाता है.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग (जैसे, कोई सवाल, प्रॉम्प्ट या खास जानकारी देने वाला दस्तावेज़).
  • आउटपुट: इनपुट के जवाब में अंग्रेज़ी भाषा का टेक्स्ट जनरेट किया गया (उदाहरण के लिए, सवाल का जवाब, दस्तावेज़ की खास जानकारी).

उद्धरण

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

मॉडल डेटा

डेटासेट और डेटा प्रोसेसिंग की ट्रेनिंग

RecurrentGemma उसी ट्रेनिंग डेटा और डेटा प्रोसेसिंग का इस्तेमाल करता है जिसका इस्तेमाल जेमा मॉडल फ़ैमिली करता है. पूरी जानकारी Gemma मॉडल कार्ड पर देखी जा सकती है.

लागू करने के बारे में जानकारी

ट्रेनिंग के दौरान इस्तेमाल किए जाने वाले हार्डवेयर और फ़्रेमवर्क

Gemma की तरह RecurrentGemma को TPUv5e पर, JAX और ML पाथवे का इस्तेमाल करके ट्रेनिंग दी गई.

इवैलुएशन की जानकारी

बेंचमार्क नतीजे

आकलन करने का तरीका

टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को शामिल करने के लिए, इन मॉडल का आकलन अलग-अलग डेटासेट और मेट्रिक के एक बड़े कलेक्शन से किया गया:

जांच के नतीजे

मानदंड मेट्रिक RecurrentGemma 2B RecurrentGemma 9B
एमएमएलयू 5-शॉट, टॉप-1 38.4 60.5
HellaSwag 0-शॉट 71.0 80.4
पीआईक्यूए 0-शॉट 78.5 81.3
SocialIQA 0-शॉट 51.8 52.3
BoolQ 0-शॉट 71.3 80.3
WinoGrande आंशिक स्कोर 67.8 73.6
CommonsenseQA 7-शॉट 63.7 73.2
OpenBookQA 47.2 51.8
एआरसी-ई 72.9 78.8
एआरसी-सी 42.3 52.0
TriviaQA 5-शॉट 52.5 70.5
सामान्य सवाल 5-शॉट 11.5 21.7
HumanEval पास@1 21.3 31.1
एमबीपीपी 3-शॉट 28.8 42.0
जीएसएम8के maj@1 13.4 42.6
MATH 4-शॉट 11 23.8
AGIEval 23.8 39.3
बिग-बेंच 35.3 55.2
औसत 44.6 56.1

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा की जांच

इवैलुएशन अप्रोच

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड आकलन और काम के कॉन्टेंट की नीतियों के लिए इंटरनल रेड-टीमिंग टेस्टिंग शामिल है. रेड-टीमिंग को कई अलग-अलग टीमों ने आयोजित किया. हर टीम के लक्ष्य और मैन्युअल तौर पर आकलन करने की मेट्रिक अलग-अलग थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के आधार पर किया गया. इनमें ये शामिल हैं:

  • टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़ी नीतियों के बारे में मानवीय आकलन. इन नीतियों में बच्चों का यौन शोषण और उनके साथ बुरा बर्ताव, उत्पीड़न, हिंसा, खून-खराबा, और नफ़रत फैलाने वाली भाषा शामिल है.
  • टेक्स्ट को टेक्स्ट में दिखाने से होने वाले नुकसान: WinoBias और बारबेक्यू डेटासेट जैसे ज़रूरी शैक्षणिक डेटासेट के लिए मानदंड.
  • याद रखना: ट्रेनिंग डेटा को याद रखने के लिए अपने-आप होने वाला आकलन. इसमें व्यक्तिगत पहचान से जुड़ी जानकारी दिखने का जोखिम भी शामिल है.
  • बड़े पैमाने पर नुकसान: “खतरनाक क्षमताओं” की जांच, जैसे कि केमिकल, बायोलॉजिकल, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) से जुड़े जोखिमों की जांच. साथ ही, लोगों को गुमराह करने और धोखाधड़ी करने, सायबर सुरक्षा, और स्वायत्त रेप्लिकेशन की जांच से जुड़े टेस्ट.

जांच के नतीजे

नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, निजी तौर पर नुकसान पहुंचाने, याद रखने, और बड़े पैमाने पर नुकसान पहुंचाने जैसी कैटगरी से जुड़ी इंटरनल नीतियों के मुताबिक सही थ्रेशोल्ड के दायरे में आते हैं. बेहतर अंदरूनी आकलन के अलावा, बारबेक्यू, Winogender, WinoBias, RealToxicity, और TruthfullQA जैसे जाने-माने सुरक्षा बेंचमार्क के नतीजे यहां दिखाए गए हैं.

मानदंड मेट्रिक RecurrentGemma 2B RecurrentGemma 2B आईटी RecurrentGemma 9B RecurrentGemma 9B आईटी
RealToxicity औसत 9.8 7.60 10.3 8.8
बोल्ड 39.3 52.3 39.8 47.9
CrowS-पेयर top-1 41.1 43.4 38.7 39.5
बार्बेक्यू अंबिग top-1 62.6 71.1 95.9 67.1
बार्बेक्यू डिसएंबिग top-1 58.4 50.8 78.6 78.9
विनोजेंडर top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90 75.4 90.2 90.3
टॉक्सिकन 56.7 50.0 58.8 64.5

मॉडल के इस्तेमाल और सीमाएं

सीमाएं

इन मॉडल की कुछ सीमाएं हैं जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए:

  • ट्रेनिंग के लिए डेटा
    • ट्रेनिंग डेटा की क्वालिटी और विविधता इस मॉडल की क्षमताओं पर काफ़ी असर डालती है. ट्रेनिंग डेटा में फ़र्क़ या अंतर की वजह से, मॉडल के रिस्पॉन्स में रुकावट आ सकती है.
    • ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल, किन विषयों को बेहतर तरीके से मैनेज कर सकता है.
  • कॉन्टेक्स्ट और टास्क से जुड़ी जटिलता
    • एलएलएम उन टास्क के लिए बेहतर होते हैं जिन्हें साफ़ तौर पर दिए जाने वाले निर्देशों और निर्देशों की मदद से फ़्रेम किया जा सकता है. ऐसे टास्क हो सकते हैं जिनका जवाब विस्तार से देना होता है या जिन्हें बेहद मुश्किलों से गुज़रना पड़ता है.
    • दिए गए संदर्भ का इस्तेमाल करके, मॉडल की परफ़ॉर्मेंस पर असर पड़ सकता है. लंबे कॉन्टेक्स्ट के साथ, आम तौर पर एक तय सीमा तक बेहतर आउटपुट मिलते हैं.
  • भाषा की अस्पष्टता और बारीकियां
    • प्राकृतिक भाषा स्वाभाविक रूप से जटिल होती है. एलएलएम को छोटी-छोटी बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, अपने ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, ये नॉलेज बेस नहीं होते हैं. उनसे तथ्यों पर आधारित गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
  • सामान्य ज्ञान
    • एलएलएम, भाषा के आंकड़ों वाले पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ मामलों में, वे कॉमन सेंस रीज़निंग से जुड़े सवालों के जवाब न दे पाएं.

नैतिक पहलुओं और जोखिमों से जुड़ी जानकारी

लार्ज लैंग्वेज मॉडल (एलएलएम) का विकास, कई नैतिक मुद्दों को दर्शाता है. ओपन मॉडल बनाते समय हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • असल दुनिया के टेक्स्ट डेटा पर बड़े पैमाने पर तैयार किए गए एलएलएम, ट्रेनिंग कॉन्टेंट में एम्बेड किए गए सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की सावधानी से जांच की गई, इनपुट डेटा की प्री-प्रोसेसिंग के बारे में बताया गया और इस कार्ड में रिपोर्ट किए गए, बाद के आकलन भी किए गए.
  • गलत जानकारी और गलत इस्तेमाल
  • पारदर्शिता और ज़िम्मेदारी
    • यह मॉडल कार्ड, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस की खास जानकारी देता है.
    • ज़िम्मेदारी के साथ तैयार किए गए ओपन मॉडल से, डेवलपर और रिसर्च करने वाले लोगों के लिए, एआई ईकोसिस्टम में मौजूद एलएलएम टेक्नोलॉजी को ऐक्सेस करके, इनोवेशन को शेयर करने का मौका मिलता है.

जोखिमों की पहचान की गई और उन्हें कम किया जा सकता है:

  • पूर्वाग्रहों को बनाए रखना: मॉडल ट्रेनिंग, बेहतर बनाने, और अन्य इस्तेमाल के उदाहरणों के दौरान, लगातार निगरानी रखने ( आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करके) और डी-बायसिंग टेक्नोलॉजी की एक्सप्लोरेशन (विश्लेषण का तरीका) की खोज करने के लिए प्रोत्साहित किया जाता है.
  • नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सावधानी बरतने और कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय करने के लिए कहा जाता है. उन्हें अपने प्रॉडक्ट की खास नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर ऐसा करना चाहिए.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं के साथ-साथ, डेवलपर और असली उपयोगकर्ताओं के बारे में जानकारी देने वाली सुविधाओं का इस्तेमाल करके, नुकसान पहुंचाने वाले एलएलएम के ऐप्लिकेशन का इस्तेमाल कम किया जा सकता है. गलत इस्तेमाल की शिकायत करने के लिए, शिक्षा से जुड़े संसाधन और उपयोगकर्ताओं को शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के पाबंदी वाले इस्तेमाल के बारे में हमारी इस्तेमाल की शर्तों में बताया गया है.
  • निजता के उल्लंघन: मॉडल को व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी) हटाने के लिए, फ़िल्टर किए गए डेटा के हिसाब से ट्रेनिंग दी गई. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ निजता के कानूनों का पालन करने की सलाह दी जाती है.

इस्तेमाल का मकसद

ऐप्लिकेशन

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) के अलग-अलग तरह के उद्योगों और डोमेन में इस्तेमाल किए जा सकते हैं. संभावित इस्तेमाल की नीचे दी गई सूची पूरी नहीं है. इस सूची का मकसद इस्तेमाल के उन उदाहरणों के बारे में काम की जानकारी देना है जिन्हें मॉडल क्रिएटर्स, मॉडल ट्रेनिंग और डेवलपमेंट के हिस्से के तौर पर देखते हैं.

  • कॉन्टेंट बनाना और उसके बारे में बातचीत करना
    • टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल कविताओं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, ईमेल ड्राफ़्ट वगैरह जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
    • चैटबॉट और बातचीत वाला एआई मॉडल: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस बेहतर बनाएं.
    • टेक्स्ट की खास जानकारी: किसी टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट के बारे में कम शब्दों में खास जानकारी जनरेट करें.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: ये मॉडल, रिसर्चर के लिए एनएलपी की तकनीकों के साथ प्रयोग करने, एल्गोरिदम डेवलप करने, और फ़ील्ड को बेहतर बनाने में मदद कर सकते हैं.
    • भाषा सीखने से जुड़े टूल: ये ऐप्लिकेशन, भाषा सीखने के इंटरैक्टिव अनुभव देते हैं. इनसे व्याकरण ठीक करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
    • नॉलेज एक्सप्लोरेशन: खास जानकारी जनरेट करके या चुनिंदा विषयों से जुड़े सवालों के जवाब देकर, रिसर्च करने वाले लोगों को टेक्स्ट के बड़े हिस्सों को एक्सप्लोर करने में मदद करता है.

फ़ायदे

रिलीज़ के समय, इस तरह के मॉडल अच्छी परफ़ॉर्मेंस वाले, बड़े लैंग्वेज मॉडल उपलब्ध कराते हैं. इन्हें रिस्पॉन्सिबल एआई डेवलपमेंट के लिए, एक जैसे साइज़ वाले मॉडल की तुलना में शुरुआत से ही डिज़ाइन किया गया है.

इस दस्तावेज़ में बताई गई बेंचमार्क इवैलुएशन मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना करके, अन्य ओपन मॉडल वाले विकल्पों की तुलना में बेहतर परफ़ॉर्म किया है.

खास तौर पर, RecurrentGemma मॉडल की परफ़ॉर्मेंस, Gemma मॉडल की तुलना में मिलती है, लेकिन वे अनुमान के दौरान तेज़ काम करते हैं और इनके लिए कम मेमोरी की ज़रूरत होती है. ख़ास तौर पर, लंबी अवधि वाले सीक्वेंस के मामले में ऐसा होता है.