मॉडल पेज: RecurrentGemma
संसाधन और तकनीकी दस्तावेज़:
इस्तेमाल की शर्तें: शर्तें
लेखक: Google
मॉडल की जानकारी
मॉडल की खास जानकारी
ब्यौरा
RecurrentGemma खुले लैंग्वेज मॉडल का एक परिवार है, जो बार-बार नए नॉवेल पर आधारित है आर्किटेक्चर को इकट्ठा किया है. दोनों पहले से ट्रेनिंग और निर्देशों वाले वर्शन अंग्रेज़ी में उपलब्ध हैं.
जेमा की तरह, RecurrentGemma मॉडल अलग-अलग तरह के टेक्स्ट के लिए सबसे अच्छे होते हैं जेन एआई से जुड़े टास्क, जैसे कि सवाल का जवाब देना, खास जानकारी देना, और तर्क देना. अपनी नई वास्तुकला के कारण, RecurrentGemma को जेमा और लंबे क्रम बनाते समय, तेज़ी से अनुमान हासिल करता है.
इनपुट और आउटपुट
- इनपुट: टेक्स्ट स्ट्रिंग (जैसे, कोई सवाल, प्रॉम्प्ट या कोई ऐसा दस्तावेज़ जिसे संक्षेप में).
- आउटपुट: इनपुट के जवाब में जनरेट किया गया अंग्रेज़ी भाषा का टेक्स्ट (उदाहरण के लिए, सवाल का जवाब, दस्तावेज़ की खास जानकारी).
उद्धरण
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
मॉडल डेटा
डेटासेट और डेटा प्रोसेसिंग की ट्रेनिंग
RecurrentGemma उसी ट्रेनिंग डेटा और डेटा प्रोसेसिंग का इस्तेमाल करता है जिसका इस्तेमाल जेमा मॉडल फ़ैमिली. पूरी जानकारी जेमा मॉडल पर मिल सकती है कार्ड.
लागू करने के बारे में जानकारी
ट्रेनिंग के दौरान इस्तेमाल किए जाने वाले हार्डवेयर और फ़्रेमवर्क
किसी ने भी पसंद नहीं किया Gemma, RecurrentGemma को TPUv5e, JAX और ML का इस्तेमाल करके पाथवे.
इवैलुएशन की जानकारी
बेंचमार्क नतीजे
आकलन करने का तरीका
इन मॉडल का आकलन, अलग-अलग डेटासेट के बड़े कलेक्शन के आधार पर किया गया और ये मेट्रिक, टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर करती हैं:
जांच के नतीजे
मानदंड | मेट्रिक | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-शॉट, टॉप-1 | 38.4 | 60.5 |
HellaSwag | 0-शॉट | 71.0 | 80.4 |
PIQA | 0-शॉट | 78.5 | 81.3 |
SocialIQA | 0-शॉट | 51.8 | 52.3 |
BoolQ | 0-शॉट | 71.3 | 80.3 |
WinoGrande | आंशिक स्कोर | 67.8 | 73.6 |
CommonsenseQA | 7-शॉट | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5-शॉट | 52.5 | 70.5 |
सामान्य सवाल | 5-शॉट | 11.5 | 21.7 |
HumanEval | पास@1 | 21.3 | 31.1 |
MBPP | 3-शॉट | 28.8 | 42.0 |
जीएसएम8के | maj@1 | 13.4 | 42.6 |
MATH | 4-शॉट | 11 | 23.8 |
AGIEval | 23.8 | 39.3 | |
बिग-बेंच | 35.3 | 55.2 | |
औसत | 44.6 | 56.1 |
नैतिकता और सुरक्षा
नैतिकता और सुरक्षा की जांच
इवैलुएशन अप्रोच
आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड इवैलुएशन और इंटरनल रेड-टीमिंग शामिल है प्रासंगिक सामग्री नीतियों का परीक्षण करते हैं. रेड-टीमिंग का आयोजन कई संगठनों ने किया था अलग-अलग टीमों के लिए बनाई गई हैं. हर टीम के लक्ष्य और मैन्युअल आकलन की मेट्रिक अलग-अलग हैं. ये मॉडल का आकलन, उन अलग-अलग कैटगरी के हिसाब से किया गया जो नैतिकता और सुरक्षा से जुड़ी नीतियां. इनमें ये शामिल हैं:
- टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़े प्रॉम्प्ट का मानवीय आकलन बच्चों के यौन शोषण और उनके साथ बुरे बर्ताव, उत्पीड़न, और हिंसा वाली नीतियां और अभद्र भाषा शामिल है.
- टेक्स्ट को टेक्स्ट में दिखाने से होने वाले नुकसान: शिक्षा के क्षेत्र से जुड़े कॉन्टेंट का मानदंड WinoBias और बारबेक्यू डेटासेट जैसे डेटासेट.
- याद रखना: ट्रेनिंग डेटा को याद रखने के लिए अपने-आप होने वाली प्रोसेस का आकलन करना, जैसे, व्यक्तिगत पहचान से जुड़ी जानकारी को सार्वजनिक करने का जोखिम.
- बड़े पैमाने पर होने वाला नुकसान: “खतरनाक क्षमताओं” की जांच, जैसे कि केमिकल, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) के जोखिम; और साथ ही इस तरह के टेस्ट भरोसा और धोखाधड़ी, सायबर सुरक्षा, और स्वायत्त रेप्लिकेशन.
जांच के नतीजे
नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, मान्य थ्रेशोल्ड में होते हैं मीटिंग के लिए आंतरिक नीतियां बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और प्रतिनिधित्व से जुड़े नुकसान जैसी कैटगरी के लिए याद रखना, बड़े स्तर पर नुकसान पहुंचाना. मज़बूत आंतरिक मूल्यांकन के आधार पर, बारबेक्यू, Winogender, WinoBias जैसे सुरक्षा मानदंडों के आधार पर, नतीजे दिखाए जाते हैं. RealToxicity और TruthfullQA को यहां दिखाया गया है.
मानदंड | मेट्रिक | RecurrentGemma 2B | RecurrentGemma 2B आईटी | RecurrentGemma 9B | RecurrentGemma 9B आईटी |
---|---|---|---|---|---|
RealToxicity | औसत | 9.8 | 7.60 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-पेयर | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
बार्बेक्यू अंबिग | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
बार्बेक्यू डिसएंबिग | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
विनोजेंडर | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
मॉडल के इस्तेमाल और सीमाएं
सीमाएं
इन मॉडल की कुछ सीमाएं हैं जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए:
- ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और विविधता काफ़ी अहम होती हैं मॉडल की क्षमताएं बेहतर हो सकती हैं. ट्रेनिंग डेटा में भेदभाव या अंतर की वजह से सीमित डेटा ही ऐक्सेस कर सकते हैं.
- ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल को अच्छी तरह से संभाल सकता है.
- कॉन्टेक्स्ट और टास्क से जुड़ी जटिलता
- एलएलएम उन टास्क को बेहतर तरीके से करते हैं जिन्हें सटीक प्रॉम्प्ट की मदद से फ़्रेम किया जा सकता है और निर्देश. ऐसे टास्क हो सकते हैं जिनका जवाब विस्तार से देना होता है या जिन्हें बेहद मुश्किलों से गुज़रना पड़ता है.
- किसी मॉडल की परफ़ॉर्मेंस, संदर्भ की मात्रा से प्रभावित हो सकती है ज़्यादा जानकारी उपलब्ध कराई जाती है. आम तौर पर, कॉन्टेक्स्ट मिलने पर बेहतर आउटपुट मिलता है. निश्चित बिंदु).
- भाषा की अस्पष्टता और बारीकियां
- प्राकृतिक भाषा स्वाभाविक रूप से जटिल होती है. एलएलएम को समझने में मुश्किल हो सकती है वीडियो में बारीकियां, व्यंग्य या अलंकारात्मक भाषा शामिल हो.
- तथ्यों की सटीक जानकारी
- एलएलएम, अपने छात्र-छात्राओं से मिली जानकारी के आधार पर जवाब जनरेट करते हैं ट्रेनिंग डेटासेट हो सकते हैं, लेकिन वे नॉलेज बेस नहीं हैं. इनकी मदद से, तथ्यों पर आधारित गलत या पुरानी जानकारी.
- सामान्य ज्ञान
- एलएलएम, भाषा के आंकड़ों वाले पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि उनके पास कुछ खास स्थितियों में, कॉमन सेंस रीज़निंग से जुड़े सवालों के जवाब दे पाना.
नैतिक पहलुओं और जोखिमों से जुड़ी जानकारी
लार्ज लैंग्वेज मॉडल (एलएलएम) का विकास, कई नैतिक मुद्दों को दर्शाता है. ओपन मॉडल बनाते समय हमने इन बातों का ध्यान रखा है:
- पक्षपात और निष्पक्षता
- असल दुनिया के टेक्स्ट डेटा को बड़े स्तर पर ट्रेनिंग देने वाले एलएलएम, रिपोर्ट में ट्रेनिंग के कॉन्टेंट में शामिल सामाजिक-सांस्कृतिक पक्षपात ये मॉडल की सावधानी से जांच की. साथ ही, डेटा प्री-प्रोसेसिंग के बारे में बताया और इस कार्ड में पोस्ट किए गए पिछले आकलन.
- गलत जानकारी और गलत इस्तेमाल
- एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला.
- दिशा-निर्देश, मॉडल के साथ ज़िम्मेदारी से इस्तेमाल करने के लिए दिए गए हैं. ज़्यादा जानने के लिए, ज़िम्मेदार जनरेटिव एआई टूलकिट.
- पारदर्शिता और ज़िम्मेदारी
- यह मॉडल कार्ड, मॉडल के विवरण का सारांश करता है आर्किटेक्चर, क्षमताएं, सीमाएं, और आकलन की प्रोसेस.
- ज़िम्मेदारी के साथ डेवलप किए गए ओपन मॉडल से, इनोवेशन के लिए, एलएलएम टेक्नोलॉजी को डेवलपर तक पहुंचाएं और रिसर्चर के तौर पर शामिल हैं.
जोखिमों की पहचान की गई और उन्हें कम किया जा सकता है:
- पक्षपातों को लागू न करना: हमारी सलाह है कि आप लगातार निगरानी करते रहें (इंवैलुएशन मेट्रिक, मानवीय समीक्षा का इस्तेमाल करके) और किसी एक पक्ष के पक्ष में सोच-समझकर फ़ैसले लेना मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के उदाहरणों के बारे में बताया जाना चाहिए.
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट बनाने के तरीके और दिशा-निर्देश सुरक्षा ज़रूरी है. डेवलपर को सावधानी बरतने के लिए प्रोत्साहित किया जाता है और कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपायों को लागू करना प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरण देखें.
- नुकसान पहुंचाने के मकसद से गलत तरीके से इस्तेमाल करना: तकनीकी सीमाएं और डेवलपर और असली उपयोगकर्ताओं के अनुभव की मदद से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन के इस्तेमाल को कम किया जा सकता है. गलत इस्तेमाल की शिकायत करने के लिए, शैक्षणिक संसाधन और शिकायत करने के तरीके दिया गया है. Gemma मॉडल के ऐसे इस्तेमाल पर पाबंदी है जो हमारी शर्तों इस्तेमाल करना होगा.
- निजता के उल्लंघन: मॉडल को ट्रेनिंग देने के लिए, डेटा को फ़िल्टर करने की ट्रेनिंग दी गई. इस डेटा को हटाने का अनुरोध किया गया व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी). डेवलपर को ये काम करने के लिए बढ़ावा दिया जाता है निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करना चाहिए.
इस्तेमाल का मकसद
ऐप्लिकेशन
ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) के अलग-अलग तरह के ऐप्लिकेशन हैं का इस्तेमाल करने की सलाह देते हैं. संभावित इस्तेमाल की यह सूची व्यापक. इस सूची का मकसद काम की जानकारी देना है इसमें इस्तेमाल के उन संभावित उदाहरणों के बारे में बताया गया है जिन्हें मॉडल क्रिएटर्स ने मॉडल का हिस्सा माना है ट्रेनिंग और डेवलपमेंट के बारे में है.
- कॉन्टेंट बनाना और बातचीत करना
- टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल, क्रिएटिव टेक्स्ट जनरेट करने के लिए किया जा सकता है कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, ईमेल ड्राफ़्ट वगैरह जैसे फ़ॉर्मैट
- चैटबॉट और बातचीत वाला एआई मॉडल: इस ऐप्लिकेशन की मदद से, बातचीत वाले इंटरफ़ेस बेहतर बनाएं ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन.
- टेक्स्ट की खास जानकारी: किसी टेक्स्ट ग्रुप के बारे में कम शब्दों में खास जानकारी जनरेट करो, रिसर्च पेपर या रिपोर्ट में शामिल हो सकती हैं.
- रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: इन मॉडल का इस्तेमाल की मदद से, रिसर्च करने वाले लोगों को एनएलपी की तकनीकों के साथ प्रयोग के लिए तैयार किया. एल्गोरिदम डेवलप करने और फ़ील्ड को बेहतर बनाने में योगदान देना.
- लैंग्वेज लर्निंग टूल: इंटरैक्टिव लैंग्वेज लर्निंग की सुविधा अनुभव, व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद करते हैं.
- नॉलेज एक्सप्लोरेशन: बड़े शरीरों को एक्सप्लोर करने में शोधकर्ताओं की मदद करता है जवाब तैयार करके या चुनिंदा क्वेरी के बारे में सवालों के जवाब देकर विषय.
फ़ायदे
रिलीज़ के समय, मॉडल का यह परिवार उच्च-परफ़ॉर्मेंस वाला ओपनिंग उपलब्ध कराता है रिस्पॉन्सिबल के लिए तैयार किया गया शुरुआत से डिज़ाइन किया गया बड़ा लैंग्वेज मॉडल एक जैसे साइज़ वाले मॉडल की तुलना में, एआई के इस्तेमाल से जुड़ा डेटा.
इस दस्तावेज़ में बताई गई बेंचमार्क आकलन मेट्रिक का इस्तेमाल करके, ये मॉडल अन्य, तुलनात्मक आकार के खुले मॉडल को बेहतर प्रदर्शन देते हुए दिखाए हैं विकल्प हैं.
खास तौर पर, RecurrentGemma मॉडल की परफ़ॉर्मेंस, Gemma की तुलना में मिलती है हालांकि, अनुमान लगाने के दौरान तेज़ी से काम करते हैं और इनके लिए कम मेमोरी की ज़रूरत होती है. खास तौर पर, लंबी अवधि वाले वीडियो का आनंद लें.