Gemma 2 मॉडल कार्ड

मॉडल पेज: जेमा

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

इनपुट और आउटपुट की खास जानकारी और उसकी कम शब्दों में परिभाषा.

जानकारी

Gemma एक लाइटवेट और बेहतरीन ओपन मॉडल है. इसे Google ने बनाया है. इसे Gemini मॉडल में इस्तेमाल की गई रिसर्च और टेक्नोलॉजी का इस्तेमाल करके बनाया गया है. ये टेक्स्ट-टू-टेक्स्ट, सिर्फ़ डिकोडर वाले लार्ज लैंग्वेज मॉडल होते हैं. ये अंग्रेज़ी में उपलब्ध होते हैं. इनमें पहले से ट्रेन किए गए वैरिएंट और निर्देश के मुताबिक बनाए गए वैरिएंट, दोनों को ओपन वेट माना जाता है. जेमा मॉडल, टेक्स्ट जनरेट करने से जुड़े कई तरह के काम के लिए सबसे सही हैं. इनमें सवालों का जवाब देना, खास जानकारी देना, और तर्क करना शामिल है. यह मॉडल, बाकी सिस्टम से छोटा है. इनकी वजह से, इन्हें लैपटॉप, डेस्कटॉप या अपने क्लाउड इन्फ़्रास्ट्रक्चर जैसे सीमित संसाधनों वाले प्लैटफ़ॉर्म पर डिप्लॉय किया जा सकता है. साथ ही, बेहतरीन एआई मॉडल का ऐक्सेस सभी के लिए उपलब्ध कराया जा सकता है और सभी के लिए इनोवेशन को बढ़ावा दिया जा सकता है.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, प्रॉम्प्ट या खास जानकारी देने वाला दस्तावेज़.
  • आउटपुट: इनपुट के जवाब में जनरेट किया गया अंग्रेज़ी भाषा का टेक्स्ट, जैसे कि किसी सवाल का जवाब या किसी दस्तावेज़ की खास जानकारी.

उद्धरण

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

मॉडल डेटा

मॉडल ट्रेनिंग के लिए इस्तेमाल किया जाने वाला डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग डेटासेट

इन मॉडल को टेक्स्ट डेटा के ऐसे डेटासेट के आधार पर ट्रेनिंग दी गई है जिसमें कई तरह के सोर्स शामिल हैं. 27B मॉडल को 1.3 खरब टोकन की मदद से ट्रेनिंग दी गई थी. साथ ही, 9B मॉडल को 8 ट्रिलियन टोकन के साथ ट्रेनिंग दी गई थी. यहां कुछ ज़रूरी कॉम्पोनेंट दिए गए हैं:

  • वेब दस्तावेज़: वेब टेक्स्ट का अलग-अलग तरह का संग्रह यह पक्का करता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में पता चले. मुख्य तौर पर अंग्रेज़ी भाषा वाला कॉन्टेंट.
  • कोड: कोड के साथ मॉडल की जानकारी शेयर करने से, इसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न को सीखने में मदद मिलती है. इससे कोड जनरेट करने की इसकी क्षमता या कोड से जुड़े सवालों को बेहतर तरीके से समझने में मदद मिलती है.
  • गणित: गणित के टेक्स्ट से जुड़ी ट्रेनिंग से मॉडल को लॉजिकल रीज़निंग, सिम्बॉलिक रिप्रज़ेंटेशन, और गणित से जुड़ी क्वेरी के जवाब देने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स का कॉम्बिनेशन, भाषा के एक ऐसे ताकतवर मॉडल की ट्रेनिंग के लिए बहुत ज़रूरी है जो कई तरह के टास्क और टेक्स्ट फ़ॉर्मैट को हैंडल कर सके.

डेटा प्री-प्रोसेसिंग

ट्रेनिंग डेटा पर लागू किए गए, डेटा को हटाने और फ़िल्टर करने के मुख्य तरीके यहां दिए गए हैं:

  • सीएसएएम फ़िल्टर करने की सुविधा: सीएसएएम कॉन्टेंट को सख्ती से फ़िल्टर करने की सुविधा, डेटा तैयार करने के दौरान कई चरणों में लागू की गई थी. ऐसा इसलिए किया गया था, ताकि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को बाहर रखा जा सके.
  • संवेदनशील डेटा को फ़िल्टर करना: Gemma के पहले से ट्रेनिंग किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से मिली कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया जा सका.
  • दूसरे तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के हिसाब से फ़िल्टर करना.

लागू करने के बारे में जानकारी

मॉडल इंटर्नल के बारे में जानकारी.

हार्डवेयर

जेमा को टेन्सर प्रोसेसिंग यूनिट (टीपीयू) हार्डवेयर (TPUv5p) की सबसे नई जनरेशन का इस्तेमाल करके ट्रेनिंग दी गई है.

लार्ज लैंग्वेज मॉडल की ट्रेनिंग के लिए, कंप्यूटेशनल पावर की ज़रूरत होती है. खास तौर पर, मशीन लर्निंग में इस्तेमाल होने वाले मैट्रिक्स ऑपरेशन के लिए डिज़ाइन किए गए TPU के इस डोमेन के कई फ़ायदे हैं:

  • परफ़ॉर्मेंस: TPU को खास तौर पर, एलएलएम की ट्रेनिंग में इस्तेमाल होने वाली बहुत सारी कंप्यूटेशन की जानकारी को हैंडल करने के लिए डिज़ाइन किया गया है. वे सीपीयू की तुलना में, ट्रेनिंग की रफ़्तार को काफ़ी बढ़ा सकते हैं.
  • मेमोरी: TPU में अक्सर हाई बैंडविथ वाली मेमोरी होती है. इससे, ट्रेनिंग के दौरान बड़े मॉडल और बैच साइज़ को मैनेज किया जा सकता है. इससे मॉडल की क्वालिटी बेहतर हो सकती है.
  • बड़े स्तर पर इस्तेमाल की जा सकने वाली क्षमता: TPU पॉड (TPU के बड़े क्लस्टर), फ़ाउंडेशन के बड़े मॉडल की बढ़ती जटिलता को मैनेज करने के लिए, बड़े पैमाने पर समाधान देते हैं. ट्रेनिंग को कई TPU डिवाइसों के बीच डिस्ट्रिब्यूट किया जा सकता है, ताकि उन्हें तेज़ी से और बेहतर तरीके से प्रोसेस किया जा सके.
  • लागत की बचत: कई मामलों में, सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर के मुकाबले, बड़े मॉडल को ट्रेनिंग देने के लिए TPU ज़्यादा किफ़ायती समाधान दे सकता है. खास तौर पर, जब तेज़ ट्रेनिंग की वजह से समय और संसाधनों की बचत हो.
  • ये फ़ायदे, ईको-फ़्रेंडली तरीके से काम करने के लिए, Google की प्रतिबद्धता के हिसाब से हैं.

सॉफ़्टवेयर

ट्रेनिंग, JAX और एमएल पाथवे का इस्तेमाल करके की गई थी.

JAX की मदद से, रिसर्च करने वाले लोग नए जनरेशन के हार्डवेयर का इस्तेमाल कर सकते हैं. इसमें TPU भी शामिल हैं. इससे बड़े मॉडल को तेज़ी से और बेहतर तरीके से ट्रेनिंग दी जा सकती है.

मशीन लर्निंग पाथवे, आर्टिफ़िशियल इंटेलिजेंट सिस्टम बनाने वाली Google की सबसे नई कोशिश है. इस सिस्टम को एक से ज़्यादा कामों के लिए इस्तेमाल किया जा सकता है. यह सुविधा फ़ाउंडेशन मॉडल के लिए खास तौर पर सही है. इनमें इन जैसे बड़े लैंग्वेज मॉडल भी शामिल हैं.

जैक्स और एमएल पाथवे का एक साथ इस्तेमाल किया जाता है, जैसा कि Gemini मॉडल के पेपर में बताया गया है. "JAX और पाथवे का 'सिंगल कंट्रोलर' प्रोग्रामिंग मॉडल एक साथ पूरी ट्रेनिंग को व्यवस्थित करने के लिए, एक Python प्रोसेस को पूरा करता है. इससे डेवलपमेंट वर्कफ़्लो बहुत आसान हो जाता है."

आकलन

मॉडल इवैलुएशन मेट्रिक और नतीजे.

बेंचमार्क परिणाम

टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को शामिल करने के लिए, इन मॉडल का आकलन अलग-अलग डेटासेट और मेट्रिक के एक बड़े कलेक्शन से किया गया:

मानदंड मेट्रिक जेमा पीटी 9बी जेमा पीटी 27B
एमएमएलयू 5-शॉट, टॉप-1 71.3 75.2
HellaSwag 10-शॉट 81.9 86.4
पीआईक्यूए 0-शॉट 81.7 83.2
SocialIQA 0-शॉट 53.4 53.7
BoolQ 0-शॉट 84.2 84.8
WinoGrande आंशिक स्कोर 80.6 83.7
एआरसी-ई 0-शॉट 88.0 88.6
एआरसी-सी 25-शॉट 68.4 71.4
TriviaQA 5-शॉट 76.6 83.7
सामान्य सवाल 5-शॉट 29.2 34.5
HumanEval पास@1 40.2 51.8
एमबीपीपी 3-शॉट 52.4 62.6
जीएसएम8के 5-शॉट, maj@1 68.6 74.0
MATH 4-शॉट 36.6 42.3
AGIEval 3-5-शॉट 52.8 55.1
बिग-बेंच 3-शॉट, CoT 68.2 74.9

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा का आकलन करने का तरीका और नतीजे.

आकलन करने का तरीका

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड आकलन और काम के कॉन्टेंट की नीतियों के लिए इंटरनल रेड-टीमिंग टेस्टिंग शामिल है. रेड-टीमिंग को कई अलग-अलग टीमों ने आयोजित किया. हर टीम के लक्ष्य और मैन्युअल तौर पर आकलन करने की मेट्रिक अलग-अलग थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के आधार पर किया गया. इनमें ये शामिल हैं:

  • टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: मानवीय आकलन, जिसमें बच्चों का यौन शोषण और उनके साथ बुरा बर्ताव, उत्पीड़न, हिंसा, खून-खराबा, और नफ़रत फैलाने वाली भाषा जैसी सुरक्षा नीतियों की जानकारी दी गई हो.
  • टेक्स्ट को टेक्स्ट में बदलने से जुड़े नुकसान: WinoBias और BBQ डेटासेट जैसे काम के अकैडमिक डेटासेट के लिए बेंचमार्क.
  • याद रखना: व्यक्तिगत पहचान से जुड़ी जानकारी के सार्वजनिक होने के जोखिम के साथ-साथ ट्रेनिंग डेटा को याद रखने का अपने-आप आकलन करना.
  • बड़े स्तर पर नुकसान: "खतरनाक क्षमताओं" की जांच, जैसे कि रसायन, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) से जुड़े जोखिमों की जांच.

आकलन के नतीजे

नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, इन कैटगरी से जुड़ी इंटरनल नीतियों के तहत तय थ्रेशोल्ड के दायरे में आते हैं. इन नीतियों में, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, प्रतिनिधित्व से जुड़ा नुकसान, याद रखना, बड़े पैमाने पर नुकसान पहुंचाना शामिल है. बेहतर अंदरूनी आकलन के अलावा, बारबेक्यू, BOLD, Winogender, Winobias, RealToxicity, और TruthfullQA जैसे जाने-माने सुरक्षा मानकों के नतीजे यहां दिखाए गए हैं.

जेमा 2.0

मानदंड मेट्रिक जेमा 2 आईटी 9बी जेमा 2 आईटी 27B
RealToxicity औसत 8.25 8.84
CrowS-पेयर top-1 37.47 36.67
बार्बेक्यू अंबिग 1-शॉट, टॉप-1 88.58 85.99
बार्बेक्यू डिसएंबिग top-1 82.67 86.94
विनोजेंडर top-1 79.17 77.22
TruthfulQA 50.27 51.60
विनोबियास 1_2 78.09 81.94
विनोबियास 2_2 95.32 97.22
टॉक्सिकन 39.30 38.42

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) के अलग-अलग तरह के उद्योगों और डोमेन में इस्तेमाल किए जा सकते हैं. संभावित इस्तेमाल की नीचे दी गई सूची पूरी नहीं है. इस सूची का मकसद इस्तेमाल के उन उदाहरणों के बारे में काम की जानकारी देना है जिन्हें मॉडल क्रिएटर्स, मॉडल ट्रेनिंग और डेवलपमेंट के हिस्से के तौर पर देखते हैं.

  • कॉन्टेंट बनाना और कम्यूनिकेशन
    • टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल कविताओं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
    • चैटबॉट और बातचीत वाला एआई मॉडल: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस बेहतर बनाएं.
    • टेक्स्ट की खास जानकारी देना: किसी टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट के बारे में कम शब्दों में खास जानकारी जनरेट करें.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: ये मॉडल, एनएलपी की तकनीकों के साथ प्रयोग करने, एल्गोरिदम डेवलप करने, और फ़ील्ड को बेहतर बनाने में योगदान देने के लिए, रिसर्चर के बुनियाद के तौर पर काम कर सकते हैं.
    • लैंग्वेज लर्निंग टूल: ये ऐप्लिकेशन, भाषा सीखने का इंटरैक्टिव अनुभव देते हैं. इनसे व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
    • नॉलेज एक्सप्लोरेशन: खास जानकारी जनरेट करके या खास विषयों से जुड़े सवालों के जवाब देकर, रिसर्च करने वाले लोगों को टेक्स्ट के बड़े हिस्सों को एक्सप्लोर करने में मदद करता है.

सीमाएं

  • ट्रेनिंग का डेटा
    • ट्रेनिंग डेटा की क्वालिटी और विविधता से मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में फ़र्क़ या अंतर होने की वजह से, मॉडल के रिस्पॉन्स में कमी आ सकती है.
    • ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल किन विषयों को बेहतर तरीके से मैनेज कर सकता है.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • एलएलएम उन टास्क के लिए बेहतर होते हैं जिन्हें साफ़ तौर पर दिए जाने वाले निर्देशों और निर्देशों की मदद से फ़्रेम किया जा सकता है. ऐसे टास्क हो सकते हैं जिनका जवाब विस्तार से देना होता है या जिन्हें बेहद मुश्किलों से गुज़रना पड़ता है.
    • दिए गए संदर्भ का इस्तेमाल करके, मॉडल की परफ़ॉर्मेंस पर असर पड़ सकता है. लंबे कॉन्टेक्स्ट के साथ, आम तौर पर एक तय सीमा तक बेहतर आउटपुट मिलते हैं.
  • भाषा को समझना और उसकी बारीकियों को समझना
    • प्राकृतिक भाषा स्वाभाविक रूप से जटिल होती है. एलएलएम को छोटी-छोटी बारीकियों, व्यंग्य या कला को समझने में दिक्कत हो सकती है.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, अपने ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, ये नॉलेज बेस नहीं होते हैं. उनसे तथ्यों पर आधारित गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
  • सामान्य ज्ञान
    • एलएलएम, भाषा के आंकड़ों वाले पैटर्न पर निर्भर करते हैं. कुछ मामलों में, हो सकता है कि वे कॉमन सेंस रीज़निंग से जुड़े सवालों के जवाब न दे पाएं.

नैतिक तौर पर सोच-विचार और जोखिम

लार्ज लैंग्वेज मॉडल (एलएलएम) का विकास, कई नैतिक मुद्दों को दर्शाता है. ओपन मॉडल बनाते समय हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • असल दुनिया के टेक्स्ट डेटा पर आधारित बड़े स्तर पर ट्रेन किए गए एलएलएम, ट्रेनिंग कॉन्टेंट में जोड़े गए सामाजिक-सांस्कृतिक भेदभावों को दिखा सकते हैं. इन मॉडल की सावधानी से जांच की गई है. साथ ही, इस कार्ड में रिपोर्ट की गई, इनपुट डेटा की प्री-प्रोसेसिंग के बारे में बताया गया है और इसके बाद के आकलन किए गए हैं.
  • गलत जानकारी और उसका गलत इस्तेमाल
    • एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • इस मॉडल का इस्तेमाल ज़िम्मेदारी से करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और ज़िम्मेदारी:
    • यह मॉडल कार्ड, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस की खास जानकारी देता है.
    • ज़िम्मेदारी के साथ तैयार किए गए ओपन मॉडल से, एआई ईकोसिस्टम के डेवलपर और शोधकर्ताओं के लिए, एलएलएम टेक्नोलॉजी को ऐक्सेस करने में मदद मिलती है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.

जोखिमों की पहचान की गई और उन्हें कम करने की प्रोसेस:

  • पक्षपात को दूर करना: मॉडल ट्रेनिंग, बेहतर बनाने, और इस्तेमाल के दूसरे उदाहरणों के दौरान, लगातार निगरानी रखने ( आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करके) और बिना पक्षपात वाली तकनीकों की खोज करने के लिए प्रोत्साहित किया जाता है.
  • नुकसान पहुंचाने वाला कॉन्टेंट बनाना: कॉन्टेंट की सुरक्षा के लिए तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे अपने प्रॉडक्ट की खास नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए सही उपाय करें और सावधानी बरतें.
  • नुकसान पहुंचाने के मकसद से इसका गलत इस्तेमाल: तकनीकी सीमाओं के साथ-साथ, डेवलपर और असली उपयोगकर्ताओं के बारे में जानकारी देने की सुविधा की मदद से, नुकसान पहुंचाने वाले एलएलएम ऐप्लिकेशन का इस्तेमाल कम किया जा सकता है. गलत इस्तेमाल की शिकायत करने के लिए, शिक्षा से जुड़े संसाधन और उपयोगकर्ताओं को शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के ऐसे इस्तेमाल पर पाबंदी है जिनके इस्तेमाल पर पाबंदी है. इसके बारे में Gemma के इस्तेमाल पर पाबंदी की नीति में बताया गया है.
  • निजता के उल्लंघन: व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी) हटाने के लिए, मॉडल को फ़िल्टर किए गए डेटा के हिसाब से ट्रेनिंग दी गई. डेवलपर को निजता बनाए रखने वाली तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करने की सलाह दी जाती है.

फ़ायदे

रिलीज़ के समय, इस तरह के मॉडल अच्छी परफ़ॉर्मेंस वाले, बड़े लैंग्वेज मॉडल उपलब्ध कराते हैं. इन्हें रिस्पॉन्सिबल एआई डेवलपमेंट के लिए, एक जैसे साइज़ वाले मॉडल की तुलना में शुरुआत से ही डिज़ाइन किया गया है.

इस दस्तावेज़ में बताई गई बेंचमार्क इवैलुएशन मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना करके, अन्य ओपन मॉडल वाले विकल्पों की तुलना में बेहतर परफ़ॉर्म किया है.