जेमा मॉडल कार्ड

मॉडल पेज: Gemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

इनपुट और आउटपुट की खास जानकारी और खास जानकारी.

ब्यौरा

Gemma, Google का एक लाइटवेट और बेहतरीन ओपन मॉडल है. इसे Gemini मॉडल में इस्तेमाल की गई रिसर्च और तकनीक का इस्तेमाल करके बनाया गया है. ये टेक्स्ट-टू-टेक्स्ट, सिर्फ़ डिकोडर वाले बड़े भाषा मॉडल हैं. ये अंग्रेज़ी में उपलब्ध हैं. इनमें ओपन वेट, पहले से ट्रेन किए गए वैरिएंट, और निर्देश के हिसाब से बनाए गए वैरिएंट शामिल हैं. Gemma के मॉडल, टेक्स्ट जनरेट करने से जुड़े कई टास्क के लिए सही हैं. जैसे, सवालों के जवाब देना, खास जानकारी देना, और तर्क देना. इनका साइज़ छोटा होने की वजह से, इन्हें सीमित संसाधनों वाले प्लैटफ़ॉर्म पर भी डिप्लॉय किया जा सकता है. जैसे, लैपटॉप, डेस्कटॉप या आपका क्लाउड इन्फ़्रास्ट्रक्चर. इससे, एआई मॉडल का ऐक्सेस सभी के लिए उपलब्ध हो जाता है और सभी को इनोवेशन को बढ़ावा देने में मदद मिलती है.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, प्रॉम्प्ट या ऐसा दस्तावेज़ जिसकी खास जानकारी चाहिए.
  • आउटपुट: इनपुट के जवाब में, अंग्रेज़ी भाषा में जनरेट किया गया टेक्स्ट. जैसे, किसी सवाल का जवाब या किसी दस्तावेज़ की खास जानकारी.

उद्धरण

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

मॉडल का डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग के लिए इस्तेमाल किया गया डेटासेट

इन मॉडल को टेक्स्ट डेटा के ऐसे डेटासेट पर ट्रेन किया गया है जिसमें कई तरह के सोर्स शामिल हैं. इनमें कुल 6 ट्रिलियन टोकन हैं. यहां मुख्य कॉम्पोनेंट के बारे में बताया गया है:

  • वेब दस्तावेज़: वेब टेक्स्ट का अलग-अलग तरह का कलेक्शन, यह पक्का करता है कि मॉडल को भाषा की कई तरह की शैलियों, विषयों, और शब्दावली के बारे में जानकारी मिलती है. मुख्य रूप से अंग्रेज़ी भाषा में कॉन्टेंट.
  • कोड: मॉडल को कोड के साथ एक्सपोज़ करने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न को समझने में मदद मिलती है. इससे, कोड जनरेट करने या कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
  • गणित: गणित के टेक्स्ट पर ट्रेनिंग से, मॉडल को लॉजिकल रीज़निंग, सिंबल के तौर पर प्रज़ेंटेशन, और गणित से जुड़ी क्वेरी को हल करने में मदद मिलती है.

अलग-अलग डेटा सोर्स का इस्तेमाल करके, बेहतर भाषा मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और टेक्स्ट फ़ॉर्मैट को आसानी से मैनेज कर सकता है.

डेटा को पहले से प्रोसेस करना

ट्रेनिंग डेटा पर डेटा को साफ़ करने और फ़िल्टर करने के मुख्य तरीके यहां दिए गए हैं:

  • सीएसएएम फ़िल्टरिंग: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को ज़रूर फ़िल्टर किया गया था. इससे, नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को बाहर रखा जा सका.
  • संवेदनशील डेटा को फ़िल्टर करना: Gemma के पहले से ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर करने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया था.
  • अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

लागू करने से जुड़ी जानकारी

मॉडल के अंदरूनी काम करने के तरीके के बारे में जानकारी.

हार्डवेयर

Gemma को टेंसर प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv5e) की नई जनरेशन का इस्तेमाल करके ट्रेन किया गया था.

लार्ज लैंग्वेज मॉडल को ट्रेनिंग देने के लिए, कंप्यूटर की ज़्यादा क्षमता की ज़रूरत होती है. TPUs, मशीन लर्निंग में आम तौर पर इस्तेमाल होने वाले मैट्रिक ऑपरेशन के लिए खास तौर पर डिज़ाइन किए गए हैं. ये इस क्षेत्र में कई फ़ायदे देते हैं:

  • परफ़ॉर्मेंस: TPU को खास तौर पर, एलएलएम को ट्रेनिंग देने के लिए ज़रूरी बड़े-बड़े कैलकुलेशन को हैंडल करने के लिए डिज़ाइन किया गया है. ये सीपीयू की तुलना में, ट्रेनिंग की प्रोसेस को काफ़ी तेज़ कर सकते हैं.
  • मेमोरी: TPU में अक्सर ज़्यादा बैंडविड्थ वाली ज़्यादा मेमोरी होती है. इससे ट्रेनिंग के दौरान, बड़े मॉडल और बैच साइज़ को मैनेज किया जा सकता है. इससे मॉडल की क्वालिटी बेहतर हो सकती है.
  • स्केलिंग: TPU पॉड (TPU के बड़े क्लस्टर), बड़े फ़ाउंडेशन मॉडल की बढ़ती जटिलता को मैनेज करने के लिए, स्केलिंग वाला समाधान उपलब्ध कराते हैं. तेज़ और बेहतर तरीके से प्रोसेस करने के लिए, कई TPU डिवाइसों पर ट्रेनिंग को डिस्ट्रिब्यूट किया जा सकता है.
  • किफ़ायती: कई मामलों में, सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर की तुलना में, TPU बड़े मॉडल को ट्रेनिंग देने के लिए ज़्यादा किफ़ायती समाधान दे सकते हैं. खास तौर पर, जब तेज़ी से ट्रेनिंग देने की वजह से, समय और संसाधनों की बचत होती है.
  • ये फ़ायदे, पर्यावरण को बेहतर बनाने के लिए Google की प्रतिबद्धताओं के मुताबिक हैं.

सॉफ़्टवेयर

JAX और एमएल पाथवे का इस्तेमाल करके ट्रेनिंग दी गई थी.

JAX की मदद से, शोधकर्ता बड़े मॉडल को तेज़ी से और ज़्यादा असरदार तरीके से ट्रेनिंग देने के लिए, TPUs के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं.

एमएल पाथवे, Google की ओर से एआई (AI) सिस्टम बनाने की नई कोशिश है. ये सिस्टम, एक से ज़्यादा टास्क को एक साथ पूरा कर सकते हैं. यह खास तौर पर, फ़ाउंडेशन मॉडल के लिए सही है. इनमें इन जैसे बड़े लैंग्वेज मॉडल भी शामिल हैं.

JAX और ML Pathways का इस्तेमाल, Gemini फ़ैमिली के मॉडल के बारे में पेपर में बताए गए तरीके से किया जाता है. "Jax और Pathways के 'सिंगल कंट्रोलर' प्रोग्रामिंग मॉडल की मदद से, एक Python प्रोसेस से पूरे ट्रेनिंग रन को ऑर्केस्ट्रेट किया जा सकता है. इससे डेवलपमेंट वर्कफ़्लो को काफ़ी आसान बना दिया जाता है."

आकलन

मॉडल की परफ़ॉर्मेंस का आकलन करने वाली मेट्रिक और नतीजे.

बेंचमार्क के नतीजे

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था, ताकि टेक्स्ट जनरेशन के अलग-अलग पहलुओं को कवर किया जा सके:

मानदंड मेट्रिक Gemma PT 2B Gemma PT 7B
MMLU पांच शॉट, टॉप-1 42.3 64.3
HellaSwag बिना उदाहरण वाला प्रॉम्प्ट 71.4 81.2
PIQA बिना उदाहरण वाला प्रॉम्प्ट 77.3 81.2
SocialIQA बिना उदाहरण वाला प्रॉम्प्ट 49.7 51.8
BoolQ बिना उदाहरण वाला प्रॉम्प्ट 69.4 83.2
WinoGrande कुछ हिस्से का स्कोर 65.4 72.3
CommonsenseQA सात शॉट 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA पांच शॉट 53.2 63.4
सामान्य सवाल पांच शॉट 12.5 23.0
HumanEval pass@1 22.0 32.3
MBPP तीन शॉट 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4-शॉट 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
औसत 44.9 56.4

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा के आकलन का तरीका और नतीजे.

आकलन का तरीका

हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:

  • टेक्स्ट से टेक्स्ट में बदले गए कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़ी नीतियों के तहत आने वाले प्रॉम्प्ट का मानवीय आकलन. इन नीतियों में, बच्चों के यौन शोषण और उनके साथ बुरे बर्ताव, उत्पीड़न, हिंसा और खून-खराबे के साथ-साथ नफ़रत फैलाने वाली भाषा शामिल है.
  • टेक्स्ट से टेक्स्ट में बदलने की सुविधा से होने वाले नुकसान: WinoBias और BBQ डेटासेट जैसे काम के अकादमिक डेटासेट के हिसाब से बेंचमार्क.
  • याद रखना: ट्रेनिंग डेटा को याद रखने की सुविधा का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी के ज़ाहिर होने का जोखिम भी शामिल है.
  • बड़े पैमाने पर नुकसान: "खतरनाक क्षमताओं" की जांच, जैसे कि रासायनिक, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) खतरे.

जांच के नतीजे

नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, नुकसान पहुंचाने वाले कॉन्टेंट, याद रखने की सुविधा, बड़े पैमाने पर नुकसान पहुंचाने वाले कॉन्टेंट जैसी कैटगरी के लिए बनी इंटरनल नीतियों के मुताबिक हैं. यहां सुरक्षा से जुड़े कई मानदंडों के नतीजे दिखाए गए हैं. इनमें, BBQ, BOLD, Winogender, Winobias, RealToxicity, और TruthfulQA जैसे मानदंड शामिल हैं. इन मानदंडों के आधार पर, हम अपने ऐप्लिकेशन की सुरक्षा की जांच करते हैं.

Gemma 1.0

मानदंड मेट्रिक Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity औसत 6.86 7.90
बोल्ड 45.57 49.08
CrowS-Pairs top-1 45.82 51.33
BBQ Ambig एक शॉट, टॉप-1 62.58 92.54
BBQ Disambig top-1 54.62 71.99
Winogender top-1 51.25 54.17
TruthfulQA 44.84 31.81
Winobias 1_2 56.12 59.09
Winobias 2_2 91.10 92.23
Toxigen 29.77 39.59

Gemma 1.1

मानदंड मेट्रिक Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity औसत 7.03 8.04
बोल्ड 47.76
CrowS-Pairs top-1 45.89 49.67
BBQ Ambig एक शॉट, टॉप-1 58.97 86.06
BBQ Disambig top-1 53.90 85.08
Winogender top-1 50.14 57.64
TruthfulQA 44.24 45.34
Winobias 1_2 55.93 59.22
Winobias 2_2 89.46 89.2
Toxigen 29.64 38.75

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) का इस्तेमाल, कई इंडस्ट्री और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था.

  • कॉन्टेंट क्रिएशन और कम्यूनिकेशन
    • टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
    • चैटबॉट और बातचीत वाले एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
    • टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
  • रिसर्च और शिक्षा
    • नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: ये मॉडल, शोधकर्ताओं के लिए आधार के तौर पर काम कर सकते हैं, ताकि वे एनएलपी तकनीकों के साथ प्रयोग कर सकें, एल्गोरिदम डेवलप कर सकें, और इस फ़ील्ड को आगे बढ़ा सकें.
    • भाषा सीखने के टूल: ये टूल, भाषा सीखने के इंटरैक्टिव अनुभवों के साथ काम करते हैं. साथ ही, व्याकरण में सुधार करने या लिखने का अभ्यास करने में मदद करते हैं.
    • नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में सवालों के जवाब देकर या खास विषयों की खास जानकारी जनरेट करके, शोधकर्ताओं को बड़े टेक्स्ट को एक्सप्लोर करने में मदद करता है.

सीमाएं

  • ट्रेनिंग के लिए डेटा
    • ट्रेनिंग डेटा की क्वालिटी और उसमें मौजूद अलग-अलग तरह के डेटा का असर, मॉडल की परफ़ॉर्मेंस पर काफ़ी पड़ता है. ट्रेनिंग डेटा में पक्षपात या गैप होने पर, मॉडल के जवाबों में सीमाएं आ सकती हैं.
    • ट्रेनिंग डेटासेट के दायरे से यह तय होता है कि मॉडल किन विषयों को असरदार तरीके से मैनेज कर सकता है.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • एलएलएम, उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ तौर पर दिए गए प्रॉम्प्ट और निर्देशों के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
    • किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की संख्या का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
  • भाषा में अस्पष्टता और बारीकियों का ध्यान रखना
    • नैचुरल लैंग्वेज अपने-आप जटिल होती है. एलएलएम को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं हैं. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
  • सामान्य नियमों का पालन करना
    • एलएलएम, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ मामलों में सामान्य ज्ञान के हिसाब से फ़ैसला न ले पाएं.

नैतिकता से जुड़ी बातें और जोखिम

लार्ज लैंग्वेज मॉडल (एलएलएम) बनाने से, नैतिकता से जुड़ी कई समस्याएं आती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया के टेक्स्ट डेटा पर ट्रेन किए गए एलएलएम, ट्रेनिंग मटीरियल में शामिल सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने के बारे में बताया गया है. साथ ही, इस कार्ड में बाद में किए गए आकलन की जानकारी दी गई है.
  • गलत जानकारी और उसका गलत इस्तेमाल
    • एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और जवाबदेही:
    • इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रोसेस के बारे में खास जानकारी दी गई है.
    • ज़िम्मेदारी के साथ तैयार किए गए ओपन मॉडल की मदद से, एआई नेटवर्क के डेवलपर और शोधकर्ताओं के लिए एलएलएम टेक्नोलॉजी को उपलब्ध कराया जाता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.

जोखिमों की पहचान और उन्हें कम करने के तरीके:

  • पक्षपात को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेन करते समय, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन की मेट्रिक और मानवीय समीक्षा का इस्तेमाल करें. साथ ही, मॉडल को बेहतर बनाने और अन्य इस्तेमाल के उदाहरणों के दौरान, पक्षपात को कम करने की तकनीकों को एक्सप्लोर करें.
  • नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि इसके लिए तंत्र और दिशा-निर्देश मौजूद हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और आखिरी उपयोगकर्ता को दी जाने वाली शिक्षा से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन को कम करने में मदद मिल सकती है. उपयोगकर्ताओं को गलत इस्तेमाल की शिकायत करने के लिए, जानकारी देने वाले संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
  • निजता का उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) हटाने के लिए फ़िल्टर किया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों का इस्तेमाल करके, निजता के नियमों का पालन करने के लिए बढ़ावा दिया जाता है.

फ़ायदे

रिलीज़ के समय, मॉडल का यह फ़ैमिली, ज़्यादा परफ़ॉर्म करने वाले ओपन लार्ज लैंग्वेज मॉडल लागू करता है. इन मॉडल को शुरू से ही ज़िम्मेदार एआई के डेवलपमेंट के लिए डिज़ाइन किया गया है. यह सुविधा, मिलते-जुलते साइज़ के मॉडल की तुलना में बेहतर है.

इस दस्तावेज़ में बताई गई बेंचमार्क मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना के हिसाब से, साइज़ में मिलते-जुलते अन्य ओपन मॉडल के विकल्पों की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.