जेम्मा मॉडल कार्ड

मॉडल पेज: Gemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

इनपुट और आउटपुट के बारे में कम शब्दों में जानकारी और खास जानकारी.

ब्यौरा

जेम्मा, Google के हल्के और सबसे आधुनिक ओपन मॉडल का फ़ैमिली ग्रुप है. इन्हें उसी रिसर्च और टेक्नोलॉजी से बनाया गया है जिसका इस्तेमाल Gemini मॉडल को बनाने में किया जाता है. ये अंग्रेज़ी में उपलब्ध हैं, जो टेक्स्ट-टू-टेक्स्ट, डिकोडर वाले, बड़े लैंग्वेज मॉडल हैं. ये ओपन वेट, पहले से ट्रेन किए गए वैरिएंट, और निर्देश के हिसाब से बने वैरिएंट के साथ, अंग्रेज़ी में उपलब्ध हैं. जेम्मा मॉडल, टेक्स्ट जनरेट करने के कई तरह के कामों के लिए बेहतरीन काम करते हैं. इनमें सवाल का जवाब देना, खास जानकारी देना, और तर्क करना शामिल है. उनके छोटे साइज़ की वजह से इन्हें लैपटॉप, डेस्कटॉप या अपने क्लाउड इन्फ़्रास्ट्रक्चर जैसे सीमित संसाधनों वाले माहौल में डिप्लॉय करना मुमकिन हो गया, लोगों के लिए आर्ट एआई मॉडल का ऐक्सेस देना, और सभी के लिए इनोवेशन को बढ़ावा देना.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, कोई सूचना या ऐसा दस्तावेज़ जिसके बारे में खास जानकारी देनी है.
  • आउटपुट: इनपुट के जवाब के तौर पर अंग्रेज़ी में जनरेट किया गया टेक्स्ट, जैसे कि सवाल का जवाब या किसी दस्तावेज़ की खास जानकारी.

उद्धरण

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

मॉडल डेटा

मॉडल ट्रेनिंग के लिए इस्तेमाल किया जाने वाला डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग डेटासेट

इन मॉडल को टेक्स्ट डेटा के एक डेटासेट के आधार पर तैयार किया गया था. इसमें अलग-अलग तरह के सोर्स शामिल थे. इनमें कुल 6 खरब टोकन शामिल थे. अहम कॉम्पोनेंट यहां दिए गए हैं:

  • वेब दस्तावेज़: वेब टेक्स्ट का एक अलग-अलग तरह का कलेक्शन यह पक्का करता है कि मॉडल को भाषा की अलग-अलग स्टाइल, विषयों, और शब्दावली की जानकारी मिले. मुख्य तौर पर, अंग्रेज़ी भाषा में कॉन्टेंट.
  • कोड: मॉडल को कोड के साथ ऐक्सेस करने से, इसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न को सीखने में मदद मिलती है. इससे कोड जनरेट करने या कोड से जुड़े सवालों को समझने की इसकी क्षमता बेहतर हो जाती है.
  • गणित: गणित के टेक्स्ट की ट्रेनिंग से मॉडल को तार्किक तर्क, प्रतीक के तौर पर प्रतिनिधित्व, और गणित के सवालों को हल करने में मदद मिलती है.

इन अलग-अलग तरह के डेटा सोर्स का कॉम्बिनेशन, एक बेहतरीन लैंग्वेज मॉडल की ट्रेनिंग के लिए बहुत ज़रूरी है. यह मॉडल कई तरह के टास्क और टेक्स्ट फ़ॉर्मैट मैनेज कर सकता है.

डेटा प्रीप्रोसेसिंग

यहां ट्रेनिंग के डेटा पर लागू होने वाले, डेटा को हटाने और फ़िल्टर करने के मुख्य तरीके बताए गए हैं:

  • सीएसएएम फ़िल्टरिंग
  • संवेदनशील डेटा फ़िल्टर करना: Gemma के पहले से ट्रेनिंग वाले मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया, ताकि ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया जा सके.
  • अन्य तरीके: हमारी नीतियों के हिसाब से कॉन्टेंट की क्वालिटी और सुरक्षा के हिसाब से फ़िल्टर करना.

लागू करने से जुड़ी जानकारी

मॉडल इंटरनल के बारे में जानकारी.

हार्डवेयर

जेम्मा को टेन्सर प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv5e) की सबसे नई जनरेशन का इस्तेमाल करके ट्रेनिंग दी गई.

बड़े लैंग्वेज मॉडल की ट्रेनिंग के लिए, कम्प्यूटेशनल पावर की ज़रूरत होती है. TPU, जिसे खास तौर पर मशीन लर्निंग में आम तौर पर इस्तेमाल होने वाले मैट्रिक्स ऑपरेशन के लिए डिज़ाइन किया गया है. इस डोमेन में कई फ़ायदे हैं:

  • परफ़ॉर्मेंस: TPU को खास तौर पर, एलएलएम की ट्रेनिंग में शामिल बड़े पैमाने पर किए जाने वाले कंप्यूटेशन के हिसाब से डिज़ाइन किया गया है. वे सीपीयू की तुलना में, ट्रेनिंग की रफ़्तार को काफ़ी तेज़ कर सकते हैं.
  • मेमोरी: TPU में अक्सर ज़्यादा बैंडविड्थ की मेमोरी होती है. इससे ट्रेनिंग के दौरान, बड़े मॉडल और बैच साइज़ को मैनेज किया जा सकता है. इससे मॉडल की क्वालिटी बेहतर हो सकती है.
  • बढ़ाए जा सकने की योग्यता: TPU पॉड (TPU के बड़े क्लस्टर) बड़े फ़ाउंडेशन मॉडल की बढ़ती जटिलता से निपटने में बढ़ाने लायक समाधान देते हैं. तेज़ और बेहतर प्रोसेसिंग के लिए, कई TPU डिवाइसों पर ट्रेनिंग दी जा सकती है.
  • कम लागत में: कई मामलों में, सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर की तुलना में TPU बड़े मॉडल की ट्रेनिंग के लिए ज़्यादा किफ़ायती समाधान दे सकते हैं. खास तौर पर, ऐसा तब किया जाता है, जब तेज़ ट्रेनिंग की वजह से समय और संसाधनों की बचत होती है.
  • ये फ़ायदे, लंबे समय तक अपने कारोबार को चलाने की Google की प्रतिबद्धता के मुताबिक होते हैं.

सॉफ़्टवेयर

ट्रेनिंग JAX और एमएल पाथवे का इस्तेमाल करके की गई.

JAX की मदद से रिसर्च करने वाले लोग, बड़े मॉडल की तेज़ और बेहतर ट्रेनिंग के लिए, TPU के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं.

एमएल पाथवे, आर्टिफ़िशियल इंटेलिजेंस से जुड़े ऐसे सिस्टम बनाने के लिए Google का सबसे नया तरीका है जो एक साथ कई टास्क पूरे कर सकते हैं. यह खास तौर पर, बुनियादी मॉडल के लिए सही है. इनमें ऐसे बड़े लैंग्वेज मॉडल भी शामिल हैं जो इस तरह के होते हैं.

जैक्स और एमएल पाथवे एक साथ इस्तेमाल किए जाते हैं, जैसा कि मॉडल के Gemini परिवार के बारे में पेपर में बताया गया है. "JAX और पाथवे का 'सिंगल कंट्रोलर' प्रोग्रामिंग मॉडल, एक Python प्रोसेस की मदद से पूरे ट्रेनिंग रन को व्यवस्थित करता है. इससे डेवलपमेंट का वर्कफ़्लो काफ़ी आसान हो जाता है."

आकलन

मॉडल के इवैलुएशन मेट्रिक और नतीजे.

बेंचमार्क परिणाम

इन मॉडल का मूल्यांकन अलग-अलग डेटासेट और मेट्रिक के बड़े संग्रह के आधार पर किया गया था, ताकि टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सके:

मानदंड मेट्रिक जेम्मा पीटी 2B जेम्मा पीटी 7B
एमएमएलयू 5-शॉट, टॉप-1 42.3 78 जीबी में से
HellaSwag 0-शॉट 71.4 81.2
पीआईक्यूए 0-शॉट 77.3 81.2
SocialIQA 0-शॉट यूरो 51.8
BoolQ 0-शॉट यूरो 83.2
WinoGrande आंशिक स्कोर 75 72.3
CommonsenseQA सात-शॉट 75 71.3
OpenBookQA 47.8 यूरो
ARC-e 73.2 81.5
एआरसी-सी 42.1 53.2
TriviaQA पांच शॉट 53.2 78 जीबी में से
सामान्य सवाल पांच शॉट 78 जीबी में से 23.0
HumanEval पास@1 22.0 78 जीबी में से
एमबीपीपी तीन-शॉट 78 जीबी में से 44.4
जीएसएम8के maj@1 7.7 46.4
MATH चार-शॉट 78 जीबी में से 78 जीबी में से
AGIEval 78 जीबी में से 41.7
बिग-बेंच 78 जीबी में से 75
औसत 44.9 56.4

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा का आकलन करने के तरीके और नतीजे.

आकलन करने का तरीका

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड आकलन और काम की कॉन्टेंट की नीतियों की अंदरूनी रेड-टीमिंग टेस्टिंग शामिल है. रेड-टीमिंग को कई अलग-अलग टीमों ने आयोजित किया, जिनमें से हर एक के लक्ष्य और मैन्युअल आकलन मेट्रिक थे. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई कैटगरी को ध्यान में रखकर किया गया. इनमें ये शामिल हैं:

  • टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: इसमें, सुरक्षा नीतियों के बारे में मानवीय मूल्यांकन किया जाता है. इसमें बच्चों का यौन शोषण, उनके साथ यौन शोषण, उत्पीड़न, हिंसा, खून-खराबा, और नफ़रत फैलाने वाली भाषा का इस्तेमाल किया जाता है.
  • टेक्स्ट को टेक्स्ट में बदलने से जुड़े नुकसान: WinoBias और BBQ डेटासेट जैसे काम के अकैडमिक डेटासेट के लिए यह मानदंड.
  • याद रखना: ट्रेनिंग डेटा को याद रखने का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी को सार्वजनिक करने का जोखिम भी शामिल है.
  • बड़े स्तर पर नुकसान पहुंचाना: ऐसी "खतरनाक क्षमताओं" की जांच की गई हो, जैसे कि रसायन, जैविक, रेडियोलॉजिकल, और परमाणु (सीबीआरएन) से जुड़े जोखिम.

इवैलुएशन के नतीजे

नैतिकता और सुरक्षा की समीक्षा के नतीजे, इंटरनल नीतियों का पालन करने के लिए स्वीकार किए जाने वाले थ्रेशोल्ड के दायरे में आते हैं. ये नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, प्रतिनिधित्व करने वाले नुकसान, याददाश्त, और बड़े पैमाने पर नुकसान जैसी कैटगरी के लिए दिए जाते हैं. मज़बूत अंदरूनी आकलन के अलावा, बारबेक्यू, BOLD, Winogender, Winobies, RealToxicity, और TruthfulQA जैसे जाने-माने सुरक्षा मानदंड के नतीजे यहां दिखाए गए हैं.

जेम्मा 1.0

मानदंड मेट्रिक जेम्मा 1.0 आईटी 2B Gemma 1.0 आईटी 7B
RealToxicity औसत यूरो यूरो
बोल्ड यूरो 49.08
CrowS-जोड़े top-1 45.82 51.33
बीबीक्यू एम्बिग 1-शॉट, टॉप-1 यूरो 92.54
बीबीक्यू डिसंबिग top-1 54.62 डॉलर यूरो
विनोजेंडर top-1 51.25 डॉलर 54.17
TruthfulQA 44.84 31.81 डॉलर
विनोबिया 1_2 56.12 डॉलर यूरो
विनोबिया 2_2 91.10 यूरो
टॉक्सीजन यूरो यूरो

जेम्मा 1.1

मानदंड मेट्रिक Gemma 1.1 आईटी 2B Gemma 1.1 IT 7B
RealToxicity औसत 7.03 8.04
बोल्ड 47.76
CrowS-जोड़े top-1 यूरो यूरो
बीबीक्यू एम्बिग 1-शॉट, टॉप-1 यूरो 86.06
बीबीक्यू डिसंबिग top-1 यूरो 85.08
विनोजेंडर top-1 50.14 57.64
TruthfulQA 44.24 4,534
विनोबिया 1_2 यूरो यूरो
विनोबिया 2_2 यूरो यूरो
टॉक्सीजन यूरो यूरो

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) में अलग-अलग उद्योगों और डोमेन में कई तरह के ऐप्लिकेशन मौजूद होते हैं. संभावित इस्तेमाल की नीचे दी गई सूची को पूरा नहीं किया गया है. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में कॉन्टेक्स्ट के हिसाब से जानकारी देना है जिन्हें मॉडल बनाने वाले लोग, मॉडल ट्रेनिंग और डेवलपमेंट का हिस्सा मानते हैं.

  • कॉन्टेंट बनाना और बातचीत करना
    • टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल कविताओं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट बनाने के लिए किया जा सकता है.
    • चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
    • टेक्स्ट का सारांश: टेक्स्ट संग्रह, रिसर्च पेपर या रिपोर्ट के लिए कम शब्दों में खास जानकारी जनरेट करें.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: ये मॉडल, शोधकर्ताओं के लिए एनएलपी की तकनीकों के साथ प्रयोग करने, एल्गोरिदम डेवलप करने, और इस क्षेत्र को बेहतर बनाने में योगदान देने के लिए, एक बुनियाद के तौर पर काम कर सकते हैं.
    • लैंग्वेज लर्निंग टूल: इन ऐप्लिकेशन से भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. इनसे व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
    • नॉलेज एक्सप्लोरेशन: खास विषयों से जुड़े जवाब जनरेट करके या सवालों के जवाब देकर टेक्स्ट के बड़े हिस्सों को एक्सप्लोर करने में शोधकर्ताओं की मदद करें.

सीमाएं

  • ट्रेनिंग का डेटा
    • ट्रेनिंग डेटा की क्वालिटी और विविधता, मॉडल की क्षमताओं पर काफ़ी असर डालती है. ट्रेनिंग डेटा में किसी तरह का अंतर होने या कोई अंतर होने की वजह से, मॉडल के जवाबों पर पाबंदियां लग सकती हैं.
    • ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल, किन विषयों को बेहतर तरीके से हैंडल कर सकता है.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • एलएलएम ऐसे टास्क के लिए बेहतर होते हैं जिन्हें साफ़ तौर पर पूछे गए सवालों और निर्देशों की मदद से फ़्रेम किया जा सकता है. ऐसे टास्क करना मुश्किल हो सकता है जिनका जवाब विस्तार से देना होता है या जिनमें काफ़ी मुश्किल काम है.
    • दिए गए संदर्भ की संख्या से भी मॉडल की परफ़ॉर्मेंस पर असर पड़ सकता है (ज़्यादा लंबे संदर्भ से आम तौर पर एक खास पॉइंट तक बेहतर नतीजे मिलते हैं).
  • भाषा की अस्पष्टता और बारीकियां
    • प्राकृतिक भाषा अपने-आप में जटिल होती है. एलएलएम को बारीकियों, व्यंग्य या चीज़ों को समझने में मुश्किल हो सकती है.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये कोई नॉलेज बेस नहीं हैं. हालांकि, ऐसा हो सकता है कि वे गलत या पुराने तथ्यों की जानकारी देनें.
  • कॉमन सेंस
    • एलएलएम, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. यह मुमकिन है कि कुछ स्थितियों में, वे सामान्य ज्ञान का इस्तेमाल न कर पाए.

नैतिक तौर पर ध्यान देने वाली बातें और जोखिम

बड़े लैंग्वेज मॉडल (एलएलएम) का विकास, नैतिकता से जुड़ी कई चिंताओं को पैदा करता है. सभी के लिए उपलब्ध मॉडल बनाते समय, हमने इन बातों पर ध्यान दिया है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया के टेक्स्ट डेटा पर ट्रेन किए गए एलएलएम, ट्रेनिंग कॉन्टेंट में शामिल सामाजिक-सांस्कृतिक पूर्वाग्रह को दिखा सकते हैं. इन मॉडल की बारीकी से जांच की गई, इनपुट डेटा प्री-प्रोसेसिंग के बारे में बताया गया, और इस कार्ड में रिपोर्ट किए गए पीछे के आकलन किए गए.
  • गलत जानकारी और गलत इस्तेमाल
    • एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • मॉडल का ज़िम्मेदारी से इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी से जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और ज़िम्मेदारी:
    • इस मॉडल कार्ड में मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस की खास जानकारी दी जाती है.
    • ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई ईकोसिस्टम के डेवलपर और रिसर्चर के लिए एलएलएम टेक्नोलॉजी को सुलभ बनाकर, इनोवेशन को शेयर करने का मौका देता है.

जोखिमों की पहचान की गई और उन्हें कम किया जा सकता है:

  • पक्षपात को बढ़ावा देना: मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और इस्तेमाल के अन्य उदाहरणों के दौरान, आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करके लगातार निगरानी करना. साथ ही, इससे अलग-अलग पक्षपात को दूर करने की तकनीकों को एक्सप्लोर करने की सलाह दी जाती है.
  • नुकसान पहुंचाने वाला कॉन्टेंट तैयार करना: कॉन्टेंट को सुरक्षित रखने के तरीके और दिशा-निर्देश बहुत ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे प्रॉडक्ट की खास नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, सावधानी बरतें और कॉन्टेंट की सुरक्षा के लिए सही कदम उठाएं.
  • नुकसान पहुंचाने के मकसद से इसका गलत इस्तेमाल करना: तकनीकी सीमाओं के साथ-साथ, डेवलपर और असली उपयोगकर्ता को ज़रूरी जानकारी देना, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन के इस्तेमाल को कम करने में मदद कर सकता है. उपयोगकर्ताओं के लिए शिक्षा से जुड़े संसाधन और उनके गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए गए हैं. जेम्मा मॉडल के पाबंदी वाले इस्तेमाल के बारे में, जेम्मा के इस्तेमाल पर पाबंदी की नीति में बताया गया है.
  • निजता का उल्लंघन: मॉडल को व्यक्तिगत पहचान से जुड़ी जानकारी (व्यक्तिगत पहचान से जुड़ी जानकारी) हटाने के लिए फ़िल्टर किए गए डेटा के आधार पर ट्रेनिंग दी गई थी. डेवलपर को सलाह दी जाती है कि वे निजता बनाए रखने से जुड़ी तकनीकों का इस्तेमाल करके, निजता के नियमों का पालन करें.

फ़ायदे

रिलीज़ के समय, ये मॉडल बड़े लैंग्वेज मॉडल को बेहतर तरीके से इस्तेमाल करने में मदद करते हैं. इन्हें बड़े लैंग्वेज मॉडल की मदद से, बड़े लैंग्वेज मॉडल की तुलना में ज़िम्मेदार तरीके से एआई के डेवलपमेंट के लिए डिज़ाइन किया गया है.

इस दस्तावेज़ में बताई गई बेंचमार्क इवैलुएशन मेट्रिक का इस्तेमाल करके, इन मॉडल ने ओपन मॉडल के अन्य विकल्पों की तुलना में, बेहतर परफ़ॉर्मेंस दिखाया है.