जेमा मॉडल कार्ड

मॉडल पेज: Gemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

इनपुट और आउटपुट की खास जानकारी और उसकी कम शब्दों में परिभाषा.

ब्यौरा

Gemma एक लाइटवेट और बेहतरीन ओपन मॉडल है, जिसे Google ने बनाया है. इसे ठीक उसी रिसर्च और टेक्नोलॉजी का इस्तेमाल करके बनाया गया है जिसका इस्तेमाल Gemini मॉडल बनाने में किया गया था. ये टेक्स्ट-टू-टेक्स्ट, सिर्फ़ डिकोडर वाले लार्ज लैंग्वेज मॉडल हैं. ये अंग्रेज़ी में उपलब्ध हैं, ओपन वेट, पहले से ट्रेन किए गए वैरिएंट, और निर्देश के मुताबिक वैरिएंट के साथ काम करते हैं. Gemma ये मॉडल, टेक्स्ट जनरेट करने से जुड़े अलग-अलग तरह के कामों को करने में माहिर हैं. इनमें ये भी शामिल हैं जवाब देना, खास जानकारी देना, और तर्क करना. बाकी प्रॉडक्ट की तुलना में छोटा साइज़ इन्हें सीमित संसाधनों वाले एनवायरमेंट में डिप्लॉय किया जा सकता है, जैसे कि लैपटॉप, डेस्कटॉप या आपका क्लाउड इन्फ़्रास्ट्रक्चर, सभी के लिए आधुनिक एआई मॉडल और सभी के लिए इनोवेशन को बढ़ावा देने में मदद करना.

इनपुट और आउटपुट

  • इनपुट: टेक्स्ट स्ट्रिंग. जैसे कि सवाल, प्रॉम्प्ट या दस्तावेज़ संक्षेप में.
  • आउटपुट: इनपुट के जवाब में जनरेट किया गया अंग्रेज़ी भाषा का टेक्स्ट, जैसे जवाब के तौर पर या किसी दस्तावेज़ के सारांश के तौर पर लिखें.

उद्धरण

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

मॉडल डेटा

मॉडल ट्रेनिंग के लिए इस्तेमाल किया जाने वाला डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग डेटासेट

इन मॉडल को टेक्स्ट डेटा के ऐसे डेटासेट की मदद से ट्रेनिंग दी गई है जिसमें कई तरह के कुल 6 ट्रिलियन टोकन. यहां कुछ ज़रूरी कॉम्पोनेंट दिए गए हैं:

  • वेब दस्तावेज़: अलग-अलग तरह के वेब टेक्स्ट का कलेक्शन यह पक्का करता है कि मॉडल को सार्वजनिक किया जाए को इस्तेमाल किया जा सकता है. मुख्य तौर पर अंग्रेज़ी भाषा में कॉन्टेंट.
  • कोड: कोड के सामने मॉडल को प्रदर्शित करने से इसे सिंटैक्स और पैटर्न को सीखने में सहायता मिलती है प्रोग्रामिंग भाषाएँ, जो कोड जनरेट करने की अपनी क्षमता को बेहतर बनाती है या कोड से जुड़े सवालों को समझ सकती हैं.
  • गणित: गणित से जुड़े टेक्स्ट की ट्रेनिंग से मॉडल को लॉजिकल सीखने में मदद मिलती है और गणित के सवालों के जवाब देना.

एक असरदार ट्रेनिंग देने के लिए, इन अलग-अलग डेटा सोर्स का कॉम्बिनेशन होना ज़रूरी है लैंग्वेज मॉडल जो कई तरह के अलग-अलग टास्क को पूरा कर सकता है फ़ॉर्मैट के बारे में ज़्यादा जानें.

डेटा प्री-प्रोसेसिंग

यहां ट्रेनिंग के लिए लागू किए गए, डेटा को हटाने और फ़िल्टर करने के मुख्य तरीकों के बारे में बताया गया है डेटा:

  • सीएसएएम फ़िल्टर करने की सुविधा: सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) फ़िल्टर करने के लिए यह तरीका डेटा तैयार करने की प्रोसेस के कई चरणों में लागू किया जाता है, ताकि यह पक्का किया जा सके कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को बाहर रखना.
  • संवेदनशील डेटा को फ़िल्टर करना: Gemma के पहले से ट्रेनिंग किए गए मॉडल को सुरक्षित बनाने और और उनके डेटा को फ़िल्टर करने के लिए, हम भरोसेमंद और अपने-आप काम करने वाली तकनीकों का इस्तेमाल ट्रेनिंग सेट से मिली जानकारी और अन्य संवेदनशील डेटा शामिल करें.
  • अन्य तरीके: कॉन्टेंट की क्वालिटी और सुरक्षा के हिसाब से फ़िल्टर करना हमारी नीतियों का पालन करें.

लागू करने के बारे में जानकारी

मॉडल इंटर्नल के बारे में जानकारी.

हार्डवेयर

जेमा को टेंसर प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv5e).

लार्ज लैंग्वेज मॉडल की ट्रेनिंग के लिए, कंप्यूटेशनल पावर की ज़रूरत होती है. TPU इसे खास तौर पर, मैट्रिक्स ऑपरेशन के लिए डिज़ाइन किया गया है. ये ऐसे प्रोग्राम होते हैं जो मशीन लर्निंग में आम हैं. इस डोमेन के कई फ़ायदे हैं:

  • परफ़ॉर्मेंस: TPU खास तौर पर बड़े पैमाने पर कंप्यूटेशन (कंप्यूटेशन) को मैनेज करने के लिए बनाए गए हैं एलएलएम की ट्रेनिंग के लिए इस्तेमाल किया. वे ट्रेनिंग की तुलना में, सीपीयू पर.
  • मेमोरी: TPU, अक्सर बड़ी मात्रा में हाई बैंडविथ मेमोरी के साथ आते हैं. इससे हमें ट्रेनिंग के दौरान बड़े मॉडल और बैच साइज़ को हैंडल करने के लिए. यह काम कर सकता है इससे मॉडल की क्वालिटी बेहतर हो जाती है.
  • बढ़ाए जा सकने की योग्यता: TPU पॉड (TPU के बड़े क्लस्टर), बड़े पैमाने पर फ़ाउंडेशन के बड़े मॉडल की बढ़ती जटिलता को हैंडल करना. आपके पास ट्रेनिंग के लिए कई TPU डिवाइसों का इस्तेमाल किया जा सकता है, ताकि उन्हें तेज़ी और बेहतर तरीके से प्रोसेस किया जा सके.
  • लागत के हिसाब से असरदार: कई मामलों में, TPU की मदद से लागत कम की जा सकती है यह सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर की तुलना में, बड़े मॉडल की ट्रेनिंग के लिए एक समाधान है, खास तौर पर, ऐसा समय और संसाधनों की बचत ट्रेनिंग ली हुई है.
  • ये फ़ायदे साथ अलाइन होते हैं ईको-फ़्रेंडली तरीके से काम करने के लिए, Google की प्रतिबद्धता.

सॉफ़्टवेयर

ट्रेनिंग, JAX और एमएल पाथवे का इस्तेमाल करके की गई थी.

JAX की मदद से, रिसर्च करने वाले लोग नई जनरेशन के हार्डवेयर का इस्तेमाल कर सकते हैं. इसमें TPU भी शामिल हैं, ताकि बड़े मॉडल को तेज़ी और बेहतर तरीके से ट्रेनिंग दी जा सके.

ML पाथवेज़, कृत्रिम रूप से इंटेलिजेंट सिस्टम बनाने के लिए Google की नई कोशिश है कई कामों को एक ही लेवल पर सामान्य करने में मदद कर सकता है. यह खास तौर पर इन लोगों के लिए सही है फ़ाउंडेशन मॉडल, जिनमें बड़े लैंग्वेज मॉडल शामिल हैं. जैसे, भी कर सकते हैं.

जैक्स और एमएल पाथवे का एक साथ इस्तेमाल करने पर, Gemini मॉडल के बारे में बताने वाला पेपर; " कंट्रोलर' जैक्स और पाथवे का प्रोग्रामिंग मॉडल एक ही Python को अनुमति देता है प्रक्रिया को व्यवस्थित करने की पूरी प्रक्रिया का इस्तेमाल किया जाता है. इस प्रक्रिया के दौरान, डेवलपमेंट वर्कफ़्लो है."

आकलन

मॉडल इवैलुएशन मेट्रिक और नतीजे.

बेंचमार्क परिणाम

इन मॉडल का आकलन, अलग-अलग डेटासेट के बड़े कलेक्शन के आधार पर किया गया और ये मेट्रिक, टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर करती हैं:

मानदंड मेट्रिक जेमा पीटी 2बी जेमा पीटी 7B
MMLU 5-शॉट, टॉप-1 42.3 64.3
HellaSwag 0-शॉट 71.4 81.2
PIQA 0-शॉट 77.3 81.2
SocialIQA 0-शॉट 49.7 51.8
BoolQ 0-शॉट 69.4 83.2
WinoGrande आंशिक स्कोर 65.4 72.3
CommonsenseQA 7-शॉट 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5-शॉट 53.2 63.4
सामान्य सवाल 5-शॉट 12.5 23.0
HumanEval पास@1 22.0 32.3
MBPP 3-शॉट 29.2 44.4
जीएसएम8के maj@1 17.7 46.4
MATH 4-शॉट 11.8 24.3
AGIEval 24.2 41.7
बिग-बेंच 35.2 55.1
औसत 44.9 56.4

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा का आकलन करने का तरीका और नतीजे.

आकलन करने का तरीका

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड इवैलुएशन और इंटरनल रेड-टीमिंग शामिल है प्रासंगिक सामग्री नीतियों का परीक्षण करते हैं. रेड-टीमिंग का आयोजन कई संगठनों ने किया था अलग-अलग टीमों के लिए बनाई गई हैं. हर टीम के लक्ष्य और मैन्युअल आकलन की मेट्रिक अलग-अलग हैं. ये मॉडल का आकलन, उन अलग-अलग कैटगरी के हिसाब से किया गया जो नैतिकता और सुरक्षा से जुड़ी नीतियां. इनमें ये शामिल हैं:

  • टेक्स्ट-टू-टेक्स्ट कॉन्टेंट की सुरक्षा: सुरक्षा से जुड़े प्रॉम्प्ट का मानवीय आकलन बच्चों के यौन शोषण और उनके साथ बुरे बर्ताव, उत्पीड़न, और हिंसा वाली नीतियां और अभद्र भाषा शामिल है.
  • टेक्स्ट को टेक्स्ट में दिखाना: शिक्षा के क्षेत्र से जुड़े अकैडमिक डेटा के आधार पर तुलना WinoBias और BBQ डेटासेट जैसे डेटासेट.
  • याद रखना: ट्रेनिंग का डेटा याद रखने का अपने-आप होने वाला आकलन. इसमें, व्यक्तिगत पहचान से जुड़ी जानकारी को सार्वजनिक करने का जोखिम है.
  • बड़े स्तर पर नुकसान: "खतरनाक क्षमताओं" की जांच जैसे, रसायन, जैविक, रेडियोलॉजिकल, और न्यूक्लियर (सीबीआरएन) के जोखिम.

आकलन के नतीजे

नैतिकता और सुरक्षा से जुड़े आकलन के नतीजे, मान्य थ्रेशोल्ड में होते हैं बच्चों जैसी कैटगरी की इंटरनल नीतियों का पालन करने के लिए सुरक्षा, कॉन्टेंट की सुरक्षा, प्रतिनिधित्व से जुड़ा नुकसान, याद रखना, बड़े पैमाने पर नुकसान पहुंचाना. बेहतर अंदरूनी आकलन के अलावा, काफ़ी सुरक्षा से मिले नतीजों पर भी ग़ौर किया गया है बारबेक्यू, BOLD, Winogender, Winobias, RealToxicity, और TruthfullQA जैसे मानदंड यहां दिखाई गई हैं.

जेमा 1.0

मानदंड मेट्रिक जेमा 1.0 आईटी 2बी जेमा 1.0 आईटी 7B
RealToxicity औसत 6.86 7.90
BOLD 45.57 49.08
CrowS-पेयर top-1 45.82 51.33
बार्बेक्यू अंबिग 1-शॉट, टॉप-1 62.58 92.54
बार्बेक्यू डिसएंबिग top-1 54.62 71.99
विनोजेंडर top-1 51.25 54.17
TruthfulQA 44.84 31.81
विनोबियास 1_2 56.12 59.09
विनोबियास 2_2 91.10 92.23
Toxigen 29.77 39.59

जेमा 1.1

मानदंड मेट्रिक जेमा 1.1 आईटी 2बी Gemma 1.1 आईटी 7B
RealToxicity औसत 7.03 8.04
BOLD 47.76
CrowS-पेयर top-1 45.89 49.67
बार्बेक्यू अंबिग 1-शॉट, टॉप-1 58.97 86.06
बार्बेक्यू डिसएंबिग top-1 53.90 85.08
विनोजेंडर top-1 50.14 57.64
TruthfulQA 44.24 45.34
विनोबियास 1_2 55.93 59.22
विनोबियास 2_2 89.46 89.2
Toxigen 29.64 38.75

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन लार्ज लैंग्वेज मॉडल (एलएलएम) के अलग-अलग तरह के ऐप्लिकेशन हैं का इस्तेमाल करने की सलाह देते हैं. संभावित इस्तेमाल की यह सूची व्यापक. इस सूची का मकसद काम की जानकारी देना है इसमें इस्तेमाल के उन संभावित उदाहरणों के बारे में बताया गया है जिन्हें मॉडल क्रिएटर्स ने मॉडल का हिस्सा माना है ट्रेनिंग और डेवलपमेंट के बारे में है.

  • कॉन्टेंट बनाना और कम्यूनिकेशन
    • टेक्स्ट जनरेट करना: इन मॉडल का इस्तेमाल, क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है जैसे कि कविताएं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल के ड्राफ़्ट.
    • चैटबॉट और बातचीत वाला एआई मॉडल: ग्राहकों के लिए बातचीत वाले इंटरफ़ेस बेहतर बनाएं सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन वगैरह.
    • टेक्स्ट की खास जानकारी देना: किसी टेक्स्ट के समूह, रिसर्च के बारे में कम शब्दों में खास जानकारी जनरेट करें या रिपोर्ट.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) रिसर्च: ये मॉडल, रिसर्च करने वाले लोगों के लिए, एनएलपी की तकनीकों के साथ प्रयोग करने का फ़ाउंडेशन एल्गोरिदम और क्षेत्र को बेहतर बनाने में योगदान देते हैं.
    • लैंग्वेज लर्निंग टूल: इंटरैक्टिव लैंग्वेज सीखने में मदद करता है. व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद करते हैं.
    • नॉलेज एक्सप्लोरेशन: लेख के बड़े हिस्सों को एक्सप्लोर करने में शोधकर्ताओं की मदद करता है जवाब जनरेट करके या चुनिंदा विषयों से जुड़े सवालों के जवाब दें.

सीमाएं

  • ट्रेनिंग का डेटा
    • ट्रेनिंग डेटा की क्वालिटी और विविधता से इस बात पर काफ़ी असर पड़ता है कि मॉडल की क्षमताओं के बारे में ज़्यादा जानें. ट्रेनिंग डेटा में भेदभाव या अंतर की वजह से तो मॉडल के जवाबों में सीमाएँ होती हैं.
    • ट्रेनिंग डेटासेट के स्कोप से यह तय होता है कि मॉडल किन विषयों को संभालते हैं.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • एलएलएम उन टास्क को बेहतर तरीके से करते हैं जिन्हें सटीक प्रॉम्प्ट की मदद से फ़्रेम किया जा सकता है और निर्देश. ऐसे टास्क हो सकते हैं जिनका जवाब विस्तार से देना होता है या जिन्हें बेहद मुश्किलों से गुज़रना पड़ता है.
    • किसी मॉडल की परफ़ॉर्मेंस, दिए गए कॉन्टेक्स्ट पर निर्भर करती है. (लंबे कॉन्टेक्स्ट से आम तौर पर, एक तय सीमा तक बेहतर आउटपुट मिलते हैं).
  • भाषा की अस्पष्टता और बारीकियां
    • प्राकृतिक भाषा स्वाभाविक रूप से जटिल होती है. एलएलएम को छोटे-छोटे विषयों को समझने में मुश्किल हो सकती है बारीकियां, व्यंग्य या फ़िगरेटिव भाषा.
  • तथ्यों की सटीक जानकारी
    • एलएलएम, अपने छात्र-छात्राओं से मिली जानकारी के आधार पर जवाब जनरेट करते हैं ट्रेनिंग डेटासेट हो सकते हैं, लेकिन वे नॉलेज बेस नहीं हैं. इनकी मदद से, तथ्यों पर आधारित गलत या पुरानी जानकारी.
  • सामान्य ज्ञान
    • एलएलएम, भाषा के आंकड़ों वाले पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि उनके पास यह क्षमता न हो कुछ खास मामलों में कॉमन सेंस रीज़निंग का इस्तेमाल करें.

नैतिक तौर पर सोच-विचार और जोखिम

लार्ज लैंग्वेज मॉडल (एलएलएम) का विकास, कई नैतिक मुद्दों को दर्शाता है. ओपन मॉडल बनाते समय हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • असल दुनिया के टेक्स्ट डेटा वाले बड़े स्तर पर तैयार किए गए एलएलएम, सामाजिक-सांस्कृतिक पहचान सकते हैं ट्रेनिंग के कॉन्टेंट में जोड़े गए पूर्वाग्रह. इन मॉडल ने सावधानी बरतने के साथ-साथ जांच, इनपुट डेटा प्री-प्रोसेसिंग बताए गए और पीछे के मूल्यांकन इस कार्ड में दर्ज किया गया है.
  • गलत जानकारी और उसका गलत इस्तेमाल
    • एलएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • दिशा-निर्देश, मॉडल के साथ ज़िम्मेदारी से इस्तेमाल करने के लिए दिए गए हैं. ज़्यादा जानने के लिए, ज़िम्मेदारी से बनाई गई जनरेटिव एआई टूलकिट.
  • पारदर्शिता और ज़िम्मेदारी:
    • यह मॉडल कार्ड, मॉडल के विवरण का सारांश करता है आर्किटेक्चर, क्षमताएं, सीमाएं, और आकलन की प्रोसेस.
    • ज़िम्मेदारी के साथ डेवलप किए गए ओपन मॉडल से, इनोवेशन के लिए, हम एलएलएम टेक्नोलॉजी को डेवलपर और रिसर्च करने वाले लोगों के लिए आसान बना रहे हैं के बारे में बात करते हैं.

जोखिमों की पहचान की गई और उन्हें कम करने की प्रोसेस:

  • पक्षपात को लागू करना: हम सभी क्षेत्रों पर नियमित रूप से नज़र बनाए रखने (इंवैलुएशन मेट्रिक, मानवीय समीक्षा का इस्तेमाल करके) और किसी एक पक्ष के पक्ष में सोच-समझकर फ़ैसले लेना मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के उदाहरणों के बारे में बताया जाना चाहिए.
  • नुकसान पहुंचाने वाला कॉन्टेंट बनाना: कॉन्टेंट की सुरक्षा के लिए तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सावधानी बरतने और इन बदलावों को लागू करने की सलाह दी जाती है कॉन्टेंट की सुरक्षा के लिए, उसके खास प्रॉडक्ट की नीतियों के आधार पर सुरक्षा के उपाय करना और ऐप्लिकेशन के इस्तेमाल के उदाहरण.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाएं और डेवलपर और असली उपयोगकर्ताओं के अनुभव की मदद से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन के इस्तेमाल को कम किया जा सकता है. गलत इस्तेमाल की शिकायत करने के लिए, शैक्षणिक संसाधन और शिकायत करने के तरीके दिया गया है. Gemma मॉडल के प्रतिबंधित इस्तेमाल के बारे में यहां बताया गया है: Gemma के इस्तेमाल पर पाबंदी से जुड़ी नीति.
  • निजता के उल्लंघन: व्यक्तिगत पहचान से जुड़ी जानकारी हटाने के लिए, फ़िल्टर किए गए डेटा के आधार पर मॉडल को ट्रेनिंग दी गई (व्यक्तिगत पहचान से जुड़ी जानकारी). डेवलपर को हमारी नीति का पालन करने के लिए प्रोत्साहित किया जाता है निजता के कानूनों और निजता बनाए रखने की तकनीकों का इस्तेमाल करते हैं.

फ़ायदे

रिलीज़ के समय, मॉडल का यह परिवार उच्च-परफ़ॉर्मेंस वाला ओपनिंग उपलब्ध कराता है रिस्पॉन्सिबल के लिए तैयार किया गया शुरुआत से डिज़ाइन किया गया बड़ा लैंग्वेज मॉडल एक जैसे साइज़ वाले मॉडल की तुलना में, एआई के इस्तेमाल से जुड़ा डेटा.

इस दस्तावेज़ में बताई गई बेंचमार्क आकलन मेट्रिक का इस्तेमाल करके, ये मॉडल अन्य, तुलनात्मक आकार के खुले मॉडल को बेहतर प्रदर्शन देते हुए दिखाए हैं विकल्प हैं.