मॉडल पेज: Gemma
संसाधन और तकनीकी दस्तावेज़:
- Gemma 3 की तकनीकी रिपोर्ट
- ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने के लिए टूलकिट
- Kaggle पर Gemma
- Vertex मॉडल गार्डन के बारे में जेमा की बातचीत
इस्तेमाल की शर्तें: शर्तें
लेखक: Google DeepMind
मॉडल की जानकारी
इनपुट और आउटपुट की खास जानकारी और खास जानकारी.
ब्यौरा
Gemma, Google का एक लाइटवेट और बेहतरीन ओपन मॉडल है. इसे Gemini मॉडल में इस्तेमाल की गई रिसर्च और तकनीक का इस्तेमाल करके बनाया गया है. Gemma 3 मॉडल, टेक्स्ट और इमेज इनपुट को मैनेज करते हैं और टेक्स्ट आउटपुट जनरेट करते हैं. इनमें, पहले से ट्रेन किए गए वैरिएंट और निर्देश के हिसाब से बनाए गए वैरिएंट, दोनों के लिए ओपन वेट होते हैं. Gemma 3 में 128K की बड़ी कॉन्टेक्स्ट विंडो है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करती है. यह पिछले वर्शन के मुकाबले ज़्यादा साइज़ में उपलब्ध है. Gemma 3 के मॉडल, टेक्स्ट जनरेट करने और इमेज को समझने से जुड़े कई तरह के टास्क के लिए बेहतर हैं. इनमें सवालों के जवाब देना, खास जानकारी देना, और तर्क देना शामिल है. इनका साइज़ अपेक्षाकृत छोटा होने की वजह से, इन्हें सीमित संसाधनों वाले एनवायरमेंट में डिप्लॉय किया जा सकता है. जैसे, लैपटॉप, डेस्कटॉप या अपने क्लाउड इन्फ़्रास्ट्रक्चर. इससे, एआई के सबसे बेहतर मॉडल का ऐक्सेस सभी को मिल पाता है और सभी के लिए इनोवेशन को बढ़ावा मिलता है.
इनपुट और आउटपुट
इनपुट:
- टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, प्रॉम्प्ट या दस्तावेज़ जिसकी खास जानकारी चाहिए
- इमेज, 896 x 896 रिज़ॉल्यूशन में नॉर्मलाइज़ की गई हों और हर इमेज को 256 टोकन में एन्कोड किया गया हो
- 4B, 12B, और 27B साइज़ के लिए 128K टोकन और 1B साइज़ के लिए 32K टोकन का कुल इनपुट कॉन्टेक्स्ट
आउटपुट:
- इनपुट के जवाब में जनरेट किया गया टेक्स्ट. जैसे, किसी सवाल का जवाब, इमेज के कॉन्टेंट का विश्लेषण या किसी दस्तावेज़ की खास जानकारी
- 4B, 12B, और 27B साइज़ के लिए, कुल आउटपुट कॉन्टेक्स्ट 1,28,000 टोकन तक, और हर अनुरोध के लिए 1B साइज़ के लिए 32,000 टोकन. इसमें अनुरोध के इनपुट टोकन को घटाया गया है
उद्धरण
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
मॉडल का डेटा
मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.
ट्रेनिंग के लिए इस्तेमाल किया गया डेटासेट
इन मॉडल को टेक्स्ट डेटा के ऐसे डेटासेट पर ट्रेन किया गया है जिसमें कई तरह के सोर्स शामिल हैं. 27 अरब व्यू वाले मॉडल को 14 ट्रिलियन टोकन के साथ, 12 अरब व्यू वाले मॉडल को 12 ट्रिलियन टोकन के साथ, 4 अरब व्यू वाले मॉडल को 4 ट्रिलियन टोकन के साथ, और 1 अरब व्यू वाले मॉडल को 2 ट्रिलियन टोकन के साथ ट्रेन किया गया था. ट्रेनिंग डेटा के लिए, नॉलेज कट्सऑफ़ की तारीख अगस्त 2024 थी. यहां मुख्य कॉम्पोनेंट के बारे में बताया गया है:
- वेब दस्तावेज़: वेब टेक्स्ट का अलग-अलग तरह का कलेक्शन, यह पक्का करता है कि मॉडल को भाषा की कई तरह की शैलियों, विषयों, और शब्दावली का इस्तेमाल करने का मौका मिले. ट्रेनिंग डेटासेट में 140 से ज़्यादा भाषाओं का कॉन्टेंट शामिल है.
- कोड: मॉडल को कोड के साथ एक्सपोज़ करने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न को समझने में मदद मिलती है. इससे, कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
- गणित: गणित के टेक्स्ट पर ट्रेनिंग से, मॉडल को लॉजिकल रीज़निंग, सिंबल के तौर पर प्रज़ेंटेशन, और गणित से जुड़ी क्वेरी को हल करने में मदद मिलती है.
- इमेज: अलग-अलग तरह की इमेज की मदद से, मॉडल इमेज का विश्लेषण कर सकता है और विज़ुअल डेटा निकाल सकता है.
अलग-अलग तरह के इन डेटा सोर्स को जोड़ना, बेहतर मल्टीमोडल मॉडल को ट्रेन करने के लिए ज़रूरी है. यह मॉडल, कई तरह के अलग-अलग टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.
डेटा को पहले से प्रोसेस करना
ट्रेनिंग डेटा पर डेटा हटाने और फ़िल्टर करने के मुख्य तरीके यहां दिए गए हैं:
- सीएसएएम फ़िल्टरिंग: डेटा तैयार करने की प्रोसेस के कई चरणों में, बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट (सीएसएएम) को ज़रूर फ़िल्टर किया गया था. इससे, नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को बाहर रखा जा सका.
- संवेदनशील डेटा को फ़िल्टर करना: Gemma के पहले से ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इन तकनीकों की मदद से, ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
- अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.
लागू करने से जुड़ी जानकारी
मॉडल के अंदरूनी काम करने के तरीके के बारे में जानकारी.
हार्डवेयर
Gemma को टेंसर प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv4p, TPUv5p, और TPUv5e) का इस्तेमाल करके ट्रेन किया गया था. विज़न-लैंग्वेज मॉडल (वीएलएमएस) को ट्रेनिंग देने के लिए, ज़्यादा कंप्यूटिंग पावर की ज़रूरत होती है. TPUs, खास तौर पर मशीन लर्निंग में आम तौर पर इस्तेमाल होने वाले मैट्रिक ऑपरेशन के लिए डिज़ाइन किए गए हैं. ये इस डोमेन में कई फ़ायदे देते हैं:
- परफ़ॉर्मेंस: TPU को खास तौर पर, वीएलएम को ट्रेनिंग देने के लिए ज़रूरी बड़े-बड़े कंप्यूटेशन को हैंडल करने के लिए डिज़ाइन किया गया है. ये सीपीयू की तुलना में, ट्रेनिंग की प्रोसेस को काफ़ी तेज़ कर सकते हैं.
- मेमोरी: TPU में अक्सर ज़्यादा बैंडविड्थ वाली ज़्यादा मेमोरी होती है. इससे ट्रेनिंग के दौरान, बड़े मॉडल और बैच साइज़ को मैनेज किया जा सकता है. इससे मॉडल की क्वालिटी बेहतर हो सकती है.
- स्केलेबल: TPU पॉड (TPU के बड़े क्लस्टर), बड़े फ़ाउंडेशन मॉडल की बढ़ती जटिलता को मैनेज करने के लिए, स्केलेबल समाधान उपलब्ध कराते हैं. तेज़ और ज़्यादा बेहतर तरीके से प्रोसेस करने के लिए, ट्रेनिंग को कई TPU डिवाइसों पर बांटा जा सकता है.
- कम लागत: कई मामलों में, सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर की तुलना में, TPU बड़े मॉडल को ट्रेन करने के लिए ज़्यादा किफ़ायती समाधान दे सकते हैं. खास तौर पर, जब तेज़ी से ट्रेनिंग की वजह से समय और संसाधनों की बचत होती है.
- ये फ़ायदे, पर्यावरण को बेहतर बनाने के लिए Google की प्रतिबद्धताओं के मुताबिक हैं.
सॉफ़्टवेयर
JAX और एमएल पाथवे का इस्तेमाल करके ट्रेनिंग दी गई थी.
JAX की मदद से, शोधकर्ता बड़े मॉडल को तेज़ी से और ज़्यादा असरदार तरीके से ट्रेनिंग देने के लिए, TPUs के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं. एमएल पाथवे, Google की एक नई कोशिश है. इससे एआई (AI) सिस्टम बनाए जा सकेंगे, जो एक से ज़्यादा टास्क को एक साथ पूरा कर सकेंगे. यह खास तौर पर फ़ाउंडेशन मॉडल के लिए सही है. इनमें इन जैसे लार्ज लैंग्वेज मॉडल भी शामिल हैं.
Gemini फ़ैमिली के मॉडल के बारे में पेपर में बताए गए तरीके के मुताबिक, JAX और ML Pathways का इस्तेमाल एक साथ किया जाता है. "Jax और Pathways के 'सिंगल कंट्रोलर' प्रोग्रामिंग मॉडल की मदद से, एक Python प्रोसेस से पूरे ट्रेनिंग रन को ऑर्केस्ट्रेट किया जा सकता है. इससे डेवलपमेंट वर्कफ़्लो को काफ़ी आसान बना दिया जाता है."
आकलन
मॉडल की परफ़ॉर्मेंस का आकलन करने वाली मेट्रिक और नतीजे.
बेंचमार्क के नतीजे
टेक्स्ट जनरेशन के अलग-अलग पहलुओं को कवर करने के लिए, इन मॉडल का आकलन अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. IT के साथ मार्क किए गए आकलन के नतीजे, निर्देश के हिसाब से बनाए गए मॉडल के लिए होते हैं. PT के साथ मार्क किए गए आकलन के नतीजे, पहले से ट्रेन किए गए मॉडल के लिए होते हैं.
तर्क और तथ्यों का सही होना
मानदंड | n-शॉट | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA डायमंड | बिना उदाहरण वाला प्रॉम्प्ट | 19.2 | 30.8 | 40.9 | 42.4 |
SimpleQA | बिना उदाहरण वाला प्रॉम्प्ट | 2.2 | 4.0 | 6.3 | 10.0 |
FACTS Grounding | - | 36.4 | 70.1 | 75.8 | 74.9 |
BIG-Bench Hard | बिना उदाहरण वाला प्रॉम्प्ट | 39.1 | 72.2 | 85.7 | 87.6 |
BIG-Bench Extra Hard | बिना उदाहरण वाला प्रॉम्प्ट | 7.2 | 11.0 | 16.3 | 19.3 |
IFEval | बिना उदाहरण वाला प्रॉम्प्ट | 80.2 | 90.2 | 88.9 | 90.4 |
मानदंड | n-शॉट | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | जेमा 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-शॉट | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | बिना उदाहरण वाला प्रॉम्प्ट | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | बिना उदाहरण वाला प्रॉम्प्ट | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | बिना उदाहरण वाला प्रॉम्प्ट | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | पांच शॉट | 39.8 | 65.8 | 78.2 | 85.5 |
सामान्य सवाल | पांच शॉट | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-शॉट | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | बिना उदाहरण वाला प्रॉम्प्ट | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | पांच शॉट | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | कुछ उदाहरण वाला प्रॉम्प्ट | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | एक उदाहरण वाला प्रॉम्प्ट | 42.4 | 60.1 | 72.2 | 77.2 |
एसटीईएम और कोड
मानदंड | n-शॉट | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | बिना उदाहरण वाला प्रॉम्प्ट | 14.7 | 43.6 | 60.6 | 67.5 |
LiveCodeBench | बिना उदाहरण वाला प्रॉम्प्ट | 1.9 | 12.6 | 24.6 | 29.7 |
Bird-SQL (डेवलपर) | - | 6.4 | 36.3 | 47.9 | 54.4 |
गणित | बिना उदाहरण वाला प्रॉम्प्ट | 48.0 | 75.6 | 83.8 | 89.0 |
HiddenMath | बिना उदाहरण वाला प्रॉम्प्ट | 15.8 | 43.0 | 54.5 | 60.3 |
MBPP | तीन शॉट | 35.2 | 63.2 | 73.0 | 74.4 |
HumanEval | बिना उदाहरण वाला प्रॉम्प्ट | 41.5 | 71.3 | 85.4 | 87.8 |
Natural2Code | बिना उदाहरण वाला प्रॉम्प्ट | 56.0 | 70.3 | 80.7 | 84.5 |
GSM8K | बिना उदाहरण वाला प्रॉम्प्ट | 62.8 | 89.2 | 94.4 | 95.9 |
मानदंड | n-शॉट | Gemma 3 PT 4B | Gemma 3 PT 12B | जेमा 3 PT 27B |
---|---|---|---|---|
MMLU | पांच शॉट | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | पांच शॉट | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-शॉट | 42.1 | 57.4 | 66.2 |
MATH | 4-शॉट | 24.2 | 43.3 | 50.0 |
GSM8K | 8-शॉट | 38.4 | 71.0 | 82.6 |
GPQA | पांच शॉट | 15.0 | 25.4 | 24.3 |
MBPP | तीन शॉट | 46.0 | 60.4 | 65.6 |
HumanEval | बिना उदाहरण वाला प्रॉम्प्ट | 36.0 | 45.7 | 48.8 |
कई भाषाओं में उपलब्ध
मानदंड | n-शॉट | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | बिना उदाहरण वाला प्रॉम्प्ट | 34.2 | 54.5 | 69.5 | 75.1 |
ECLeKTic | बिना उदाहरण वाला प्रॉम्प्ट | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | बिना उदाहरण वाला प्रॉम्प्ट | 35.9 | 46.8 | 51.6 | 53.4 |
मानदंड | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | जेमा 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (सभी) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
मल्टीमोडल
मानदंड | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48.8 | 59.6 | 64.9 |
DocVQA | 75.8 | 87.1 | 86.6 |
InfoVQA | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | 84.2 | 84.5 |
ChartQA | 68.8 | 75.7 | 78.0 |
VQAv2 (val) | 62.4 | 71.6 | 71.0 |
MathVista (testmini) | 50.0 | 62.9 | 67.6 |
मानदंड | Gemma 3 PT 4B | Gemma 3 PT 12B | जेमा 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
नैतिकता और सुरक्षा
नैतिकता और सुरक्षा के आकलन का तरीका और नतीजे.
आकलन का तरीका
हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:
- बच्चों की सुरक्षा: टेक्स्ट से टेक्स्ट और इमेज से टेक्स्ट में बदलने वाले प्रॉम्प्ट का आकलन. इसमें बच्चों की सुरक्षा से जुड़ी नीतियों को शामिल किया जाता है. जैसे, बच्चों का यौन शोषण और उनका शोषण.
- कॉन्टेंट की सुरक्षा: टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट प्रॉम्प्ट का आकलन, जिसमें सुरक्षा से जुड़ी नीतियों को शामिल किया गया है. इन नीतियों में, उत्पीड़न, हिंसा और खून-खराबा दिखाने वाला कॉन्टेंट, और नफ़रत फैलाने वाली भाषा शामिल है.
- गलत तरीके से दिखाना: टेक्स्ट से टेक्स्ट और इमेज से टेक्स्ट में बदलने वाले प्रॉम्प्ट का आकलन. इसमें सुरक्षा से जुड़ी नीतियों को शामिल किया जाता है. जैसे, पक्षपात, किसी खास तरह के लोगों के बारे में गलत धारणा, और नुकसान पहुंचाने वाले असोसिएशन या गलत जानकारी.
डेवलपमेंट लेवल की समीक्षाओं के अलावा, हम "भरोसेमंदी की जांच" भी करते हैं. ये जांच, ज़िम्मेदारी के हिसाब से नीति बनाने के फ़ैसले लेने के लिए, हमारे संगठन के अंदर की जाने वाली जांच होती हैं. ये टेस्ट, मॉडल डेवलपमेंट टीम से अलग किए जाते हैं, ताकि रिलीज़ के बारे में फ़ैसला लेने में मदद मिल सके. हाई लेवल की खोज के नतीजों को मॉडल टीम को भेजा जाता है. हालांकि, प्रॉम्प्ट सेट को होल्ड-आउट किया जाता है, ताकि मॉडल को ओवरफ़िट होने से बचाया जा सके और नतीजों की मदद से फ़ैसले लेने की सुविधा बनी रहे. रिलीज़ की समीक्षा के तहत, सुरक्षा की पुष्टि करने के लिए किए गए आकलन के नतीजों की जानकारी, हमारी ज़िम्मेदारी और सुरक्षा परिषद को दी जाती है.
जांच के नतीजे
सुरक्षा जांच के सभी क्षेत्रों के लिए, हमें Gemma के पिछले मॉडल की तुलना में, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट की कैटगरी में काफ़ी सुधार दिखे. मॉडल की क्षमताओं और व्यवहार का आकलन करने के लिए, सभी टेस्टिंग को सुरक्षा फ़िल्टर के बिना किया गया था. टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ में, मॉडल ने नीति के उल्लंघनों की संख्या कम की. साथ ही, बिना किसी आधार के अनुमान लगाने के मामले में, Gemma के पिछले मॉडल की परफ़ॉर्मेंस की तुलना में काफ़ी सुधार दिखाया. हमारे आकलन में सिर्फ़ अंग्रेज़ी भाषा के प्रॉम्प्ट शामिल थे.
इस्तेमाल और सीमाएं
इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.
इस्तेमाल का मकसद
ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) मॉडल का इस्तेमाल, अलग-अलग इंडस्ट्री और डोमेन में कई तरह के कामों के लिए किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम नहीं बताए गए हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था.
- कॉन्टेंट बनाना और कम्यूनिकेशन
- टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
- टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
- इमेज डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, उसका विश्लेषण करने, और खास जानकारी देने के लिए किया जा सकता है.
- रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, वीएलएम और एनएलपी तकनीकों के साथ प्रयोग करने, एल्गोरिदम बनाने, और इस क्षेत्र को आगे बढ़ाने में शोधकर्ताओं की मदद कर सकते हैं.
- भाषा सीखने के टूल: ये टूल, भाषा सीखने के इंटरैक्टिव अनुभवों के साथ काम करते हैं. साथ ही, व्याकरण में सुधार करने या लिखने का अभ्यास करने में मदद करते हैं.
- नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में सवालों के जवाब देकर या खास जानकारी जनरेट करके, शोधकर्ताओं को बड़े टेक्स्ट को एक्सप्लोर करने में मदद करता है.
सीमाएं
- ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और उसमें मौजूद अलग-अलग तरह के डेटा का असर, मॉडल की परफ़ॉर्मेंस पर पड़ता है. ट्रेनिंग डेटा में पक्षपात या गैप होने पर, मॉडल के जवाबों में सीमाएं आ सकती हैं.
- ट्रेनिंग डेटासेट के दायरे से यह तय होता है कि मॉडल किन विषयों को असरदार तरीके से मैनेज कर सकता है.
- कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ तौर पर दिए गए प्रॉम्प्ट और निर्देशों के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की संख्या का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
- भाषा में अस्पष्टता और बारीकियों का ध्यान रखना
- नैचुरल लैंग्वेज अपने-आप जटिल होती है. मॉडल को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
- तथ्यों की सटीक जानकारी
- मॉडल, ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं होते. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
- सामान्य नियमों का पालन करना
- मॉडल, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ स्थितियों में सामान्य ज्ञान के आधार पर तर्क न कर पाएं.
नैतिक तौर पर अहम बातें और जोखिम
विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई चिंताएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:
- पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग मटीरियल में शामिल सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने की जानकारी दी गई है. साथ ही, इस कार्ड में बाद के आकलन की जानकारी दी गई है.
- गलत जानकारी और उसका गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
- मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
- पारदर्शिता और जवाबदेही:
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रक्रियाओं के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और रिसर्चर के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस करने की सुविधा देकर, इनोवेशन शेयर करने का मौका देता है.
जोखिमों की पहचान और उन्हें कम करने के तरीके:
- बायस को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और इस्तेमाल के अन्य उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मैन्युअल समीक्षा का इस्तेमाल किया जा सकता है. साथ ही, बायस को कम करने वाली तकनीकों का भी इस्तेमाल किया जा सकता है.
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि आपके पास इसके लिए तंत्र और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
- नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और असली उपयोगकर्ता को दी जाने वाली शिक्षा से, वीएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. उपयोगकर्ताओं को गलत इस्तेमाल की शिकायत करने के लिए, जानकारी देने वाले संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
- निजता के उल्लंघन: मॉडल को कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटाने के लिए फ़िल्टर किए गए डेटा पर ट्रेन किया गया था. डेवलपर को, निजता बनाए रखने वाली तकनीकों का इस्तेमाल करके, निजता के नियमों का पालन करने का सुझाव दिया जाता है.
फ़ायदे
रिलीज़ के समय, मॉडल का यह फ़ैमिली, बेहतर परफ़ॉर्मेंस वाला ओपन विज़न-लैंग्वेज मॉडल लागू करता है. इसे शुरू से ही, ज़िम्मेदार एआई डेवलपमेंट के लिए डिज़ाइन किया गया है. यह मॉडल, मिलते-जुलते साइज़ के मॉडल की तुलना में बेहतर परफ़ॉर्म करता है.
इस दस्तावेज़ में बताई गई बेंचमार्क मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना के लायक साइज़ वाले अन्य ओपन मॉडल के विकल्पों की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.