जनरेशन और ट्यूनिंग के उदाहरणों के बारे में जानने के लिए, Gemma Cookbook का डेटा देखें! ज़्यादा जानें

इस पेज का अनुवाद Cloud Translation API से किया गया है.

Gemma 3 का मॉडल कार्ड

मॉडल पेज: Gemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google DeepMind

मॉडल की जानकारी

इनपुट और आउटपुट की खास जानकारी और खास जानकारी.

ब्यौरा

Gemma, Google का एक लाइटवेट और बेहतरीन ओपन मॉडल है. इसे Gemini मॉडल में इस्तेमाल की गई रिसर्च और तकनीक का इस्तेमाल करके बनाया गया है. Gemma 3 मॉडल, टेक्स्ट और इमेज इनपुट को मैनेज करते हैं और टेक्स्ट आउटपुट जनरेट करते हैं. इनमें, पहले से ट्रेन किए गए वैरिएंट और निर्देश के हिसाब से बनाए गए वैरिएंट, दोनों के लिए ओपन वेट होते हैं. Gemma 3 में 128K की बड़ी कॉन्टेक्स्ट विंडो है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करती है. यह पिछले वर्शन के मुकाबले ज़्यादा साइज़ में उपलब्ध है. Gemma 3 के मॉडल, टेक्स्ट जनरेट करने और इमेज को समझने से जुड़े कई तरह के टास्क के लिए बेहतर हैं. इनमें सवालों के जवाब देना, खास जानकारी देना, और तर्क देना शामिल है. इनका साइज़ अपेक्षाकृत छोटा होने की वजह से, इन्हें सीमित संसाधनों वाले एनवायरमेंट में डिप्लॉय किया जा सकता है. जैसे, लैपटॉप, डेस्कटॉप या अपने क्लाउड इन्फ़्रास्ट्रक्चर. इससे, एआई के सबसे बेहतर मॉडल का ऐक्सेस सभी को मिल पाता है और सभी के लिए इनोवेशन को बढ़ावा मिलता है.

इनपुट और आउटपुट

इनपुट:
- टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, प्रॉम्प्ट या दस्तावेज़ जिसकी खास जानकारी चाहिए
- इमेज, 896 x 896 रिज़ॉल्यूशन में नॉर्मलाइज़ की गई हों और हर इमेज को 256 टोकन में एन्कोड किया गया हो
- 4B, 12B, और 27B साइज़ के लिए 128K टोकन और 1B साइज़ के लिए 32K टोकन का कुल इनपुट कॉन्टेक्स्ट
आउटपुट:
- इनपुट के जवाब में जनरेट किया गया टेक्स्ट. जैसे, किसी सवाल का जवाब, इमेज के कॉन्टेंट का विश्लेषण या किसी दस्तावेज़ की खास जानकारी
- 4B, 12B, और 27B साइज़ के लिए, कुल आउटपुट कॉन्टेक्स्ट 1,28,000 टोकन तक, और हर अनुरोध के लिए 1B साइज़ के लिए 32,000 टोकन. इसमें अनुरोध के इनपुट टोकन को घटाया गया है

उद्धरण

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

मॉडल का डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग के लिए इस्तेमाल किया गया डेटासेट

इन मॉडल को टेक्स्ट डेटा के ऐसे डेटासेट पर ट्रेन किया गया है जिसमें कई तरह के सोर्स शामिल हैं. 27 अरब व्यू वाले मॉडल को 14 ट्रिलियन टोकन के साथ, 12 अरब व्यू वाले मॉडल को 12 ट्रिलियन टोकन के साथ, 4 अरब व्यू वाले मॉडल को 4 ट्रिलियन टोकन के साथ, और 1 अरब व्यू वाले मॉडल को 2 ट्रिलियन टोकन के साथ ट्रेन किया गया था. ट्रेनिंग डेटा के लिए, नॉलेज कट्सऑफ़ की तारीख अगस्त 2024 थी. यहां मुख्य कॉम्पोनेंट के बारे में बताया गया है:

वेब दस्तावेज़: वेब टेक्स्ट का अलग-अलग तरह का कलेक्शन, यह पक्का करता है कि मॉडल को भाषा की कई तरह की शैलियों, विषयों, और शब्दावली का इस्तेमाल करने का मौका मिले. ट्रेनिंग डेटासेट में 140 से ज़्यादा भाषाओं का कॉन्टेंट शामिल है.
कोड: मॉडल को कोड के साथ एक्सपोज़ करने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न को समझने में मदद मिलती है. इससे, कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
गणित: गणित के टेक्स्ट पर ट्रेनिंग से, मॉडल को लॉजिकल रीज़निंग, सिंबल के तौर पर प्रज़ेंटेशन, और गणित से जुड़ी क्वेरी को हल करने में मदद मिलती है.
इमेज: अलग-अलग तरह की इमेज की मदद से, मॉडल इमेज का विश्लेषण कर सकता है और विज़ुअल डेटा निकाल सकता है.

अलग-अलग तरह के इन डेटा सोर्स को जोड़ना, बेहतर मल्टीमोडल मॉडल को ट्रेन करने के लिए ज़रूरी है. यह मॉडल, कई तरह के अलग-अलग टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा को पहले से प्रोसेस करना

ट्रेनिंग डेटा पर डेटा हटाने और फ़िल्टर करने के मुख्य तरीके यहां दिए गए हैं:

सीएसएएम फ़िल्टरिंग: डेटा तैयार करने की प्रोसेस के कई चरणों में, बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट (सीएसएएम) को ज़रूर फ़िल्टर किया गया था. इससे, नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को बाहर रखा जा सका.
संवेदनशील डेटा को फ़िल्टर करना: Gemma के पहले से ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इन तकनीकों की मदद से, ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

लागू करने से जुड़ी जानकारी

मॉडल के अंदरूनी काम करने के तरीके के बारे में जानकारी.

हार्डवेयर

Gemma को टेंसर प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv4p, TPUv5p, और TPUv5e) का इस्तेमाल करके ट्रेन किया गया था. विज़न-लैंग्वेज मॉडल (वीएलएमएस) को ट्रेनिंग देने के लिए, ज़्यादा कंप्यूटिंग पावर की ज़रूरत होती है. TPUs, खास तौर पर मशीन लर्निंग में आम तौर पर इस्तेमाल होने वाले मैट्रिक ऑपरेशन के लिए डिज़ाइन किए गए हैं. ये इस डोमेन में कई फ़ायदे देते हैं:

परफ़ॉर्मेंस: TPU को खास तौर पर, वीएलएम को ट्रेनिंग देने के लिए ज़रूरी बड़े-बड़े कंप्यूटेशन को हैंडल करने के लिए डिज़ाइन किया गया है. ये सीपीयू की तुलना में, ट्रेनिंग की प्रोसेस को काफ़ी तेज़ कर सकते हैं.
मेमोरी: TPU में अक्सर ज़्यादा बैंडविड्थ वाली ज़्यादा मेमोरी होती है. इससे ट्रेनिंग के दौरान, बड़े मॉडल और बैच साइज़ को मैनेज किया जा सकता है. इससे मॉडल की क्वालिटी बेहतर हो सकती है.
स्केलेबल: TPU पॉड (TPU के बड़े क्लस्टर), बड़े फ़ाउंडेशन मॉडल की बढ़ती जटिलता को मैनेज करने के लिए, स्केलेबल समाधान उपलब्ध कराते हैं. तेज़ और ज़्यादा बेहतर तरीके से प्रोसेस करने के लिए, ट्रेनिंग को कई TPU डिवाइसों पर बांटा जा सकता है.
कम लागत: कई मामलों में, सीपीयू पर आधारित इन्फ़्रास्ट्रक्चर की तुलना में, TPU बड़े मॉडल को ट्रेन करने के लिए ज़्यादा किफ़ायती समाधान दे सकते हैं. खास तौर पर, जब तेज़ी से ट्रेनिंग की वजह से समय और संसाधनों की बचत होती है.
ये फ़ायदे, पर्यावरण को बेहतर बनाने के लिए Google की प्रतिबद्धताओं के मुताबिक हैं.

सॉफ़्टवेयर

JAX और एमएल पाथवे का इस्तेमाल करके ट्रेनिंग दी गई थी.

JAX की मदद से, शोधकर्ता बड़े मॉडल को तेज़ी से और ज़्यादा असरदार तरीके से ट्रेनिंग देने के लिए, TPUs के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं. एमएल पाथवे, Google की एक नई कोशिश है. इससे एआई (AI) सिस्टम बनाए जा सकेंगे, जो एक से ज़्यादा टास्क को एक साथ पूरा कर सकेंगे. यह खास तौर पर फ़ाउंडेशन मॉडल के लिए सही है. इनमें इन जैसे लार्ज लैंग्वेज मॉडल भी शामिल हैं.

Gemini फ़ैमिली के मॉडल के बारे में पेपर में बताए गए तरीके के मुताबिक, JAX और ML Pathways का इस्तेमाल एक साथ किया जाता है. "Jax और Pathways के 'सिंगल कंट्रोलर' प्रोग्रामिंग मॉडल की मदद से, एक Python प्रोसेस से पूरे ट्रेनिंग रन को ऑर्केस्ट्रेट किया जा सकता है. इससे डेवलपमेंट वर्कफ़्लो को काफ़ी आसान बना दिया जाता है."

आकलन

मॉडल की परफ़ॉर्मेंस का आकलन करने वाली मेट्रिक और नतीजे.

बेंचमार्क के नतीजे

टेक्स्ट जनरेशन के अलग-अलग पहलुओं को कवर करने के लिए, इन मॉडल का आकलन अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. IT के साथ मार्क किए गए आकलन के नतीजे, निर्देश के हिसाब से बनाए गए मॉडल के लिए होते हैं. PT के साथ मार्क किए गए आकलन के नतीजे, पहले से ट्रेन किए गए मॉडल के लिए होते हैं.

तर्क और तथ्यों का सही होना

मानदंड	n-शॉट	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
GPQA डायमंड	बिना उदाहरण वाला प्रॉम्प्ट	19.2	30.8	40.9	42.4
SimpleQA	बिना उदाहरण वाला प्रॉम्प्ट	2.2	4.0	6.3	10.0
FACTS Grounding	-	36.4	70.1	75.8	74.9
BIG-Bench Hard	बिना उदाहरण वाला प्रॉम्प्ट	39.1	72.2	85.7	87.6
BIG-Bench Extra Hard	बिना उदाहरण वाला प्रॉम्प्ट	7.2	11.0	16.3	19.3
IFEval	बिना उदाहरण वाला प्रॉम्प्ट	80.2	90.2	88.9	90.4

मानदंड	n-शॉट	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	जेमा 3 PT 27B
HellaSwag	10-शॉट	62.3	77.2	84.2	85.6
BoolQ	बिना उदाहरण वाला प्रॉम्प्ट	63.2	72.3	78.8	82.4
PIQA	बिना उदाहरण वाला प्रॉम्प्ट	73.8	79.6	81.8	83.3
SocialIQA	बिना उदाहरण वाला प्रॉम्प्ट	48.9	51.9	53.4	54.9
TriviaQA	पांच शॉट	39.8	65.8	78.2	85.5
सामान्य सवाल	पांच शॉट	9.48	20.0	31.4	36.1
ARC-c	25-शॉट	38.4	56.2	68.9	70.6
ARC-e	बिना उदाहरण वाला प्रॉम्प्ट	73.0	82.4	88.3	89.0
WinoGrande	पांच शॉट	58.2	64.7	74.3	78.8
BIG-Bench Hard	कुछ उदाहरण वाला प्रॉम्प्ट	28.4	50.9	72.6	77.7
DROP	एक उदाहरण वाला प्रॉम्प्ट	42.4	60.1	72.2	77.2

एसटीईएम और कोड

मानदंड	n-शॉट	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMLU (Pro)	बिना उदाहरण वाला प्रॉम्प्ट	14.7	43.6	60.6	67.5
LiveCodeBench	बिना उदाहरण वाला प्रॉम्प्ट	1.9	12.6	24.6	29.7
Bird-SQL (डेवलपर)	-	6.4	36.3	47.9	54.4
गणित	बिना उदाहरण वाला प्रॉम्प्ट	48.0	75.6	83.8	89.0
HiddenMath	बिना उदाहरण वाला प्रॉम्प्ट	15.8	43.0	54.5	60.3
MBPP	तीन शॉट	35.2	63.2	73.0	74.4
HumanEval	बिना उदाहरण वाला प्रॉम्प्ट	41.5	71.3	85.4	87.8
Natural2Code	बिना उदाहरण वाला प्रॉम्प्ट	56.0	70.3	80.7	84.5
GSM8K	बिना उदाहरण वाला प्रॉम्प्ट	62.8	89.2	94.4	95.9

मानदंड	n-शॉट	Gemma 3 PT 4B	Gemma 3 PT 12B	जेमा 3 PT 27B
MMLU	पांच शॉट	59.6	74.5	78.6
MMLU (Pro COT)	पांच शॉट	29.2	45.3	52.2
AGIEval	3-5-शॉट	42.1	57.4	66.2
MATH	4-शॉट	24.2	43.3	50.0
GSM8K	8-शॉट	38.4	71.0	82.6
GPQA	पांच शॉट	15.0	25.4	24.3
MBPP	तीन शॉट	46.0	60.4	65.6
HumanEval	बिना उदाहरण वाला प्रॉम्प्ट	36.0	45.7	48.8

कई भाषाओं में उपलब्ध

मानदंड	n-शॉट	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
Global-MMLU-Lite	बिना उदाहरण वाला प्रॉम्प्ट	34.2	54.5	69.5	75.1
ECLeKTic	बिना उदाहरण वाला प्रॉम्प्ट	1.4	4.6	10.3	16.7
WMT24++	बिना उदाहरण वाला प्रॉम्प्ट	35.9	46.8	51.6	53.4

मानदंड	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	जेमा 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (सभी)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

मल्टीमोडल

मानदंड	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMMU (val)	48.8	59.6	64.9
DocVQA	75.8	87.1	86.6
InfoVQA	50.0	64.9	70.6
TextVQA	57.8	67.7	65.1
AI2D	74.8	84.2	84.5
ChartQA	68.8	75.7	78.0
VQAv2 (val)	62.4	71.6	71.0
MathVista (testmini)	50.0	62.9	67.6

मानदंड	Gemma 3 PT 4B	Gemma 3 PT 12B	जेमा 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

नैतिकता और सुरक्षा

नैतिकता और सुरक्षा के आकलन का तरीका और नतीजे.

आकलन का तरीका

हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:

बच्चों की सुरक्षा: टेक्स्ट से टेक्स्ट और इमेज से टेक्स्ट में बदलने वाले प्रॉम्प्ट का आकलन. इसमें बच्चों की सुरक्षा से जुड़ी नीतियों को शामिल किया जाता है. जैसे, बच्चों का यौन शोषण और उनका शोषण.
कॉन्टेंट की सुरक्षा: टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट प्रॉम्प्ट का आकलन, जिसमें सुरक्षा से जुड़ी नीतियों को शामिल किया गया है. इन नीतियों में, उत्पीड़न, हिंसा और खून-खराबा दिखाने वाला कॉन्टेंट, और नफ़रत फैलाने वाली भाषा शामिल है.
गलत तरीके से दिखाना: टेक्स्ट से टेक्स्ट और इमेज से टेक्स्ट में बदलने वाले प्रॉम्प्ट का आकलन. इसमें सुरक्षा से जुड़ी नीतियों को शामिल किया जाता है. जैसे, पक्षपात, किसी खास तरह के लोगों के बारे में गलत धारणा, और नुकसान पहुंचाने वाले असोसिएशन या गलत जानकारी.

डेवलपमेंट लेवल की समीक्षाओं के अलावा, हम "भरोसेमंदी की जांच" भी करते हैं. ये जांच, ज़िम्मेदारी के हिसाब से नीति बनाने के फ़ैसले लेने के लिए, हमारे संगठन के अंदर की जाने वाली जांच होती हैं. ये टेस्ट, मॉडल डेवलपमेंट टीम से अलग किए जाते हैं, ताकि रिलीज़ के बारे में फ़ैसला लेने में मदद मिल सके. हाई लेवल की खोज के नतीजों को मॉडल टीम को भेजा जाता है. हालांकि, प्रॉम्प्ट सेट को होल्ड-आउट किया जाता है, ताकि मॉडल को ओवरफ़िट होने से बचाया जा सके और नतीजों की मदद से फ़ैसले लेने की सुविधा बनी रहे. रिलीज़ की समीक्षा के तहत, सुरक्षा की पुष्टि करने के लिए किए गए आकलन के नतीजों की जानकारी, हमारी ज़िम्मेदारी और सुरक्षा परिषद को दी जाती है.

जांच के नतीजे

सुरक्षा जांच के सभी क्षेत्रों के लिए, हमें Gemma के पिछले मॉडल की तुलना में, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट की कैटगरी में काफ़ी सुधार दिखे. मॉडल की क्षमताओं और व्यवहार का आकलन करने के लिए, सभी टेस्टिंग को सुरक्षा फ़िल्टर के बिना किया गया था. टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ में, मॉडल ने नीति के उल्लंघनों की संख्या कम की. साथ ही, बिना किसी आधार के अनुमान लगाने के मामले में, Gemma के पिछले मॉडल की परफ़ॉर्मेंस की तुलना में काफ़ी सुधार दिखाया. हमारे आकलन में सिर्फ़ अंग्रेज़ी भाषा के प्रॉम्प्ट शामिल थे.

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) मॉडल का इस्तेमाल, अलग-अलग इंडस्ट्री और डोमेन में कई तरह के कामों के लिए किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम नहीं बताए गए हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था.

कॉन्टेंट बनाना और कम्यूनिकेशन
- टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, कविता, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल ड्राफ़्ट जैसे क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है.
- चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाएं.
- टेक्स्ट की खास जानकारी: टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करें.
- इमेज डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, उसका विश्लेषण करने, और खास जानकारी देने के लिए किया जा सकता है.
रिसर्च और शिक्षा
- नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, वीएलएम और एनएलपी तकनीकों के साथ प्रयोग करने, एल्गोरिदम बनाने, और इस क्षेत्र को आगे बढ़ाने में शोधकर्ताओं की मदद कर सकते हैं.
- भाषा सीखने के टूल: ये टूल, भाषा सीखने के इंटरैक्टिव अनुभवों के साथ काम करते हैं. साथ ही, व्याकरण में सुधार करने या लिखने का अभ्यास करने में मदद करते हैं.
- नॉलेज एक्सप्लोरेशन: खास विषयों के बारे में सवालों के जवाब देकर या खास जानकारी जनरेट करके, शोधकर्ताओं को बड़े टेक्स्ट को एक्सप्लोर करने में मदद करता है.

सीमाएं

ट्रेनिंग के लिए डेटा
- ट्रेनिंग डेटा की क्वालिटी और उसमें मौजूद अलग-अलग तरह के डेटा का असर, मॉडल की परफ़ॉर्मेंस पर पड़ता है. ट्रेनिंग डेटा में पक्षपात या गैप होने पर, मॉडल के जवाबों में सीमाएं आ सकती हैं.
- ट्रेनिंग डेटासेट के दायरे से यह तय होता है कि मॉडल किन विषयों को असरदार तरीके से मैनेज कर सकता है.
कॉन्टेक्स्ट और टास्क की जटिलता
- मॉडल उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ तौर पर दिए गए प्रॉम्प्ट और निर्देशों के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
- किसी मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की संख्या का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट से बेहतर आउटपुट मिलते हैं. हालांकि, यह एक तय सीमा तक ही होता है.
भाषा में अस्पष्टता और बारीकियों का ध्यान रखना
- नैचुरल लैंग्वेज अपने-आप जटिल होती है. मॉडल को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
तथ्यों की सटीक जानकारी
- मॉडल, ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं होते. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
सामान्य नियमों का पालन करना
- मॉडल, भाषा के आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ स्थितियों में सामान्य ज्ञान के आधार पर तर्क न कर पाएं.

नैतिक तौर पर अहम बातें और जोखिम

विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई चिंताएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग मटीरियल में शामिल सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने की जानकारी दी गई है. साथ ही, इस कार्ड में बाद के आकलन की जानकारी दी गई है.
गलत जानकारी और उसका गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
- मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
पारदर्शिता और जवाबदेही:
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रक्रियाओं के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और रिसर्चर के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस करने की सुविधा देकर, इनोवेशन शेयर करने का मौका देता है.

जोखिमों की पहचान और उन्हें कम करने के तरीके:

बायस को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और इस्तेमाल के अन्य उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मैन्युअल समीक्षा का इस्तेमाल किया जा सकता है. साथ ही, बायस को कम करने वाली तकनीकों का भी इस्तेमाल किया जा सकता है.
नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि आपके पास इसके लिए तंत्र और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और असली उपयोगकर्ता को दी जाने वाली शिक्षा से, वीएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. उपयोगकर्ताओं को गलत इस्तेमाल की शिकायत करने के लिए, जानकारी देने वाले संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
निजता के उल्लंघन: मॉडल को कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटाने के लिए फ़िल्टर किए गए डेटा पर ट्रेन किया गया था. डेवलपर को, निजता बनाए रखने वाली तकनीकों का इस्तेमाल करके, निजता के नियमों का पालन करने का सुझाव दिया जाता है.

फ़ायदे

रिलीज़ के समय, मॉडल का यह फ़ैमिली, बेहतर परफ़ॉर्मेंस वाला ओपन विज़न-लैंग्वेज मॉडल लागू करता है. इसे शुरू से ही, ज़िम्मेदार एआई डेवलपमेंट के लिए डिज़ाइन किया गया है. यह मॉडल, मिलते-जुलते साइज़ के मॉडल की तुलना में बेहतर परफ़ॉर्म करता है.

इस दस्तावेज़ में बताई गई बेंचमार्क मेट्रिक का इस्तेमाल करके, इन मॉडल ने तुलना के लायक साइज़ वाले अन्य ओपन मॉडल के विकल्पों की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.