मॉडल पेज: PaliGemma
संसाधन और तकनीकी दस्तावेज़:
इस्तेमाल की शर्तें: शर्तें
लेखक: Google
मॉडल की जानकारी
मॉडल की खास जानकारी
PaliGemma 2, PaliGemma के विज़न-लैंग्वेज मॉडल (वीएलएम) का अपडेट है. इसमें Gemma 2 मॉडल की सुविधाएं शामिल हैं. PaliGemma फ़ैमिली के मॉडल, PaLI-3 से प्रेरित हैं. साथ ही, ये SigLIP विज़न मॉडल और Gemma 2 लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित हैं. यह कई भाषाओं में काम करता है. इसमें इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर लिया जाता है और आउटपुट के तौर पर टेक्स्ट जनरेट किया जाता है. इसे विज़न-लैंग्वेज से जुड़े कई तरह के टास्क के लिए, बेहतर परफ़ॉर्मेंस देने के मकसद से डिज़ाइन किया गया है. जैसे, इमेज और छोटे वीडियो का कैप्शन, विज़ुअल से जुड़े सवालों के जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट का पता लगाना, और ऑब्जेक्ट को अलग-अलग हिस्सों में बांटना.
मॉडल का आर्किटेक्चर
PaliGemma 2, Transformer डिकोडर और विज़न ट्रांसफ़ॉर्मर इमेज एन्कोडर का कॉम्पोनेंट है. टेक्स्ट डिकोडर को 2B, 9B, और 27B पैरामीटर साइज़ में, Gemma 2 से शुरू किया जाता है. इमेज एन्कोडर को SigLIP-So400m/14 से शुरू किया जाता है. ओरिजनल PaliGemma मॉडल की तरह ही, PaliGemma 2 को PaLI-3 रेसिपी के हिसाब से ट्रेन किया गया है.
इनपुट और आउटपुट
- इनपुट: इमेज और टेक्स्ट स्ट्रिंग, जैसे कि इमेज का कैप्शन देने के लिए प्रॉम्प्ट या कोई सवाल.
- आउटपुट: इनपुट के जवाब में जनरेट किया गया टेक्स्ट. जैसे, इमेज का कैप्शन, किसी सवाल का जवाब, ऑब्जेक्ट के बाउंडिंग बॉक्स के निर्देशांक की सूची या सेगमेंटेशन कोडवर्ड.
उद्धरण
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
मॉडल का डेटा
डेटासेट को पहले से ट्रेन करना
PaliGemma 2 को इन डेटासेट के मिश्रण पर पहले से ट्रेन किया गया है:
- WebLI: WebLI (वेब लैंग्वेज इमेज), वेब पर मौजूद कई भाषाओं में इमेज-टेक्स्ट का डेटासेट है. इसे सार्वजनिक वेब से बनाया गया है. मॉडल की अलग-अलग सुविधाओं को हासिल करने के लिए, WebLI के अलग-अलग स्प्लिट का इस्तेमाल किया जाता है. जैसे, विज़ुअल सेमेटिक समझ, ऑब्जेक्ट की जगह की जानकारी, विज़ुअल के हिसाब से टेक्स्ट समझना, और कई भाषाओं में काम करना.
- CC3M-35L: वेबपेजों से चुनी गई अंग्रेज़ी इमेज-alt_text जोड़ी (शर्मा वगैरह, 2018). हमने 34 अन्य भाषाओं में अनुवाद करने के लिए, Google Cloud के अनुवाद एपीआई का इस्तेमाल किया.
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M का सबसेट (Changpinyo et al., 2022a) को Google Cloud Translation API का इस्तेमाल करके, CC3M-35L की तरह ही 34 अन्य भाषाओं में अनुवाद किया गया है.
- OpenImages: OpenImages डेटासेट पर मैन्युअल तरीके से बनाए गए नियमों की मदद से, ऑब्जेक्ट का पता लगाने और उससे जुड़े सवाल और जवाब (Piergiovanni et al. 2022) जनरेट किए जाते हैं.
- WIT: Wikipedia से इकट्ठा की गई इमेज और टेक्स्ट (श्रीनिवासन वगैरह, 2021).
PaliGemma 2, Gemma 2 पर आधारित है. Gemma 2 मॉडल कार्ड में, Gemma 2 के लिए पहले से ट्रेन किए गए डेटासेट के बारे में जानकारी मिल सकती है.
डेटा की ज़िम्मेदारी से जुड़ी फ़िल्टरिंग
WebLI पर ये फ़िल्टर लागू किए गए हैं, ताकि PaliGemma 2 को सुरक्षित और ज़िम्मेदारी के साथ इस्तेमाल किए जाने वाले डेटा के बारे में ट्रेनिंग दी जा सके:
- पोर्नोग्राफ़ी वाली इमेज फ़िल्टर करने की सुविधा: यह फ़िल्टर, ऐसी इमेज हटा देता है जिन्हें पोर्नोग्राफ़ी वाली माना जाता है.
- सुरक्षित टेक्स्ट फ़िल्टर करने की सुविधा: हम उन इमेज की पहचान करते हैं और उन्हें फ़िल्टर करते हैं जिनमें असुरक्षित टेक्स्ट का इस्तेमाल किया गया हो. असुरक्षित टेक्स्ट वह टेक्स्ट होता है जिसमें बच्चों के यौन शोषण (सीएसएआई) की तस्वीरें, पोर्नोग्राफ़ी, अश्लील कॉन्टेंट शामिल हो या इनके बारे में बताया गया हो. इसके अलावा, ऐसा टेक्स्ट भी असुरक्षित माना जाता है जो किसी और तरह से आपत्तिजनक हो.
- आपत्तिजनक टेक्स्ट को फ़िल्टर करना: हम Perspective एपीआई का इस्तेमाल करके, ऐसी इमेज की पहचान करते हैं और उन्हें फ़िल्टर करते हैं जिनमें अपमानजनक, अश्लील, नफ़रत फैलाने वाला या अन्य तरह से आपत्तिजनक टेक्स्ट का इस्तेमाल किया गया हो.
- टेक्स्ट में निजी जानकारी को फ़िल्टर करना: हमने लोगों की निजता की सुरक्षा के लिए, क्लाउड डेटा लॉस प्रिवेंशन (DLP) एपीआई का इस्तेमाल करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया है. सोशल सिक्योरिटी नंबर और अन्य संवेदनशील जानकारी जैसे आइडेंटिफ़ायर हटा दिए गए हैं.
- अन्य तरीके: हमारी नीतियों और तरीकों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.
लागू करने से जुड़ी जानकारी
हार्डवेयर
PaliGemma 2 को टेंसर प्रोसेसिंग यूनिट (TPU) के नए वर्शन के हार्डवेयर (TPUv5e) का इस्तेमाल करके ट्रेन किया गया था.
सॉफ़्टवेयर
JAX,
Flax,
TFDS, और
big_vision
का इस्तेमाल करके ट्रेनिंग पूरी की गई.
JAX की मदद से, शोधकर्ता बड़े मॉडल को तेज़ी से और ज़्यादा असरदार तरीके से ट्रेनिंग देने के लिए, TPUs के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं.
TFDS का इस्तेमाल डेटासेट ऐक्सेस करने के लिए किया जाता है और Flax का इस्तेमाल मॉडल आर्किटेक्चर के लिए किया जाता है. PaliGemma 2 के फ़ाइन-ट्यून कोड और अनुमान लगाने वाले कोड को big_vision
GitHub रिपॉज़िटरी में रिलीज़ किया गया है.
इवैलुएशन की जानकारी
बेंचमार्क के नतीजे
PaliGemma 2 को अलग-अलग तरह के अकादमिक टास्क पर ट्रांसफ़र किया जा सकता है या नहीं, इसकी पुष्टि करने के लिए हम हर टास्क के लिए, पहले से ट्रेन किए गए मॉडल को बेहतर बनाते हैं. हम अलग-अलग रिज़ॉल्यूशन पर नतीजों की रिपोर्ट देते हैं, ताकि यह पता चल सके कि ज़्यादा रिज़ॉल्यूशन से किन टास्क को फ़ायदा होता है. अहम बात यह है कि इनमें से कोई भी टास्क या डेटासेट, प्री-ट्रेनिंग डेटा मिक्स का हिस्सा नहीं है. साथ ही, इनकी इमेज को वेब-स्केल प्री-ट्रेनिंग डेटा से साफ़ तौर पर हटा दिया जाता है.
मॉडल के रिज़ॉल्यूशन और साइज़ के हिसाब से PaliGemma 2 के नतीजे
मानदंड | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
AOKVQA-DA (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
COCOcap | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
ChartQA (औसत) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
ChartQA (मनुष्य) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
DocVQA (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
GQA | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (avg5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
MSRVTT-CAP | 68.5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
ओसीआर-वीक्यूए | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
OKVQA | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
RSVQA-hr (टेस्ट) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (test2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (testA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (testB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (testB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
RefCOCO+ (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (टेस्ट) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (जटिल) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (आसान) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
TextCaps | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | 82.7 | - | - | - | - |
VQAv2 (minival) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
WidgetCap | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (avg35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
xGQA (avg7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
अन्य मानदंड
मॉडल | स्पष्टता | रीकॉल | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
मॉडल | स्पष्टता | रीकॉल | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8. | 74.54 | 74.17 |
मॉडल | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
मॉडल | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
मॉडल | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
- PaliGemma 2 3B, पूरी तरह मैच होने पर: 94.8
मॉडल | avg#char | avg#sent | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char: वर्णों की औसत संख्या
- avg#sent: वाक्यों की औसत संख्या
- NES: बिना जानकारी वाले वाक्य
मॉडल | CIDEr | BLEU4 | Rouge-L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
मॉडल | वीएसआर (वॉइस सर्च रिस्पॉन्स) का शून्य शॉट स्प्लिट (टेस्ट) | वीएसआर रैंडम स्प्लिट (टेस्ट) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
नैतिकता और सुरक्षा
आकलन का तरीका
कॉन्टेंट की समीक्षा करने के हमारे तरीकों में, कॉन्टेंट से जुड़ी नीतियों के मुताबिक, सुरक्षा और नैतिकता से जुड़े स्ट्रक्चर्ड आकलन शामिल हैं. इन नीतियों में ये शामिल हैं:
- बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट से जुड़े प्रॉम्प्ट पर मानवीय आकलन. आकलन के तरीके के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल का कार्ड देखें. हालांकि, इसमें इमेज के कैप्शन और विज़ुअल सवालों के जवाब देने वाले सेटअप शामिल नहीं हैं.
- इमेज से टेक्स्ट में बदलने की सुविधा के लिए मानदंड का आकलन: FairFace Dataset (Karkkainen et al., 2021).
जांच के नतीजे
- नैतिकता और सुरक्षा से जुड़े आकलन के लिए, मैन्युअल तरीके से किए गए आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट जैसी कैटगरी के लिए बनी इंटरनल नीतियों के मुताबिक हैं.
- हम अंदरूनी तौर पर ज़रूरी जांच करने के साथ-साथ, Perspective API (थ्रेशोल्ड 0.8) का भी इस्तेमाल करते हैं. इससे, FairFace डेटासेट से ली गई इमेज के लिए जनरेट किए गए कैप्शन में, बुरे बर्ताव, अपशब्दों, और अन्य संभावित समस्याओं का पता लगाया जाता है. हम लिंग, जातीयता, और उम्र के हर एट्रिब्यूट के लिए, सभी सबग्रुप में देखी गई सबसे ज़्यादा और औसत वैल्यू की रिपोर्ट करते हैं.
मेट्रिक | अनुमानित लिंग | जातीयता | उम्र समूह | ||||||
---|---|---|---|---|---|---|---|---|---|
मॉडल का साइज़ | 3 अरब | 10 अरब | 28B | 3 अरब | 10 अरब | 28B | 3 अरब | 10 अरब | 28B |
ज़्यादा से ज़्यादा | |||||||||
बुरा बर्ताव | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
पहचान पर हमला | 0.04% | 0.02% | 0.02% | 0.13% | 0.06% | 0.06% | 0.06% | 0.03% | 0.06% |
Insult | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
भय | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
गाली-गलौज | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
मीडियन | |||||||||
बुरा बर्ताव | 0.13% | 0.10% | 0.18% | 0.07% | 0.07% | 0.14% | 0.12% | 0.08% | 0.12% |
पहचान पर हमला | 0.02% | 0.01% | 0.02% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Insult | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | 0.09% | 0.18% | 0.16% |
भय | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
गाली-गलौज | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
इस्तेमाल और सीमाएं
इस्तेमाल का मकसद
ओपन विज़न लैंग्वेज मॉडल (वीएलएम) का इस्तेमाल, कई इंडस्ट्री और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल के उदाहरणों की सूची पूरी नहीं है. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
किसी खास विज़न-लैंग्वेज टास्क को बेहतर बनाना:
- पहले से ट्रेन किए गए मॉडल को, विज़न-लैंग्वेज से जुड़े कई तरह के टास्क के लिए बेहतर बनाया जा सकता है. जैसे: इमेज का कैप्शन देना, छोटे वीडियो का कैप्शन देना, विज़ुअल से जुड़े सवालों के जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट का पता लगाना, और ऑब्जेक्ट का सेगमेंटेशन करना.
- पहले से ट्रेन किए गए मॉडल को खास डोमेन के लिए बेहतर बनाया जा सकता है. जैसे, रिमोट सेंसिंग से जुड़े सवालों के जवाब देना, ऐसे लोगों के विज़ुअल सवालों के जवाब देना जो अंधे हैं, विज्ञान से जुड़े सवालों के जवाब देना, यूज़र इंटरफ़ेस (यूआई) एलिमेंट की सुविधाओं के बारे में बताना.
- पहले से ट्रेन किए गए मॉडल को, ऐसे टास्क के लिए बेहतर बनाया जा सकता है जिनका आउटपुट टेक्स्ट के बजाय, बॉउंडिंग बॉक्स या सेगमेंटेशन मास्क जैसा हो.
विज़न-लैंग्वेज रिसर्च:
- पहले से ट्रेन किए गए मॉडल और बेहतर किए गए मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इनकी मदद से, वे वीएलएम तकनीकों के साथ प्रयोग कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस क्षेत्र को आगे बढ़ाने में योगदान दे सकते हैं.
नैतिकता से जुड़ी बातें और जोखिम
विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई चिंताएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:
- पक्षपात और निष्पक्षता
- बड़े पैमाने पर, असल दुनिया की इमेज-टेक्स्ट के डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए कॉन्टेंट में मौजूद सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने के बारे में बताया गया है. साथ ही, इन मॉडल के बाद के आकलन की जानकारी भी इस कार्ड में दी गई है.
- गलत जानकारी और उसका गलत इस्तेमाल
- वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
- मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
- पारदर्शिता और जवाबदेही
- इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रक्रियाओं के बारे में खास जानकारी दी गई है.
- ज़िम्मेदारी के साथ तैयार किए गए ओपन मॉडल की मदद से, एआई के पूरे नेटवर्क के डेवलपर और रिसर्चर के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस किया जा सकता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.
जोखिमों की पहचान और उन्हें कम करने के तरीके:
- पक्षपात को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और अन्य इस्तेमाल के उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करें. साथ ही, पक्षपात को कम करने वाली तकनीकों को एक्सप्लोर करें.
- नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि इसके लिए नीतियां और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
- बुरे मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और आखिरी उपयोगकर्ता को दी जाने वाली शिक्षा से, एलएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. गलत इस्तेमाल की शिकायत करने के लिए, उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और शिकायत करने के तरीके दिए जाते हैं: ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने के लिए टूलकिट देखें. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
- निजता के उल्लंघन: मॉडल को फ़िल्टर किए गए डेटा पर ट्रेन किया गया था, ताकि कुछ निजी जानकारी और संवेदनशील डेटा हटाया जा सके. डेवलपर को निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करने के लिए बढ़ावा दिया जाता है.
सीमाएं
- Gemma 2 मॉडल से इनहेरिट की गई ज़्यादातर सीमाएं अब भी लागू हैं:
- वीएलएम, उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ निर्देशों और प्रॉम्प्ट के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
- नैचुरल लैंग्वेज अपने-आप जटिल होती है. वीएलएम को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
- वीएलएम, अपने ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं हैं. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
- वीएलएम, भाषा और इमेज में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ स्थितियों में सामान्य ज्ञान के आधार पर तर्क न कर पाएं.
- PaliGemma 2 को मुख्य तौर पर, खास टास्क के लिए बेहतर बनाने के मकसद से, पहले से ट्रेन किए गए सामान्य मॉडल के तौर पर डिज़ाइन किया गया था. इसलिए, "आउट ऑफ़ द बॉक्स" या "ज़ीरो-शॉट" परफ़ॉर्मेंस, खास तौर पर सामान्य काम के लिए डिज़ाइन किए गए मॉडल से पीछे रह सकती है.
- PaliGemma 2, एक से ज़्यादा बार बातचीत करने वाला चैटबॉट नहीं है. इसे इमेज और टेक्स्ट के एक ही राउंड के इनपुट के लिए डिज़ाइन किया गया है.