PaliGemma मॉडल कार्ड

मॉडल पेज: PaliGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

ब्यौरा

PaliGemma, अलग-अलग तरह की लाइटवेट विज़न-लैंग्वेज मॉडल (VLM) है. यह इनसे प्रेरित है: PaLI-3 और ओपन कॉम्पोनेंट पर आधारित होता है. जैसे, SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल. यह इमेज और टेक्स्ट, दोनों लेता है और आउटपुट के रूप में टेक्स्ट जनरेट करता है. यह कई भाषाओं में काम करता है. हां डिज़ाइन किया गया है, जो क्लास के बेहतरीन परफ़ॉर्मेंस के लिए डिज़ाइन किया गया है. यह परफ़ॉर्मेंस, विज़न के हिसाब से टास्क, जैसे कि इमेज और शॉर्ट वीडियो कैप्शन, विज़ुअल सवाल जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट की पहचान करना, और ऑब्जेक्ट को अलग-अलग सेगमेंट में बांटना.

मॉडल का आर्किटेक्चर

PaliGemma एक ट्रांसफ़ॉर्मर का कंपोज़िशन है डिकोडर और विज़न ट्रांसफ़ॉर्मर इमेज एन्कोडर, जिसमें कुल 3 अरब पैरामीटर हैं. टेक्स्ट डिकोडर इससे शुरू किया जाता है Gemma-2B. इमेज एन्कोडर यह है इससे शुरू किया गया SigLIP-So400m/14. PaliGemma को PaLI-3 रेसिपी का इस्तेमाल करके ट्रेनिंग दी गई है.

इनपुट और आउटपुट

  • इनपुट: इमेज और टेक्स्ट स्ट्रिंग, जैसे कि इमेज को कैप्शन देने के लिए प्रॉम्प्ट या एक सवाल.
  • आउटपुट: इनपुट के जवाब में जनरेट किया गया टेक्स्ट, जैसे कि इमेज, सवाल का जवाब, ऑब्जेक्ट बाउंडिंग बॉक्स की सूची कोडवर्ड या निर्देशांक का इस्तेमाल कर सकते हैं.

मॉडल डेटा

डेटासेट को प्री-ट्रेन करें

PaliGemma को डेटासेट के इन मिक्स की मदद से पहले से ट्रेनिंग दी गई है:

डेटा की ज़िम्मेदारी के हिसाब से फ़िल्टर करने की सुविधा

PaliGemma को ट्रेनिंग देने के मकसद से, WebLI पर ये फ़िल्टर लागू किए गए हैं ग़ैर-ज़रूरी डेटा के लिए:

  • पोर्नोग्राफ़िक इमेज फ़िल्टर करना: यह फ़िल्टर ऐसी इमेज हटा देता है जिन्हें माना जाता है पोर्नोग्राफ़ी वाला कॉन्टेंट.
  • टेक्स्ट की सुरक्षा को फ़िल्टर करना: हम जोड़ी गई इमेज की पहचान करके, उन्हें फ़िल्टर कर देते हैं जिसमें असुरक्षित टेक्स्ट हो. असुरक्षित टेक्स्ट वह टेक्स्ट होता है जिसमें सीएसएआई कॉन्टेंट, पॉर्नोग्राफ़ी, अश्लील या आपत्तिजनक कॉन्टेंट.
  • टेक्स्ट के बुरे बर्ताव को फ़िल्टर करना: हम Perspective का इस्तेमाल करते हैं एपीआई का इस्तेमाल, ऐसी इमेज की पहचान और उन्हें फ़िल्टर करने के लिए करता है ऐसा टेक्स्ट जिसमें अपमानजनक, अश्लील, नफ़रत फैलाने वाला या किसी और तरह का बुरा बर्ताव दिखाया गया हो.
  • टेक्स्ट से जुड़ी निजी जानकारी को फ़िल्टर करना: हमने कुछ निजी जानकारी को फ़िल्टर किया है Cloud डेटा लीक होने की रोकथाम की सुविधा" का इस्तेमाल करके, जानकारी और अन्य संवेदनशील डेटा (डीएलपी) एपीआई, लोगों की निजता को सुरक्षित रखते हैं. आइडेंटिफ़ायर, जैसे कि सोशल सिक्योरिटी नंबर और अन्य संवेदनशील जानकारी टाइप हटा दिए गए हैं.
  • अन्य तरीके: कॉन्टेंट की क्वालिटी और सुरक्षा के हिसाब से फ़िल्टर करना हमारी नीतियों और तौर-तरीकों के मुताबिक होना चाहिए.

लागू करने के बारे में जानकारी

हार्डवेयर

PaliGemma को Tensor प्रोसेसिंग यूनिट की सबसे नई जनरेशन की मदद से ट्रेनिंग दी गई (TPU) हार्डवेयर (TPUv5e).

सॉफ़्टवेयर

ट्रेनिंग JAX का इस्तेमाल करके की गई थी, फ़्लेक्स, TFDS और big_vision.

JAX की मदद से, रिसर्च करने वाले लोग नई जनरेशन के हार्डवेयर का इस्तेमाल कर सकते हैं. इसमें TPU भी शामिल हैं, ताकि बड़े मॉडल को तेज़ी और बेहतर तरीके से ट्रेनिंग दी जा सके.

TFDS का इस्तेमाल डेटासेट ऐक्सेस करने के लिए किया जाता है. साथ ही, Flux का इस्तेमाल मॉडल आर्किटेक्चर के लिए किया जाता है. कॉन्टेंट बनाने PaliGemma का फ़ाइन-ट्यून कोड और अनुमान कोड, big_vision में रिलीज़ किए गए हैं GitHub रिपॉज़िटरी.

इवैलुएशन की जानकारी

बेंचमार्क नतीजे

यह पुष्टि करने के लिए कि PaliGemma को अलग-अलग देशों में ट्रांसफ़र किया जा सकता है हम हर टास्क के लिए पहले से ट्रेनिंग दिए गए मॉडल को बेहतर बनाते हैं. साथ ही, हम ट्रांसफ़र टास्क के मिश्रण के साथ मिक्स मॉडल को ट्रेनिंग दें. हम इन प्रॉडक्ट के नतीजों की शिकायत करते हैं अलग-अलग रिज़ॉल्यूशन के हिसाब से, यह दिखा सकें कि आपको किन टास्क से फ़ायदा होगा रिज़ॉल्यूशन बढ़ाया गया है. अहम बात यह है कि इनमें से कोई भी टास्क या डेटासेट इसका हिस्सा नहीं हैं प्रीट्रेनिंग डेटा मिक्स को फ़्लैग कर दिया जाता है और उनकी इमेज को वेब-स्केल प्री-ट्रेनिंग डेटा इकट्ठा किया.

एक टास्क (एक टास्क पर बेहतर बनाएं)

बेंचमार्क (ट्रेन स्प्लिट) मेट्रिक (स्प्लिट) pt-224 pt-448 pt-896
कैप्शनिंग
COCO कैप्शन (ट्रेन+रेस्टवल) CIDEr (वैल) 141.92 144.60
NoCaps (COCO कैप्शन ट्रांसफ़र की वैल्यू) CIDEr (वैल) 121.72 123.58
COCO-35L (ट्रेन) CIDEr डेवलपर (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L ट्रांसफ़र की वैल्यू) CIDEr डेवलपर (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (ट्रेन) CIDEr (वैल) 127.48 153.94
SciCap (पहला वाक्य, कोई सबफ़िगर नहीं) (ट्रेन+वाल) CIDEr/BLEU-4 (टेस्ट)
162.25
0.192
181.49
0.211
Screen2words (ट्रेन+डेवलपर) सीआईडीईआर (टेस्ट) 117.57 119.59
विजेट में कैप्शन जोड़ने की सुविधा (ट्रेन+डेवलपर) सीआईडीईआर (टेस्ट) 136.07 148.36
सवाल का जवाब देना
VQAv2 (ट्रेन+पुष्टि) ऐक्यूरसी (टेस्ट सर्वर - एसटीडी) 83.19 85.64
MMVP (VQAv2 ट्रांसफ़र का मूल्यांकन) एक-दूसरे से जुड़े हुए सटीक 47.33 45.33
POPE (VQAv2 ट्रांसफ़र का मूल्यांकन) सटीक (रैंडम/लोकप्रिय/एडवर्सलिटी)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (ट्रेन) सटीक (वैल) 63.54 63.15
A-OKVQA (MC) (ट्रेन+वाल) सटीक (टेस्ट सर्वर) 76.37 76.90
A-OKVQA (DA) (ट्रेन+वाल) सटीक (टेस्ट सर्वर) 61.85 63.22
GQA (train_balanced+val_balanced) सटीक (testdev बैलेंस्ड) 65.61 67.03
xGQA (GQA ट्रांसफ़र का मूल्यांकन) सटीक औसत (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (ट्रेन+डेवलपर) सटीक (टेस्ट) 90.02 88.93
MaRVL (NLVR2 ट्रांसफ़र का मूल्यांकन) सटीक औसत (टेस्ट) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (ट्रेन) सटीक (टेस्ट) 72.12 73.28
ScienceQA (Img सबसेट, CoT नहीं) (ट्रेन+वाल) सटीक (टेस्ट) 95.39 95.93
RSVQA-LR (नॉन न्यूमेरिक) (ट्रेन+वैल) औसत सटीक (टेस्ट) 92.65 93.11
RSVQA-HR (नॉन न्यूमेरिक) (ट्रेन+वैल) औसत सटीक (टेस्ट/टेस्ट2)
92.61
90.58
92.79
90.54
ChartQA (ह्यूमन+aug)x(train+val) सामान्य सटीक होने का औसत (test_ मुनाफ़ा, test_aug) 57.08 71.36
VizWiz VQA (ट्रेन+वाल) ऐक्यूरसी (टेस्ट सर्वर - एसटीडी) 73.7 75.52
TallyQA (ट्रेन) सटीक (test_सरल/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (ट्रेन+वैल) सटीक (टेस्ट) 72.32 74.61 74.93
TextVQA (ट्रेन+वाल) ऐक्यूरसी (टेस्ट सर्वर - एसटीडी) 55.47 73.15 76.48
DocVQA (ट्रेन+वाल) ANLS (टेस्ट सर्वर) 43.74 78.02 84.77
इन्फ़ोग्राफ़िक VQA (ट्रेन+वाल) ANLS (टेस्ट सर्वर) 28.46 40.47 47.75
SceneText VQA (ट्रेन+वाल) ANLS (टेस्ट सर्वर) 63.29 81.82 84.40
सेगमेंट करने की सुविधा
RefCOCO (संयुक्त refcoco, refcoco+, refcocog जिसमें वैल और टेस्ट इमेज शामिल नहीं हैं) MIoU (पुष्टि करने के लिए) refcoco/refcoco+/refcog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
वीडियो टास्क (कैप्शन/QA)
MSR-VTT (कैप्शन करना) सीआईडीईआर (टेस्ट) 70.54
एमएसआर-वीटीटी (QA) सटीक (टेस्ट) 50.09
ऐक्टिविटीनेट (कैप्शन की सुविधा) सीआईडीईआर (टेस्ट) 34.62
ऐक्टिविटीनेट (QA) सटीक (टेस्ट) 50.78
VATEX (कैप्शनिंग) सीआईडीईआर (टेस्ट) 79.73
एमएसवीडी (QA) सटीक (टेस्ट) 60.22

मिक्स मॉडल (ट्रांसफ़र के टास्क को साथ-साथ बेहतर तरीके से मैनेज करें)

मानदंड मेट्रिक (स्प्लिट) mix-224 mix-448
MMVP एक-दूसरे से जुड़े हुए सटीक 46.00 45.33
पोप सटीक (रैंडम/लोकप्रिय/एडवर्सलिटी)
88.00
86.63
85.67
89.37
88.40
87.47

नैतिकता और सुरक्षा

आकलन करने का तरीका

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड इवैलुएशन और इंटरनल रेड-टीमिंग शामिल है प्रासंगिक सामग्री नीतियों का परीक्षण करते हैं. रेड-टीमिंग का आयोजन कई संगठनों ने किया था अलग-अलग टीमों के लिए बनाई गई हैं. हर टीम के लक्ष्य और मैन्युअल आकलन की मेट्रिक अलग-अलग हैं. ये मॉडल का आकलन, उन अलग-अलग कैटगरी के हिसाब से किया गया जो नैतिकता और सुरक्षा से जुड़ी नीतियां. इनमें ये शामिल हैं:

  • बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने के बारे में बात करते हैं. जेमा मॉडल देखें कार्ड के लिए आकलन करने के तरीके के बारे में ज़्यादा जानकारी के लिए, इमेज कैप्शन और विज़ुअल का इस्तेमाल करें सवाल हल करने से जुड़े सवाल पूछे जाते हैं.
  • इमेज-टू-टेक्स्ट बेंचमार्क का आकलन: शिक्षा के क्षेत्र में काम आने वाले मानदंड का आकलन फ़ैयरफ़ेस डेटासेट (Karkkainen et al., 2021).

जांच के नतीजे

  • नैतिकता और सुरक्षा से जुड़े आकलन के लिए, मैन्युअल तौर पर की जाने वाली जांच के नतीजे मीटिंग के लिए स्वीकार किए जाने वाले थ्रेशोल्ड इंटरनल नीतियां जैसे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और प्रतिनिधित्व मिलने वाली कैटगरी के लिए नुकसान पहुंचाता है.
  • हम Perspective API का इस्तेमाल बेहतर तरीके से कर पाते हैं. इसके लिए, हम Perspective API का भी इस्तेमाल करते हैं (0.8 की सीमा) बुरा बर्ताव, अपशब्दों का इस्तेमाल, और दूसरी चीज़ों का आकलन करने के लिए FairFace से ली गई इमेज के लिए जनरेट किए गए कैप्शन में समस्याएं डेटासेट. हम सबग्रुप में देखी गई ज़्यादा से ज़्यादा और मीडियन वैल्यू की रिपोर्ट देते हैं हर एक कथित लिंग, जातीयता, और उम्र एट्रिब्यूट के लिए किया जा सकता है.
मेट्रिक लिंग से जुड़ी जानकारी जातीयता आयु समूह
ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन
बुरा बर्ताव 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
आइडेंटिटी अटैक 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
अपमान 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
भय 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
गाली-गलौज 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

इस्तेमाल और सीमाएं

इस्तेमाल का मकसद

ओपन विज़न लैंग्वेज मॉडल (वीएलएम) के अलग-अलग तरह के ऐप्लिकेशन हैं का इस्तेमाल करने की सलाह देते हैं. संभावित इस्तेमाल की यह सूची व्यापक. इस सूची का मकसद काम की जानकारी देना है इसमें इस्तेमाल के उन संभावित उदाहरणों के बारे में बताया गया है जिन्हें मॉडल क्रिएटर्स ने मॉडल का हिस्सा माना है ट्रेनिंग और डेवलपमेंट के बारे में है.

भाषा से जुड़े किसी टास्क को बेहतर बनाएं:

  • पहले से ट्रेन किए गए मॉडल को कई तरह की दृष्टि-भाषा के हिसाब से बेहतर बनाया जा सकता है टास्क जैसे: इमेज का कैप्शन, छोटा वीडियो कैप्शन, विज़ुअल सवाल जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट की पहचान करना, और ऑब्जेक्ट को अलग-अलग सेगमेंट में बांटना.
  • पहले से ट्रेन किए गए मॉडल को रिमोट जैसे कुछ डोमेन के लिए बेहतर बनाया जा सकता है सेंसिंग के सवाल का जवाब देना, दृष्टिहीन लोगों के विज़ुअल सवाल, विज्ञान से जुड़े सवालों के जवाब देना, यूज़र इंटरफ़ेस (यूआई) एलिमेंट के फ़ंक्शन के बारे में बताना.
  • पहले से ट्रेनिंग किए गए मॉडल को बिना टेक्स्ट वाले आउटपुट वाले टास्क के लिए बेहतर बनाया जा सकता है जैसे, बाउंडिंग बॉक्स या सेगमेंटेशन मास्क.

दृष्टि-भाषा पर रिसर्च:

  • पहले से ट्रेनिंग किए गए मॉडल और बेहतर बनाए गए मॉडल, मॉडल बनाने का काम रिसर्च करने वाले लोग, जो वीएलएम की तकनीकों के साथ एक्सपेरिमेंट करके, एल्गोरिदम डेवलप कर रहे हैं, और फ़ील्ड को बेहतर बनाने में योगदान दें.

नैतिक पहलुओं और जोखिमों से जुड़ी जानकारी

विज़न-लैंग्वेज मॉडल (वीएलएम) के विकास ने कई नैतिक पहलुओं को भी बढ़ावा दिया है समस्याएं हल करें. ओपन मॉडल बनाते समय हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • असल दुनिया के इमेज टेक्स्ट डेटा को बड़े पैमाने पर ट्रेनिंग देने वाले वीएलएम, ट्रेनिंग के कॉन्टेंट में शामिल सामाजिक-सांस्कृतिक पक्षपात ये मॉडल की सावधानी से जांच की. साथ ही, डेटा प्री-प्रोसेसिंग के बारे में बताया और इस कार्ड में पोस्ट किए गए पिछले आकलन.
  • गलत जानकारी और उसका गलत इस्तेमाल
    • वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला.
    • दिशा-निर्देश, मॉडल के साथ ज़िम्मेदारी से इस्तेमाल करने के लिए दिए गए हैं. ज़्यादा जानने के लिए, ज़िम्मेदार जनरेटिव एआई टूलकिट.
  • पारदर्शिता और जवाबदेही
    • यह मॉडल कार्ड, मॉडल के विवरण का सारांश करता है आर्किटेक्चर, क्षमताएं, सीमाएं, और आकलन की प्रोसेस.
    • ज़िम्मेदारी के साथ डेवलप किए गए ओपन मॉडल से, जिसमें वीएलएम टेक्नोलॉजी को डेवलपर तक पहुंचाना है और रिसर्चर के तौर पर शामिल हैं.

जोखिमों की पहचान की गई और उन्हें कम करने की प्रोसेस:

  • पक्षपातों को लागू न करना: हमारी सलाह है कि आप लगातार निगरानी करते रहें (इंवैलुएशन मेट्रिक, मानवीय समीक्षा का इस्तेमाल करके) और किसी एक पक्ष के पक्ष में सोच-समझकर फ़ैसले लेना मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के उदाहरणों के बारे में बताया जाना चाहिए.
  • नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट बनाने के तरीके और दिशा-निर्देश सुरक्षा ज़रूरी है. डेवलपर को सावधानी बरतने के लिए प्रोत्साहित किया जाता है और कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपायों को लागू करना प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरण देखें.
  • नुकसान पहुंचाने के मकसद से गलत तरीके से इस्तेमाल करना: तकनीकी सीमाएं और डेवलपर और असली उपयोगकर्ताओं के अनुभव की मदद से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन के इस्तेमाल को कम किया जा सकता है. गलत इस्तेमाल की शिकायत करने के लिए, शैक्षणिक संसाधन और शिकायत करने के तरीके उपलब्ध कराया गया: ज़िम्मेदार जनरेटिव एआई टूलकिट देखें. जेमा के इस्तेमाल पर पाबंदी मॉडल, Gemma के इस्तेमाल पर पाबंदी की नीति में बताए गए हैं.
  • निजता के उल्लंघन: मॉडल को डेटा हटाने के लिए फ़िल्टर किए गए डेटा पर ट्रेनिंग दी गई कुछ निजी जानकारी और संवेदनशील जानकारी छिपा दी जाती है. डेवलपर को प्रोत्साहित किया जाता है निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करना चाहिए.

सीमाएं

  • Gemma मॉडल से इनहेरिट की गई ज़्यादातर सीमाएं अब भी लागू होंगी:
    • वीएलएम उन टास्क के लिए बेहतर होते हैं जिन्हें सटीक प्रॉम्प्ट की मदद से फ़्रेम किया जा सकता है और निर्देश. ऐसे टास्क हो सकते हैं जिनका जवाब विस्तार से देना होता है या जिन्हें बेहद मुश्किलों से गुज़रना पड़ता है.
    • प्राकृतिक भाषा स्वाभाविक रूप से जटिल होती है. वीएलएम को समझने में मुश्किल हो सकती है वीडियो में बारीकियां, व्यंग्य या अलंकारात्मक भाषा शामिल हो.
    • वीएलएम, ऑडियंस से मिली जानकारी के आधार पर जवाब जनरेट करते हैं ट्रेनिंग डेटासेट हो सकते हैं, लेकिन वे नॉलेज बेस नहीं हैं. इनकी मदद से, तथ्यों पर आधारित गलत या पुरानी जानकारी.
    • वीएलएम, भाषा और इमेज में आंकड़ों के पैटर्न पर आधारित होते हैं. वे यह कर सकते थे कुछ मामलों में, कॉमन सेंस रीज़निंग की समझ की कमी की वजह से ऐसा हो सकता है.
  • PaliGemma को सबसे पहले, एक सामान्य ट्रेनिंग सिखाने वाले व्यक्ति के तौर पर काम करने के लिए डिज़ाइन किया गया था खास तरह के कामों को बेहतर बनाने के लिए मॉडल. इसलिए, यह "बिलकुल अलग तरह का" है या "ज़ीरो-शॉट" आपके विज्ञापनों की परफ़ॉर्मेंस, उन मॉडल से पीछे हो सकती है जिन्हें ख़ास तौर पर उसे.
  • PaliGemma ऐसे चैटबॉट नहीं हैं जिसमें एक के बाद एक सवाल पूछे जा सकते हैं. इसे एक ही चरण में पूरा करने के लिए डिज़ाइन किया गया है इमेज और टेक्स्ट इनपुट शामिल हैं.