PaliGemma मॉडल कार्ड

मॉडल पेज: PaliGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

ब्यौरा

PaliGemma, PaLI-3 से प्रेरित एक बहुमुखी और लाइटवेट विज़न-भाषा मॉडल (वीएलएम) है. यह SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित है. यह इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर इस्तेमाल करता है. साथ ही, आउटपुट के तौर पर टेक्स्ट को जनरेट करता है, जो कई भाषाओं में काम करता है. इसे बेहतरीन और बेहतर परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. इसमें इमेज और शॉर्ट वीडियो कैप्शन, विज़ुअल सवालों के जवाब, टेक्स्ट पढ़ना, ऑब्जेक्ट की पहचान करना, और ऑब्जेक्ट सेगमेंटेशन जैसे कई भाषाओं के टास्क शामिल हैं.

मॉडल आर्किटेक्चर

PaliGemma एक ट्रांसफ़ॉर्मर डिकोडर और एक विज़न ट्रांसफ़ॉर्मर इमेज एन्कोडर का कंपोज़िशन है. इसमें कुल तीन अरब पैरामीटर हैं. टेक्स्ट डिकोडर को Gemma-2B से शुरू किया जाता है. इमेज एन्कोडर को SigLIP-So400m/14 से शुरू किया गया है. पालीजेमा को PaLI-3 रेसिपी फ़ॉलो करके ट्रेनिंग दी गई है.

इनपुट और आउटपुट

  • इनपुट: इमेज और टेक्स्ट स्ट्रिंग, जैसे कि इमेज या सवाल का कैप्शन.
  • आउटपुट: इनपुट के जवाब में जनरेट किया गया टेक्स्ट, जैसे कि इमेज का कैप्शन, किसी सवाल का जवाब, ऑब्जेक्ट बाउंडिंग बॉक्स निर्देशांक की सूची या सेगमेंटेशन कोडवर्ड.

मॉडल डेटा

प्री-ट्रेन डेटासेट

PaliGemma को डेटासेट के इस मिक्स पर, पहले से ही ट्रेनिंग दी गई है:

  • WebLI: WebLI (वेब भाषा की इमेज), सार्वजनिक वेब से बनाया गया वेब-स्केल की एक से ज़्यादा भाषाओं में इमेज-टेक्स्ट डेटासेट है. WebLI स्प्लिट की एक रेंज का इस्तेमाल, कई मॉडल की क्षमताओं को पाने के लिए किया जाता है. उदाहरण के लिए, विज़ुअल सिमैंटिक समझ, ऑब्जेक्ट को स्थानीय भाषा के अनुसार बनाने की सुविधा, विज़ुअल तौर पर टेक्स्ट की समझ, कई भाषाएं वगैरह.
  • CC3M-35L: वेबपेजों से चुने गए अंग्रेज़ी इमेज-alt_text के जोड़े (शर्मा और अन्य 2018). हमने Google Cloud Translation API का इस्तेमाल करके 34 अन्य भाषाओं में अनुवाद किया है.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M का एक सबसेट (चांगपिन्यो और अन्य, 2022a), का अनुवाद CC3M-35L की तरह 34 अन्य भाषाओं में किया गया है. इसके लिए, Google Cloud-Translation API का इस्तेमाल किया जाता है.
  • OpenImage: OpenImages डेटासेट पर, हाथ से बनाए गए नियमों से जनरेट किए गए, पहचान और ऑब्जेक्ट-अवेयर सवाल और उनके जवाब (Piergiovanni et al. 2022).
  • WIT: Wikipedia से इकट्ठा की गई इमेज और टेक्स्ट (श्रीनिवासन और अन्य लेख, 2021).

डेटा की ज़िम्मेदारी से फ़िल्टर करना

नीचे दिए गए फ़िल्टर, WebLI पर लागू किए जाते हैं. इसका मकसद PaliGemma को क्लीन डेटा के बारे में ट्रेनिंग देना है:

  • पोर्नोग्राफ़िक इमेज फ़िल्टर करना: यह फ़िल्टर पॉर्नोग्राफ़ी वाली इमेज को हटा देता है.
  • टेक्स्ट की सुरक्षा को फ़िल्टर करना: हम असुरक्षित टेक्स्ट से जुड़ी इमेज की पहचान करके उन्हें फ़िल्टर कर देते हैं. असुरक्षित टेक्स्ट वह टेक्स्ट होता है जिसमें सीएसएआई, पॉर्नोग्राफ़ी, अश्लील या किसी और तरह से आपत्तिजनक कॉन्टेंट शामिल होता है या जो उसके बारे में होता है.
  • टेक्स्ट में बुरे बर्ताव को फ़िल्टर करना: इसके अलावा, हम Perspective API का इस्तेमाल करके, ऐसे टेक्स्ट की पहचान करके फ़िल्टर करते हैं जिन्हें आपत्तिजनक, अश्लील, नफ़रत फैलाने वाला या बुरे बर्ताव वाला टेक्स्ट माना गया हो.
  • निजी जानकारी को फ़िल्टर करना: हमने लोगों की निजता की सुरक्षा के लिए, Cloud डेटा लीक होने की रोकथाम (डीएलपी) एपीआई का इस्तेमाल करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया है. सोशल सिक्योरिटी नंबर जैसे आइडेंटिफ़ायर और अन्य संवेदनशील जानकारी हटा दी गई है.
  • अन्य तरीके: हमारी नीतियों और काम करने के तरीकों के हिसाब से, कॉन्टेंट की क्वालिटी और सुरक्षा के हिसाब से फ़िल्टर करने का तरीका.

लागू करने की जानकारी

हार्डवेयर

PaliGemma की ट्रेनिंग में, Tensor प्रोसेसिंग यूनिट (TPU) हार्डवेयर (TPUv5e) की सबसे नई जनरेशन की टेक्नोलॉजी का इस्तेमाल किया गया.

सॉफ़्टवेयर

ट्रेनिंग में JAX, Flax, TFDS, और big_vision का इस्तेमाल किया गया.

JAX की मदद से रिसर्च करने वाले लोग, बड़े मॉडल की तेज़ और बेहतर ट्रेनिंग के लिए, TPU के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं.

टीएफ़डीएस का इस्तेमाल डेटासेट को ऐक्सेस करने के लिए और फ़्लैक्स का इस्तेमाल मॉडल आर्किटेक्चर के लिए किया जाता है. PaliGemma का फ़ाइन-ट्यून कोड और अनुमान कोड, big_vision GitHub रिपॉज़िटरी में रिलीज़ किया गया है.

आकलन के बारे में जानकारी

बेंचमार्क परिणाम

PaliGemma के कई तरह के टास्क को ट्रांसफ़र किए जा सकने की पुष्टि करने के लिए, हम हर टास्क के लिए पहले से ट्रेनिंग दिए गए मॉडल को बेहतर बनाते हैं. इसके अलावा, हम ट्रांसफ़र टास्क के कॉम्बिनेशन से, मिक्स मॉडल को ट्रेनिंग देते हैं. हम अलग-अलग रिज़ॉल्यूशन के नतीजे रिपोर्ट करते हैं. इससे यह पता चलता है कि बेहतर रिज़ॉल्यूशन से किन टास्क को फ़ायदा है. खास तौर पर, इनमें से कोई भी टास्क या डेटासेट, प्री-ट्रेनिंग डेटा मिक्स का हिस्सा नहीं है. साथ ही, उनकी इमेज को वेब-स्केल प्री-ट्रेनिंग डेटा से साफ़ तौर पर हटा दिया जाता है.

एक टास्क (सिर्फ़ एक टास्क के लिए बेहतर बनाएं)

बेंचमार्क (ट्रेन विभाजन) मेट्रिक (स्प्लिट) pt-224 pt-448 pt-896
कैप्शनिंग
COCO कैप्शन (ट्रेन+restval) सीआईडीआर (वैल) डॉलर 14,460 रुपये
NoCaps (COCO कैप्शन ट्रांसफ़र का मूल्यांकन) सीआईडीआर (वैल) 12,172 रुपये डॉलर
COCO-35L (ट्रेन) CIDEr डेवलपर (hi/avg-34/औसत)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L ट्रांसफ़र का मूल्यांकन) CIDEr डेवलपर (hi/avg-34/औसत)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (ट्रेन) सीआईडीआर (वैल) डॉलर डॉलर
SciCap (पहला वाक्य, कोई सबफ़िगर नहीं) (ट्रेन+वैल) CIDEr/BLEU-4 (टेस्ट)
162.25
0.192
181.49
0.211
Screen2words (ट्रेन+डेवलपर) सीआईडीआर (टेस्ट) 11,757 रुपये डॉलर
विजेट में कैप्शन की सुविधा (ट्रेन+डेवलपर) सीआईडीआर (टेस्ट) 136.07 148.36 डॉलर
सवाल का जवाब दिया जा रहा है
VQAv2 (ट्रेन+पुष्टि) सटीक (टेस्ट सर्वर - एसटीडी) यूरो यूरो
MMVP (VQAv2 ट्रांसफ़र का Eval) डिवाइस के आपस में जुड़े होने की सटीक जानकारी 47.33 45.33
POPE (VQAv2 ट्रांसफ़र का Eval) सटीक जानकारी (रैंडम/लोकप्रिय/दुखौफ़नाक)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (ट्रेन) सटीक (वैल्यू) यूरो यूरो
A-OKVQA (MC) (ट्रेन+वल) सटीक जानकारी (टेस्ट सर्वर) 76.37 यूरो
A-OKVQA (DA) (ट्रेन+वैल) सटीक जानकारी (टेस्ट सर्वर) यूरो यूरो
GQA (train_balanced+val_balanced) ऐक्यूरसी (testdev संतुलित) यूरो 67.03
xGQA (GQA ट्रांसफ़र का Eval) औसत सटीक (bn, de, en, id, ko, pt, ru, zh) यूरो यूरो
NLVR2 (ट्रेन+डेवलपर) सटीक (टेस्ट) 90.02 यूरो
MaRVL (NLVR2 ट्रांसफ़र का आकलन) औसत सटीक (जांच) (id, sw, ta, tr, zh) 80.57 डॉलर यूरो
AI2D (ट्रेन) सटीक (टेस्ट) 72.12 डॉलर 73.28 डॉलर
ScienceQA (Img सबसेट, सीओटी नहीं) (train+val) सटीक (टेस्ट) यूरो यूरो
RSVQA-LR (गैर-संख्या वाला) (ट्रेन+वैल) औसत सटीक (टेस्ट) 92.65 93.11
RSVQA-HR (गैर-संख्या वाला) (ट्रेन+वैल) औसत सटीक (जांच/टेस्ट2)
92.61
90.58
92.79
90.54
ChartQA (hum+aug)x(train+val) औसत आरामदेह सटीक (test_hum, test_aug) 57.08 71.36 डॉलर
VizWiz VQA (ट्रेन+वैल) सटीक (टेस्ट सर्वर - एसटीडी) 73.7 75.52 डॉलर
TallyQA (ट्रेन) सटीक जानकारी (test_im/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (ट्रेन+वैल) सटीक (टेस्ट) 72.32 डॉलर 74.61 डॉलर यूरो
TextVQA (ट्रेन+वैल) सटीक (टेस्ट सर्वर - एसटीडी) यूरो 73.15 डॉलर यूरो
DocVQA (ट्रेन+वल) ANLS (टेस्ट सर्वर) 43.74 78.02 साल यूरो
इंफ़ोग्राफ़िक वीक्यूए (ट्रेन+वैल) ANLS (टेस्ट सर्वर) यूरो 40.47 47.75
SceneText VQA (ट्रेन+वल) ANLS (टेस्ट सर्वर) यूरो 81.82 डॉलर 84.40 डॉलर
सेगमेंट करने की सुविधा
RefCOCO (refcoco, refcoco+, और refcocog'. इसमें वैल और टेस्ट इमेज शामिल नहीं हैं) एमआईओयू (पुष्टि करने की प्रक्रिया) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
वीडियो टास्क (कैप्शन/QA)
MSR-VTT (कैप्शनिंग) सीआईडीआर (टेस्ट) 70.54 डॉलर
MSR-VTT (QA) सटीक (टेस्ट) यूरो
ऐक्टिविटीनेट (कैप्शनिंग) सीआईडीआर (टेस्ट) 74.62
ऐक्टिविटीनेट (QA) सटीक (टेस्ट) यूरो
VATEX (कैप्शन) सीआईडीआर (टेस्ट) यूरो
एमएसवीडी (QA) सटीक (टेस्ट) 60.22 साल

मिक्स मॉडल (कई तरह के टास्क एक साथ ट्रांसफ़र करना)

मानदंड मेट्रिक (स्प्लिट) mix-224 mix-448
एमएमवीपी डिवाइस के आपस में जुड़े होने की सटीक जानकारी 46.00 45.33
पीओपी सटीक जानकारी (रैंडम/लोकप्रिय/दुखौफ़नाक)
88.00
86.63
85.67
89.37
88.40
87.47

नैतिकता और सुरक्षा

आकलन करने का तरीका

आकलन करने के हमारे तरीकों में, स्ट्रक्चर्ड आकलन और काम की कॉन्टेंट की नीतियों की अंदरूनी रेड-टीमिंग टेस्टिंग शामिल है. रेड-टीमिंग को कई अलग-अलग टीमों ने आयोजित किया, जिनमें से हर एक के लक्ष्य और मैन्युअल आकलन मेट्रिक थे. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई कैटगरी को ध्यान में रखकर किया गया. इनमें ये शामिल हैं:

  • ऐसे प्रॉम्प्ट का मानवीय मूल्यांकन जिनमें बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने के बारे में जानकारी दी गई हो. इवैलुएशन के तरीकों के बारे में ज़्यादा जानकारी के लिए, जेमा मॉडल कार्ड देखें. हालांकि, इसमें इमेज कैप्शन और विज़ुअल सवाल के जवाब देने वाले सेटअप शामिल हैं.
  • इमेज-टू-टेक्स्ट मानदंड का आकलन: फ़ेयरफ़ेस डेटासेट (Karkkainen et al., 2021).

आकलन के नतीजे

  • नैतिकता और सुरक्षा का आकलन करने के लिए, मानवीय आकलन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और प्रतिनिधित्व को नुकसान पहुंचाने जैसी कैटगरी के लिए इंटरनल नीतियों को पूरा करने के लिए स्वीकार की जा सकने वाली सीमा के अंदर आते हैं.
  • मज़बूत अंदरूनी जांच के साथ-साथ, हम FairFace डेटासेट से ली गई इमेज के लिए जनरेट किए गए कैप्शन में बुरे बर्ताव, अपशब्दों के इस्तेमाल, और अन्य संभावित समस्याओं को मापने के लिए Perspective API (0.8 की सीमा) का भी इस्तेमाल करते हैं. हम उप-ग्रुप में देखे गए लिंग, जातीयता, और उम्र के हर एट्रिब्यूट के लिए, ज़्यादा से ज़्यादा और मीडियन वैल्यू रिपोर्ट करते हैं.
मेट्रिक महसूस किया गया लिंग जातीयता आयु समूह
ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन
बुरा बर्ताव 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
आइडेंटिटी अटैक 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
अपमान करना 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
भय 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
धर्म का अपमान 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

इस्तेमाल और सीमाएं

इस्तेमाल का मकसद

ओपन विज़न लैंग्वेज मॉडल (वीएलएम) में, अलग-अलग उद्योगों और डोमेन में कई तरह के ऐप्लिकेशन होते हैं. संभावित इस्तेमाल की नीचे दी गई सूची को पूरा नहीं किया गया है. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में कॉन्टेक्स्ट के हिसाब से जानकारी देना है जिन्हें मॉडल बनाने वाले लोग, मॉडल ट्रेनिंग और डेवलपमेंट का हिस्सा मानते हैं.

विज़न-भाषा से जुड़े किसी खास टास्क को बेहतर बनाएं:

  • पहले से ट्रेन किए गए मॉडल को विज़न-भाषा से जुड़े कई तरह के कामों पर बेहतर बनाया जा सकता है. जैसे: इमेज कैप्शन, छोटे वीडियो कैप्शन, विज़ुअल सवाल जवाब, टेक्स्ट पढ़ना, ऑब्जेक्ट की पहचान करना, और ऑब्जेक्ट सेगमेंटेशन.
  • पहले से ट्रेनिंग मिले मॉडल में कुछ खास डोमेन के लिए बदलाव किए जा सकते हैं. जैसे, रिमोट सेंसिंग से जुड़े सवालों के जवाब देना, दृष्टिहीन लोगों के विज़ुअल सवाल, विज्ञान के सवालों के जवाब देना, और यूज़र इंटरफ़ेस (यूआई) एलिमेंट की सुविधाओं के बारे में बताना.
  • पहले से ट्रेनिंग दिए गए मॉडल को उन टास्क के लिए बेहतर बनाया जा सकता है जिनमें टेक्स्ट नहीं है. जैसे, बाउंडिंग बॉक्स या सेगमेंटेशन मास्क.

विज़न- लैंग्वेज रिसर्च:

  • पहले से ट्रेनिंग दिए गए मॉडल और बेहतर बनाए गए मॉडल, शोधकर्ताओं के लिए वीएलएम तकनीकों के साथ प्रयोग करने, एल्गोरिदम डेवलप करने, और फ़ील्ड को बेहतर बनाने में योगदान देने के लिए, एक बुनियाद की तरह काम कर सकते हैं.

नैतिक तौर पर ध्यान देने वाली बातें और जोखिम

विज़न-भाषा के मॉडल (वीएलएम) बनने से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. सभी के लिए उपलब्ध मॉडल बनाते समय, हमने इन बातों पर ध्यान दिया है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया के इमेज-टेक्स्ट डेटा पर आधारित वीएलएम, ट्रेनिंग कॉन्टेंट में शामिल सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की सावधानी से जांच की गई, इनपुट डेटा प्री-प्रोसेसिंग के बारे में और इस कार्ड में रिपोर्ट किए गए पिछले इवैलुएशन के बारे में बताया गया.
  • गलत जानकारी और गलत इस्तेमाल
    • वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • मॉडल का ज़िम्मेदारी से इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. रिस्पॉन्सिबल जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और ज़िम्मेदारी
    • इस मॉडल कार्ड में मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और आकलन की प्रोसेस की खास जानकारी दी जाती है.
    • ज़िम्मेदारी के साथ डेवलप किया गया ओपन मॉडल, एआई ईकोसिस्टम पर डेवलपर और रिसर्च करने वालों के लिए वीएलएम टेक्नोलॉजी को ऐक्सेस कर सकता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.

जोखिमों की पहचान की गई और उन्हें कम किया जा सकता है:

  • पूर्वाग्रहों को बढ़ावा देना: मॉडल ट्रेनिंग, फ़ाइन-ट्यूनिंग, और इस्तेमाल के अन्य उदाहरणों के दौरान, आकलन वाली मेट्रिक और मानवीय समीक्षा का इस्तेमाल करके, लगातार मॉनिटरिंग करना ज़रूरी है.
  • नुकसान पहुंचाने वाला कॉन्टेंट तैयार करना: कॉन्टेंट को सुरक्षित रखने के तरीके और दिशा-निर्देश बहुत ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे खास तौर पर प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, सावधानी बरतने और कॉन्टेंट की सुरक्षा के लिए सही उपाय लागू करने के लिए कहें.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं के साथ-साथ, डेवलपर और असली उपयोगकर्ता को ज़रूरी जानकारी देने से, एलएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन को कम करने में मदद मिल सकती है. उपयोगकर्ताओं के लिए, शिक्षा से जुड़े संसाधन और शिकायत करने के तरीके के बारे में बताया गया है: रिस्पॉन्सिबल जनरेटिव एआई टूलकिट देखें. जेम्मा मॉडल के पाबंदी वाले इस्तेमाल के बारे में, जेम्मा के इस्तेमाल पर पाबंदी की नीति में बताया गया है.
  • निजता का उल्लंघन: मॉडल को, निजी जानकारी और संवेदनशील डेटा को हटाने के लिए फ़िल्टर किए गए डेटा के आधार पर ट्रेनिंग दी गई. डेवलपर को सलाह दी जाती है कि वे निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करें.

सीमाएं

  • हालांकि, जेम्मा मॉडल से इनहेरिट की गई ज़्यादातर सीमाएं अब भी लागू होती हैं:
    • वीएलएम ऐसे टास्क में बेहतर होते हैं जिन्हें साफ़ तौर पर प्रॉम्प्ट और निर्देशों की मदद से फ़्रेम किया जा सकता है. ऐसे टास्क करना मुश्किल हो सकता है जिनका जवाब विस्तार से देना होता है या जिनमें काफ़ी मुश्किल काम है.
    • प्राकृतिक भाषा अपने-आप में जटिल होती है. वीएलएम को बारीकियों, तंज़ या अंग्रेज़ी के बारे में समझने में मुश्किल हो सकती है.
    • वीएलएम, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर रिस्पॉन्स जनरेट करते हैं. हालांकि, ये जवाब किसी नॉलेज बेस से नहीं जुड़े होते. हालांकि, ऐसा हो सकता है कि वे गलत या पुराने तथ्यों की जानकारी देनें.
    • वीएलएम, भाषा और इमेज के आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में वे सामान्य जानकारी के हिसाब से तर्क करने की क्षमता न पा सकें.
  • PaliGemma को सबसे पहले एक सामान्य मॉडल के तौर पर डिज़ाइन किया गया है, ताकि वह खास तरह के कामों को बेहतर तरीके से कर सके. इसलिए, हो सकता है कि "बॉक्स से बाहर" या "ज़ीरो-शॉट" की परफ़ॉर्मेंस, खास तौर पर इस तरह डिज़ाइन किए गए मॉडलों से मेल न खाए.
  • PaliGemma, कई मोड़ों वाला चैटबॉट नहीं है. इसे इमेज और टेक्स्ट इनपुट के एक राउंड के लिए डिज़ाइन किया गया है.