PaliGemma 1 मॉडल कार्ड

मॉडल पेज: PaliGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google

मॉडल की जानकारी

मॉडल की खास जानकारी

ब्यौरा

PaliGemma, PaLI-3 से प्रेरित एक बेहतरीन और लाइटवेट विज़न-लैंग्वेज मॉडल (वीएलएम) है. यह SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित है. यह इनपुट के तौर पर इमेज और टेक्स्ट, दोनों लेता है और आउटपुट के तौर पर टेक्स्ट जनरेट करता है. यह कई भाषाओं में काम करता है. इसे विज़ुअल भाषा से जुड़े कई तरह के टास्क के लिए बेहतर परफ़ॉर्मेंस देने के मकसद से डिज़ाइन किया गया है. जैसे, इमेज और छोटे वीडियो का कैप्शन, विज़ुअल से जुड़े सवालों के जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट का पता लगाना, और ऑब्जेक्ट को अलग-अलग हिस्सों में बांटना.

मॉडल का आर्किटेक्चर

PaliGemma, Transformer डिकोडर और विज़न ट्रांसफ़ॉर्मर इमेज एन्कोडर का कॉम्पोज़िशन है. इसमें कुल तीन अरब पैरामीटर हैं. टेक्स्ट डिकोडर को Gemma-2B से शुरू किया जाता है. इमेज एन्कोडर को SigLIP-So400m/14 से शुरू किया जाता है. PaliGemma को PaLI-3 रेसिपी के हिसाब से ट्रेन किया गया है.

इनपुट और आउटपुट

  • इनपुट: इमेज और टेक्स्ट स्ट्रिंग, जैसे कि इमेज का कैप्शन या कोई सवाल.
  • आउटपुट: इनपुट के जवाब में जनरेट किया गया टेक्स्ट. जैसे, इमेज का कैप्शन, किसी सवाल का जवाब, ऑब्जेक्ट के बाउंडिंग बॉक्स के निर्देशांक की सूची या सेगमेंटेशन कोडवर्ड.

उद्धरण

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

मॉडल का डेटा

डेटासेट को पहले से ट्रेन करना

PaliGemma को इन डेटासेट के मिश्रण पर पहले से ट्रेन किया गया है:

  • WebLI: WebLI (वेब लैंग्वेज इमेज), वेब पर मौजूद कई भाषाओं में इमेज-टेक्स्ट का डेटासेट है. इसे सार्वजनिक वेब से बनाया गया है. मॉडल की अलग-अलग सुविधाओं को हासिल करने के लिए, WebLI के अलग-अलग स्प्लिट का इस्तेमाल किया जाता है. जैसे, विज़ुअल सेमेटिक समझ, ऑब्जेक्ट की जगह की जानकारी, विज़ुअल से जुड़े टेक्स्ट को समझना, कई भाषाओं में काम करना वगैरह.
  • CC3M-35L: वेबपेजों से चुनी गई अंग्रेज़ी इमेज-alt_text जोड़े (शर्मा वगैरह, 2018). हमने 34 और भाषाओं में अनुवाद करने के लिए, Google Cloud के अनुवाद एपीआई का इस्तेमाल किया.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M (Changpinyo et al., 2022a) को Google Cloud Translation API का इस्तेमाल करके, CC3M-35L की तरह ही 34 अन्य भाषाओं में अनुवाद किया गया है.
  • OpenImages: OpenImages डेटासेट पर मैन्युअल तरीके से बनाए गए नियमों की मदद से, ऑब्जेक्ट का पता लगाने और उससे जुड़े सवाल और जवाब (Piergiovanni et al. 2022) जनरेट किए जाते हैं.
  • WIT: Wikipedia से इकट्ठा की गई इमेज और टेक्स्ट (श्रीनिवासन वगैरह, 2021).

डेटा की ज़िम्मेदारी से जुड़ी फ़िल्टरिंग

यहां दिए गए फ़िल्टर, WebLI पर लागू किए जाते हैं. इनका मकसद, PaliGemma को क्लीन डेटा पर ट्रेनिंग देना है:

  • पोर्नोग्राफ़ी वाली इमेज फ़िल्टर करने की सुविधा: यह फ़िल्टर, अश्लील इमेज को हटा देता है.
  • सुरक्षित टेक्स्ट फ़िल्टर करने की सुविधा: हम उन इमेज की पहचान करते हैं और उन्हें फ़िल्टर करते हैं जिनमें असुरक्षित टेक्स्ट का इस्तेमाल किया गया हो. असुरक्षित टेक्स्ट वह टेक्स्ट होता है जिसमें बच्चों के यौन शोषण (सीएसएआई) की तस्वीरें, पोर्नोग्राफ़ी, अश्लील कॉन्टेंट शामिल हो या इनके बारे में बताया गया हो. इसके अलावा, ऐसा टेक्स्ट भी असुरक्षित माना जाता है जो किसी और तरह से आपत्तिजनक हो.
  • आपत्तिजनक टेक्स्ट को फ़िल्टर करना: हम Perspective एपीआई का इस्तेमाल करके, ऐसी इमेज की पहचान करते हैं और उन्हें फ़िल्टर करते हैं जिनमें अपमानजनक, अश्लील, नफ़रत फैलाने वाला या अन्य तरह से आपत्तिजनक टेक्स्ट का इस्तेमाल किया गया हो.
  • टेक्स्ट में निजी जानकारी को फ़िल्टर करना: हमने लोगों की निजता की सुरक्षा के लिए, क्लाउड डेटा लॉस प्रिवेंशन (DLP) एपीआई का इस्तेमाल करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया है. सोशल सिक्योरिटी नंबर और अन्य संवेदनशील जानकारी जैसे आइडेंटिफ़ायर हटा दिए गए हैं.
  • अन्य तरीके: हमारी नीतियों और तरीकों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

लागू करने से जुड़ी जानकारी

हार्डवेयर

PaliGemma को टेंसर प्रोसेसिंग यूनिट (TPU) के नए वर्शन के हार्डवेयर (TPUv5e) का इस्तेमाल करके ट्रेन किया गया था.

सॉफ़्टवेयर

JAX, Flax, TFDS, और big_vision का इस्तेमाल करके ट्रेनिंग पूरी की गई.

JAX की मदद से, शोधकर्ता बड़े मॉडल को तेज़ी से और ज़्यादा असरदार तरीके से ट्रेनिंग देने के लिए, TPUs के साथ-साथ नई पीढ़ी के हार्डवेयर का फ़ायदा ले सकते हैं.

TFDS का इस्तेमाल डेटासेट ऐक्सेस करने के लिए किया जाता है और Flax का इस्तेमाल मॉडल आर्किटेक्चर के लिए किया जाता है. PaliGemma के फ़ाइन-ट्यून कोड और अनुमान लगाने वाले कोड को big_vision GitHub रिपॉज़िटरी में रिलीज़ किया गया है.

इवैलुएशन की जानकारी

बेंचमार्क के नतीजे

PaliGemma को अलग-अलग तरह के अकादमिक टास्क पर ट्रांसफ़र किया जा सकता है या नहीं, यह पुष्टि करने के लिए हम हर टास्क के लिए, पहले से ट्रेन किए गए मॉडल को बेहतर बनाते हैं. इसके अलावा, हम ट्रांसफ़र टास्क के मिश्रण के साथ मिक्स मॉडल को ट्रेन करते हैं. हम अलग-अलग रिज़ॉल्यूशन पर नतीजों की रिपोर्ट देते हैं, ताकि यह पता चल सके कि किन टास्क को बेहतर रिज़ॉल्यूशन से फ़ायदा होता है. अहम बात यह है कि इनमें से कोई भी टास्क या डेटासेट, प्री-ट्रेनिंग डेटा मिक्सचर का हिस्सा नहीं है. साथ ही, इनकी इमेज को वेब-स्केल प्री-ट्रेनिंग डेटा से साफ़ तौर पर हटा दिया जाता है.

एक टास्क (एक टास्क को बेहतर बनाना)

बेंचमार्क (ट्रेन का बंटवारा) मेट्रिक (स्प्लिट) pt-224 pt-448 pt-896
कैप्शनिंग
COCO कैप्शन (train+restval) CIDEr (val) 141.92 144.60
NoCaps (COCO कैप्शन ट्रांसफ़र का आकलन) CIDEr (val) 121.72 123.58
COCO-35L (ट्रेन) CIDEr dev (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L ट्रांसफ़र का आकलन) CIDEr dev (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (ट्रेन) CIDEr (val) 127.48 153.94
SciCap (पहला वाक्य, कोई सब-फ़िगर नहीं) (ट्रेन+वैल्यू) CIDEr/BLEU-4 (टेस्ट)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (टेस्ट) 117.57 119.59
विजेट के लिए कैप्शन की सुविधा (ट्रेनिंग+डेवलपमेंट) CIDEr (टेस्ट) 136.07 148.36
सवालों के जवाब देना
VQAv2 (ट्रेनिंग+पुष्टि) सटीक जानकारी (टेस्ट सर्वर - स्टैंडर्ड) 83.19 85.64
एमएमवीपी (वीक्यूएv2 ट्रांसफ़र का आकलन) जोड़े गए डिवाइस की सटीक जानकारी 47.33 45.33
POPE (VQAv2 ट्रांसफ़र का आकलन) सटीक होने का स्तर (रैंडम/लोकप्रिय/गुमराह करने वाला)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (ट्रेन) सटीक (val) 63.54 63.15
A-OKVQA (एमसी) (ट्रेन+वैल्यू) सटीक (टेस्ट सर्वर) 76.37 76.90
A-OKVQA (DA) (train+val) सटीक (टेस्ट सर्वर) 61.85 63.22
GQA (train_balanced+val_balanced) सटीक (testdev balanced) 65.61 67.03
xGQA (GQA ट्रांसफ़र का आकलन) सटीक होने की औसत दर (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (ट्रेनिंग डेटा+डेवलपमेंट डेटा) सटीक (टेस्ट) 90.02 88.93
MaRVL (NLVR2 ट्रांसफ़र का आकलन) सटीक अनुवाद का औसत (टेस्ट) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (ट्रेन) सटीक होने की जांच 72.12 73.28
ScienceQA (इमेज का सबसेट, कोई सीओटी नहीं) (ट्रेनिंग+वैल्यू) सटीक होने की जांच 95.39 95.93
RSVQA-LR (नॉन न्यूमेरिक) (ट्रेन+वैल्यू) सटीक होने की औसत दर (टेस्ट) 92.65 93.11
RSVQA-HR (नॉन न्यूमेरिक) (ट्रेन+वैल्यू) सटीक होने की औसत दर (test/test2)
92.61
90.58
92.79
90.54
ChartQA (मानव+ऑगमेंटेशन)x(ट्रेन+वैल्यू) सटीक नतीजे मिलने की औसत दर (test_human, test_aug) 57.08 71.36
VizWiz VQA (train+val) सटीक जानकारी (टेस्ट सर्वर - स्टैंडर्ड) 73.7 75.52
TallyQA (ट्रेन) सटीक होने का स्तर (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (train+val) सटीक होने की जांच 72.32 74.61 74.93
TextVQA (train+val) सटीक जानकारी (टेस्ट सर्वर - स्टैंडर्ड) 55.47 73.15 76.48
DocVQA (ट्रेनिंग+वैल्यू) ANLS (टेस्ट सर्वर) 43.74 78.02 84.77
इन्फ़ोग्राफ़िक के लिए वीक्य्यूए (ट्रेनिंग और वैल्यूेशन डेटा) ANLS (टेस्ट सर्वर) 28.46 40.47 47.75
SceneText VQA (ट्रेनिंग+वैल्यू) ANLS (टेस्ट सर्वर) 63.29 81.82 84.40
सेगमेंट करने की सुविधा
RefCOCO (val और टेस्ट इमेज को छोड़कर, refcoco, refcoco+, refcocog को मिलाकर बनाया गया) MIoU (पुष्टि) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
वीडियो से जुड़े टास्क (कैप्शन/क्यूए)
MSR-VTT (कैप्शन) CIDEr (टेस्ट) 70.54
MSR-VTT (QA) सटीक होने की जांच 50.09
ActivityNet (कैप्शन) CIDEr (टेस्ट) 34.62
ActivityNet (क्यूए) सटीक होने की जांच 50.78
VATEX (कैप्शन) CIDEr (टेस्ट) 79.73
MSVD (QA) सटीक होने की जांच 60.22

मिक्स मॉडल (ट्रांसफ़र किए जाने वाले टास्क के मिक्स पर फ़ाइन-ट्यून करना)

मानदंड मेट्रिक (स्प्लिट) mix-224 mix-448
MMVP जोड़े गए डिवाइस की सटीक जानकारी 46.00 45.33
POPE सटीक होने का स्तर (रैंडम/लोकप्रिय/गुमराह करने वाला)
88.00
86.63
85.67
89.37
88.40
87.47

नैतिकता और सुरक्षा

आकलन का तरीका

हमारे आकलन के तरीकों में, कॉन्टेंट से जुड़ी नीतियों के लिए स्ट्रक्चर्ड आकलन और इंटरनल रेड-टीमिंग जांच शामिल है. रेड-टीमिंग की प्रोसेस कई अलग-अलग टीमों ने पूरी की. हर टीम के अलग-अलग लक्ष्य और मानवीय आकलन की मेट्रिक थीं. इन मॉडल का आकलन, नैतिकता और सुरक्षा से जुड़ी कई अलग-अलग कैटगरी के हिसाब से किया गया. इनमें ये शामिल हैं:

  • बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट से जुड़े प्रॉम्प्ट पर मानवीय आकलन. आकलन के तरीके के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल का कार्ड देखें. हालांकि, इसमें इमेज के कैप्शन और विज़ुअल सवालों के जवाब देने वाले सेटअप शामिल नहीं हैं.
  • इमेज से टेक्स्ट में बदलने की सुविधा के लिए मानदंड का आकलन: FairFace Dataset (Karkkainen et al., 2021).

जांच के नतीजे

  • नैतिकता और सुरक्षा से जुड़े आकलन के लिए, मानवीय मूल्यांकन के नतीजे, बच्चों की सुरक्षा, कॉन्टेंट की सुरक्षा, और नुकसान पहुंचाने वाले कॉन्टेंट जैसी कैटगरी के लिए बनी इंटरनल नीतियों के मुताबिक हैं.
  • हम अंदरूनी तौर पर ज़रूरी जांच करने के साथ-साथ, Perspective API (थ्रेशोल्ड 0.8) का भी इस्तेमाल करते हैं. इससे, FairFace डेटासेट से ली गई इमेज के लिए जनरेट किए गए कैप्शन में, बुरे बर्ताव, अपशब्दों, और अन्य संभावित समस्याओं का पता लगाया जाता है. हम लिंग, जातीयता, और उम्र के हर एट्रिब्यूट के लिए, सभी सबग्रुप में मिली सबसे ज़्यादा और औसत वैल्यू की रिपोर्ट करते हैं.
मेट्रिक अनुमानित लिंग जातीयता उम्र समूह
ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन ज़्यादा से ज़्यादा मीडियन
बुरा बर्ताव 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
पहचान पर हमला 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insult 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
भय 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
गाली-गलौज 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

इस्तेमाल और सीमाएं

इस्तेमाल का मकसद

ओपन विज़न लैंग्वेज मॉडल (वीएलएम) का इस्तेमाल, कई इंडस्ट्री और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी काम शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन संभावित उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वाले लोगों ने मॉडल को ट्रेनिंग देने और डेवलप करने के दौरान ध्यान में रखा था. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.

किसी खास विज़न-भाषा टास्क में बेहतर बनाने के लिए:

  • पहले से ट्रेन किए गए मॉडल को, विज़न-लैंग्वेज से जुड़े कई तरह के टास्क के लिए बेहतर बनाया जा सकता है. जैसे: इमेज का कैप्शन देना, छोटे वीडियो का कैप्शन देना, विज़ुअल से जुड़े सवालों के जवाब देना, टेक्स्ट पढ़ना, ऑब्जेक्ट का पता लगाना, और ऑब्जेक्ट का सेगमेंटेशन करना.
  • पहले से ट्रेन किए गए मॉडल को खास डोमेन के लिए बेहतर बनाया जा सकता है. जैसे, रिमोट सेंसिंग से जुड़े सवालों के जवाब देना, ऐसे लोगों के विज़ुअल सवालों के जवाब देना जो अंधे हैं, विज्ञान से जुड़े सवालों के जवाब देना, यूज़र इंटरफ़ेस (यूआई) एलिमेंट की सुविधाओं के बारे में बताना.
  • पहले से ट्रेन किए गए मॉडल को, ऐसे टास्क के लिए बेहतर बनाया जा सकता है जिनका आउटपुट टेक्स्ट के बजाय, बॉउंडिंग बॉक्स या सेगमेंटेशन मास्क जैसा हो.

विज़न-लैंग्वेज रिसर्च:

  • पहले से ट्रेन किए गए मॉडल और बेहतर किए गए मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इनकी मदद से, वे वीएलएम तकनीकों के साथ प्रयोग कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस क्षेत्र को आगे बढ़ाने में योगदान दे सकते हैं.

नैतिकता से जुड़ी बातें और जोखिम

विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई चिंताएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया की इमेज-टेक्स्ट के डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए कॉन्टेंट में मौजूद सामाजिक-सांस्कृतिक पक्षपात को दिखा सकते हैं. इन मॉडल की ध्यान से जांच की गई है. इनमें इनपुट डेटा को पहले से प्रोसेस करने के बारे में बताया गया है. साथ ही, इन मॉडल के बाद के आकलन की जानकारी भी इस कार्ड में दी गई है.
  • गलत जानकारी और उसका गलत इस्तेमाल
    • वीएलएम का गलत इस्तेमाल करके, गलत, गुमराह करने वाला या नुकसान पहुंचाने वाला टेक्स्ट जनरेट किया जा सकता है.
    • मॉडल को ज़िम्मेदारी के साथ इस्तेमाल करने के लिए दिशा-निर्देश दिए गए हैं. ज़िम्मेदारी के साथ जनरेटिव एआई टूलकिट देखें.
  • पारदर्शिता और जवाबदेही
    • इस मॉडल कार्ड में, मॉडल के आर्किटेक्चर, क्षमताओं, सीमाओं, और मूल्यांकन की प्रोसेस के बारे में खास जानकारी दी गई है.
    • ज़िम्मेदारी के साथ तैयार किए गए ओपन मॉडल की मदद से, एआई के पूरे नेटवर्क के डेवलपर और रिसर्चर के लिए, वीएलएम टेक्नोलॉजी को ऐक्सेस किया जा सकता है. इससे, इनोवेशन को शेयर करने का मौका मिलता है.

जोखिमों की पहचान और उन्हें कम करने के तरीके:

  • पक्षपात को बढ़ावा देना: हमारा सुझाव है कि मॉडल को ट्रेनिंग देने, उसे बेहतर बनाने, और अन्य इस्तेमाल के उदाहरणों के दौरान, लगातार मॉनिटरिंग की जाए. इसके लिए, आकलन मेट्रिक और मानवीय समीक्षा का इस्तेमाल करें. साथ ही, पक्षपात को कम करने वाली तकनीकों को एक्सप्लोर करें.
  • नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट की सुरक्षा के लिए, ज़रूरी है कि इसके लिए नीतियां और दिशा-निर्देश हों. डेवलपर को सावधानी बरतने और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के उदाहरणों के आधार पर, कॉन्टेंट की सुरक्षा के लिए ज़रूरी उपाय लागू करने का सुझाव दिया जाता है.
  • बुरे मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और आखिरी उपयोगकर्ता को दी जाने वाली शिक्षा से, एलएलएम के गलत इस्तेमाल को कम करने में मदद मिल सकती है. गलत इस्तेमाल की शिकायत करने के लिए, उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और शिकायत करने के तरीके दिए जाते हैं: ज़िम्मेदारी के साथ जनरेटिव एआई का इस्तेमाल करने के लिए टूलकिट देखें. Gemma मॉडल के इस्तेमाल पर पाबंदी के बारे में जानकारी, Gemma के इस्तेमाल पर पाबंदी की नीति में दी गई है.
  • निजता के उल्लंघन: मॉडल को फ़िल्टर किए गए डेटा पर ट्रेन किया गया था, ताकि कुछ निजी जानकारी और संवेदनशील डेटा हटाया जा सके. डेवलपर को निजता बनाए रखने की तकनीकों का इस्तेमाल करके, निजता के कानूनों का पालन करने के लिए बढ़ावा दिया जाता है.

सीमाएं

  • Gemma मॉडल से इनहेरिट की गई ज़्यादातर सीमाएं अब भी लागू हैं:
    • वीएलएम, उन टास्क को बेहतर तरीके से पूरा करते हैं जिन्हें साफ़ निर्देशों और प्रॉम्प्ट के साथ फ़्रेम किया जा सकता है. ऐसे टास्क जिनका जवाब कई तरह से दिया जा सकता हो या जो बहुत मुश्किल हों, उन्हें पूरा करना मुश्किल हो सकता है.
    • नैचुरल लैंग्वेज अपने-आप जटिल होती है. वीएलएम को बारीकियों, व्यंग्य या आलंकारिक भाषा को समझने में मुश्किल हो सकती है.
    • वीएलएम, अपने ट्रेनिंग डेटासेट से मिली जानकारी के आधार पर जवाब जनरेट करते हैं. हालांकि, ये नॉलेज बेस नहीं हैं. इनसे, तथ्यों के बारे में गलत या पुराने स्टेटमेंट जनरेट हो सकते हैं.
    • वीएलएम, भाषा और इमेज में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. हो सकता है कि वे कुछ स्थितियों में सामान्य ज्ञान के हिसाब से तर्क न कर पाएं.
  • PaliGemma को खास टास्क के लिए बेहतर बनाने के मकसद से, पहले से ट्रेन किए गए सामान्य मॉडल के तौर पर डिज़ाइन किया गया था. इसलिए, "आउट ऑफ़ द बॉक्स" या "ज़ीरो-शॉट" परफ़ॉर्मेंस, खास तौर पर सामान्य काम के लिए डिज़ाइन किए गए मॉडल से पीछे रह सकती है.
  • PaliGemma, एक से ज़्यादा बार बातचीत करने वाला चैटबॉट नहीं है. इसे इमेज और टेक्स्ट इनपुट के एक राउंड के लिए डिज़ाइन किया गया है.