หน้าโมเดล: PaliGemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
PaliGemma คือโมเดลภาษาการมองเห็น (VLM) ที่ใช้งานง่ายและมีน้ำหนักเบาซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์เปิด เช่น โมเดลวิสัยทัศน์ SigLIP และ Gemma โมเดลภาษา โดยใช้ทั้งรูปภาพและข้อความ เป็นอินพุตและสร้างข้อความเป็นเอาต์พุต รองรับหลายภาษา ใช่เลย ที่ออกแบบมาเพื่อการปรับแต่งประสิทธิภาพระดับชั้นนำใน งานด้านภาษาที่มองเห็น เช่น คำอธิบายภาพและคำอธิบายภาพวิดีโอสั้นๆ คำถามที่เป็นภาพ การตอบ การอ่านข้อความ การตรวจหาวัตถุ และการแบ่งกลุ่มวัตถุ
สถาปัตยกรรมโมเดล
PaliGemma เป็นองค์ประกอบของ Transformer decoder และรูปภาพ Vision Transformer ของโปรแกรมเปลี่ยนไฟล์ และมีพารามิเตอร์ทั้งหมด 3 พันล้านรายการ ตัวถอดรหัสข้อความเริ่มต้นจาก Gemma-2B โปรแกรมเปลี่ยนไฟล์คือรูปภาพ เริ่มต้นจาก SigLIP-So400m/14 PaliGemma ได้รับการฝึกตามสูตร PaLI-3
อินพุตและเอาต์พุต
- อินพุต: สตริงรูปภาพและข้อความ เช่น ข้อความแจ้งให้อธิบายรูปภาพ หรือ คำถาม
- เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำบรรยายวิดีโอ รูปภาพ คำตอบสำหรับคำถาม รายการกรอบล้อมรอบวัตถุ หรือชุดโค้ดสำหรับการแบ่งกลุ่มลูกค้า
ข้อมูลโมเดล
ชุดข้อมูลก่อนการฝึก
PaliGemma ได้รับการฝึกล่วงหน้าด้วยชุดข้อมูลแบบผสมต่อไปนี้
- WebLI: WebLI (รูปภาพภาษาบนเว็บ) คือ ชุดข้อมูลรูปภาพ-ข้อความหลายภาษาสำหรับแพลตฟอร์มเว็บที่สร้างขึ้นจากเว็บสาธารณะ ต ใช้การแยก WebLI หลายๆ แบบเพื่อสร้างความสามารถของโมเดลอเนกประสงค์ เช่น การทำความเข้าใจความหมายของภาพ การแปลออบเจ็กต์ การทำความเข้าใจข้อความที่มีภาพจำลอง หลายภาษา ฯลฯ
- CC3M-35L: มีการดูแลจัดการคู่ภาพ-alt_text ภาษาอังกฤษจากหน้าเว็บ (Sharma et คณะ 2018) เราใช้ธีมแอป Google Cloud Translation API ที่จะแปลเป็นภาษา 34 ภาษาอื่นๆ
- VQ²A-CC3M-35L/VQG-CC3M-35L: ส่วนย่อยของ VQ2A-CC3M (Changpinyo และคณะ, 2022a) โดยแปลเป็นภาษา และภาษาอื่นๆ เพิ่มเติมอีก 34 ภาษาเช่นเดียวกับ CC3M-35L โดยใช้Google Cloud Translation API
- OpenImages: คำถามและคำตอบเกี่ยวกับการตรวจจับและการรับรู้ออบเจ็กต์ (Piergiovanni และคณะ 2022) สร้างโดย กฎที่กำหนดเองในชุดข้อมูล OpenImages
- วิทย์: รูปภาพและข้อความที่รวบรวมจากวิกิพีเดีย (ศรีนิวาสานและคณะ, 2021)
การกรองความรับผิดชอบต่อข้อมูล
ตัวกรองต่อไปนี้จะใช้กับ WebLI โดยมีเป้าหมายเพื่อการฝึก PaliGemma เกี่ยวกับข้อมูลที่สะอาด:
- การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่าเป็นภาพลามกอนาจารออก ลักษณะลามกอนาจาร
- การกรองความปลอดภัยของข้อความ: เราระบุและกรองรูปภาพที่จับคู่แล้วออก ด้วยข้อความที่ไม่ปลอดภัย ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวกับ CSAI, ภาพอนาจาร, คำหยาบคาย หรือไม่เหมาะสมในลักษณะอื่นๆ
- การกรองข้อความเป็นพิษ: เรายังใช้ Perspective API เพื่อระบุและกรองรูปภาพที่ จับคู่กับข้อความที่ถือว่าดูหมิ่น อนาจาร แสดงความเกลียดชัง หรือเป็นภัย
- การกรองข้อมูลส่วนบุคคลของข้อความ: เรากรองข้อมูลส่วนบุคคลบางรายการ และข้อมูลที่ละเอียดอ่อนอื่นๆ โดยใช้การป้องกันข้อมูลรั่วไหลของระบบคลาวด์ (DLP) API ในการปกป้อง ความเป็นส่วนตัวของปัจเจกบุคคล ตัวระบุ เช่น หมายเลขประกันสังคมและ รวมถึงได้นำข้อมูลที่ละเอียดอ่อนประเภทอื่นๆ ออกแล้ว
- วิธีการเพิ่มเติม: การกรองตามคุณภาพเนื้อหาและความปลอดภัยใน สอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา
ข้อมูลการใช้งาน
ฮาร์ดแวร์
PaliGemma ได้รับการฝึกโดยใช้หน่วยประมวลผล Tensor รุ่นล่าสุด (TPU) ฮาร์ดแวร์ (TPUv5e)
ซอฟต์แวร์
การฝึกทำโดยใช้ JAX
สบายๆ
TFDS และ
big_vision
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อการฝึกโมเดลขนาดใหญ่ที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล
เผยแพร่โค้ดปรับแต่งและโค้ดการอนุมานของ PaliGemma ใน big_vision
ที่เก็บ GitHub
ข้อมูลการประเมิน
ผลการเปรียบเทียบ
เพื่อยืนยันความสามารถในการโอนของ PaliGemma ไปยัง ในงานวิชาการ เราจะปรับแต่งโมเดลที่ฝึกไว้แล้วล่วงหน้าในแต่ละงาน นอกจากนี้เรายัง ฝึกโมเดลแบบผสมผสานด้วยงานการโอนที่ผสมผสานกัน เรารายงานผลลัพธ์ใน โดยใช้ความละเอียดแบบต่างๆ เพื่อแสดงให้เห็นว่างานใดได้รับประโยชน์บ้าง ความละเอียดที่เพิ่มขึ้น ที่สำคัญ งานหรือชุดข้อมูลเหล่านี้ไม่ได้เป็นส่วนหนึ่งของ ข้อมูลการฝึกล่วงหน้า และรูปภาพจะถูกนำออกจาก ข้อมูลการฝึกล่วงหน้าในระดับเว็บ
งานเดียว (ปรับแต่งในงานเดียว)
การเปรียบเทียบ (แยกรถไฟ) | เมตริก (แยก) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
คำบรรยายวิดีโอ | ||||
คำบรรยายแทนเสียงแบบ COCO (รถไฟ+ย้อนกลับ) | CIDEr (ค่า) | 141.92 | 144.60 | |
NoCaps (การโอนคำบรรยายแทนเสียง Eval of COCO) | CIDEr (ค่า) | 121.72 | 123.58 | |
COCO-35L (รถไฟ) | CIDEr dev (en/average-34/CPM) |
|
|
|
XM3600 (การประเมินการโอน COCO-35L) | CIDEr dev (en/average-34/CPM) |
|
|
|
TextCaps (รถไฟ) | CIDEr (ค่า) | 127.48 | 153.94 | |
SciCap (ประโยคแรก ไม่มีรูปย่อย) (train+val) | CIDE//BLEU-4 (ทดสอบ) |
|
|
|
Screen2words (รถไฟ+การพัฒนา) | CIDEr (ทดสอบ) | 117.57 | 119.59 | |
วิดเจ็ตคำบรรยายแทนเสียง (train+dev) | CIDEr (ทดสอบ) | 136.07 | 148.36 | |
การตอบคำถาม | ||||
VQAv2 (รถไฟ+การตรวจสอบความถูกต้อง) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 83.19 | 85.64 | |
MMVP (การประเมินการโอน VQAv2) | ความถูกต้องที่จับคู่ | 47.33 | 45.33 | |
POPE (การโอน Eval of VQAv2) | ความถูกต้อง (สุ่ม/ยอดนิยม/adversarial) |
|
|
|
OKVQA (รถไฟ) | ความถูกต้อง (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (รถไฟ+ค่าจอดรถ) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ) | 76.37 | 769.00 | |
A-OKVQA (DA) (รถไฟ+ค่าจอดรถ) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ) | 61.85 | 63.22 | |
GQA (รถไฟยอดคงเหลือ + val_balanced) | ความแม่นยำ (testdev สมดุล) | 65.61 | 67.03 | |
xGQA (การประเมินการโอน GQA) | ความแม่นยำเฉลี่ย (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (รถไฟ+ส่วนพัฒนา) | ความถูกต้อง (ทดสอบ) | 90.02 | 88.93 | |
MaRVL (การประเมินการโอน NLVR2) | ความแม่นยำเฉลี่ย (ทดสอบ) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (รถไฟ) | ความถูกต้อง (ทดสอบ) | 72.12 | 73.28 | |
ScienceQA (ชุดย่อย Img, ไม่มี CoT) (การฝึก + ค่า) | ความถูกต้อง (ทดสอบ) | 95.39 | 95.93 | |
RSVQA-LR (ไม่ใช่ตัวเลข) (รถไฟ+ค่าจอดรถ) | ความแม่นยำเฉลี่ย (ทดสอบ) | 92.65 | 93.11 | |
RSVQA-HR (ไม่ใช่ตัวเลข) (รถไฟ+ค่าจอดรถ) | ความแม่นยำเฉลี่ย (ทดสอบ/ทดสอบ 2) |
|
|
|
ChartQA (มนุษย์+สิงหา)x(รถไฟ+ค่า) | ความถูกต้องการผ่อนคลายเฉลี่ย (test_human, test_aug) | 57.08 | 71.36 | |
VizWiz VQA (รถไฟ+ค่าจอดรถ) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 73.7 | 75.52 | |
TallyQA (รถไฟ) | ความถูกต้อง (test_simple/test_complex) |
|
|
|
OCR-VQA (รถไฟ+ค่าจอดรถ) | ความถูกต้อง (ทดสอบ) | 72.32 | 74.61 | 74.93 |
TextVQA (รถไฟ+ค่า) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 55.47 | 73.15 | 76.48 |
DocVQA (รถไฟ+ค่าจอดรถ) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 43.74 | 78.02 | 84.77 |
อินโฟกราฟิก VQA (รถไฟ+ค่าจอดรถ) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 28.46 | 40.47 | 47.75 |
SceneText VQA (รถไฟ + ค่ารถไฟ) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 63.29 | 81.82 | 84.40 |
การแบ่งกลุ่ม | ||||
RefCOCO (Refcoco แบบรวม, refcoco+, refcocog ไม่รวมรูปภาพ Val และรูปภาพทดสอบ) | MIoU (การตรวจสอบ) refcoco/refcoco+/refcocog |
|
|
|
งานวิดีโอ (คำบรรยายแทนเสียง/QA) | ||||
MSR-VTT (คำบรรยายวิดีโอ) | CIDEr (ทดสอบ) | 70.54 | ||
MSR-VTT (QA) | ความถูกต้อง (ทดสอบ) | 50.09 | ||
ActivityNet (คำบรรยายแทนเสียง) | CIDEr (ทดสอบ) | 34.62 | ||
ActivityNet (QA) | ความถูกต้อง (ทดสอบ) | 50.78 | ||
VATEX (คำบรรยายภาพ) | CIDEr (ทดสอบ) | 79.73 | ||
MSVD (QA) | ความถูกต้อง (ทดสอบ) | 60.22 |
โมเดลแบบผสม (ปรับแต่งงานการโอนแบบผสม)
เปรียบเทียบ | เมตริก (แยก) | mix-224 | mix-448 |
---|---|---|---|
MMVP | ความถูกต้องที่จับคู่ | 460.00 | 45.33 |
POPE | ความถูกต้อง (สุ่ม/ยอดนิยม/adversarial) |
|
|
จริยธรรมและความปลอดภัย
วิธีการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและทีมสีแดงภายใน นโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงได้ดำเนินการโดย ทีมต่างๆ แต่ละคนมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน เหล่านี้ โมเดลได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากที่เกี่ยวข้องกับ จริยธรรมและความปลอดภัย ซึ่งรวมถึง
- การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และ ที่นำเสนอโดยตรง ดูโมเดล Gemma บัตรสำหรับ รายละเอียดเพิ่มเติมเกี่ยวกับวิธีการประเมิน แต่มีคำบรรยายและรูปภาพ ของการตอบคำถาม
- การประเมินการเปรียบเทียบแบบรูปภาพเป็นข้อความ: การเปรียบเทียบกับงานด้านวิชาการที่เกี่ยวข้อง เช่น FairFace Dataset (Karkkainen et al., 2021)
ผลการประเมิน
- ผลการประเมินจากเจ้าหน้าที่สำหรับการประเมินจริยธรรมและความปลอดภัยอยู่ใน เกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามภายใน นโยบาย สำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และการแสดงตัวตน อันตราย
- นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ของ 0.8) เพื่อวัดความเป็นพิษ ความหยาบคาย และความเป็นไปได้อื่นๆ ปัญหาในคำบรรยายแทนเสียงที่สร้างขึ้นสำหรับรูปภาพที่มาจาก FairFace ชุดข้อมูล เรารายงานค่าสูงสุดและค่ามัธยฐานที่สังเกตได้ในกลุ่มย่อย สำหรับแอตทริบิวต์เพศ ชาติพันธุ์ และอายุที่รับรู้แต่ละรายการ
เมตริก | เพศที่รับรู้ | ชาติพันธุ์ | กลุ่มอายุ | |||
---|---|---|---|---|---|---|
สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | |
การเป็นพิษ | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
การโจมตีข้อมูลประจำตัว | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
การดูหมิ่น | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
ภัยคุกคาม | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
คำหยาบคาย | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
การใช้งานและข้อจำกัด
วัตถุประสงค์การใช้งาน
Open Vision Language Models (VLM) มีแอปพลิเคชันมากมายใน อุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ใช่ ครอบคลุม จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของโมเดล การฝึกอบรมและการพัฒนา
ปรับแต่งงานที่ใช้ภาษาการมองเห็นที่เฉพาะเจาะจง
- สามารถปรับแต่งโมเดลก่อนการฝึกได้ในภาษาการมองเห็นที่หลากหลาย งานต่างๆ เช่น การใส่คำบรรยายภาพ คำบรรยายภาพวิดีโอสั้นๆ คำถามเกี่ยวกับภาพ การตอบ การอ่านข้อความ การตรวจหาวัตถุ และการแบ่งกลุ่มวัตถุ
- โมเดลก่อนการฝึกสามารถปรับแต่งอย่างละเอียดสำหรับโดเมนที่เฉพาะเจาะจง เช่น โดเมนระยะไกล การรับรู้การตอบคำถาม คำถามด้านภาพจากบุคคลที่ตาบอด การตอบคำถามทางวิทยาศาสตร์ อธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
- สามารถปรับแต่งโมเดลก่อนการฝึกให้เหมาะกับงานที่มีเอาต์พุตที่ไม่ใช่ข้อความได้ เช่น กรอบล้อมรอบหรือมาสก์การแบ่งกลุ่ม
การวิจัยด้านการมองเห็น:
- โมเดลก่อนการฝึกและโมเดลที่ปรับแต่งแล้วจะเป็นรากฐานสำหรับ ให้นักวิจัยทดลองเทคนิค VLM, พัฒนาอัลกอริทึม และ ส่งเสริมความก้าวหน้าในวงการนี้
การพิจารณาและความเสี่ยงด้านจริยธรรม
การพัฒนาโมเดลภาษาวิสัยทัศน์ (VLM) ยกระดับจริยธรรมหลายอย่าง ของ Google ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ
- อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกโดยใช้ข้อมูลข้อความรูปภาพจำนวนมากจากชีวิตจริงสามารถสะท้อนถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอน โมเดลเหล่านี้ ได้ผ่านการตรวจสอบอย่างรอบคอบและประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และ การประเมินส่วนหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- ระบบอาจใช้ VLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือ เป็นอันตราย
- มีหลักเกณฑ์สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดู ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับโมเดล สถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินผล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แบ่งปัน โดยการทำให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงเทคโนโลยี VLM และ นักวิจัยในระบบนิเวศ AI
การระบุและการลดความเสี่ยง:
- การคงอยู่ของอคติ: ขอแนะนำให้คุณทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจการลดการให้น้ำหนัก เทคนิคในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์สำหรับเนื้อหา ความปลอดภัยเป็นสิ่งสำคัญ ขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยเนื้อหาที่เหมาะสมโดยอิงตาม นโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและนักพัฒนา และ การให้ความรู้แก่ผู้ใช้ปลายทางช่วยลดการใช้ LLM ที่เป็นอันตรายได้ แหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด ระบุ: ดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ ข้อห้ามในการใช้งาน Gemma มีระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกกับข้อมูลที่กรองเพื่อนำออก ข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่าง ขอแนะนำให้นักพัฒนาซอฟต์แวร์ ในการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ข้อจำกัด
- ข้อจำกัดส่วนใหญ่ที่รับช่วงมาจากโมเดล Gemma ที่สำคัญยังคงมีผลดังนี้
- VLM จะทำงานได้ดียิ่งขึ้น ซึ่งสามารถจัดกรอบด้วยพรอมต์ที่ชัดเจนและ วิธีทำ งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
- ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง VLM อาจไม่ค่อยเข้าใจ ถ้อยคำที่เล็กน้อยมาก การเสียดสี หรือภาษาเชิงเปรียบเทียบ
- VLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จาก ชุดข้อมูลการฝึกอบรมนี้ แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้าง ข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- VLM ใช้รูปแบบทางสถิติในภาษาและรูปภาพ โดยอาจ ขาดความสามารถในการใช้เหตุผลด้านสามัญสำนึกในบางสถานการณ์
- PaliGemma ออกแบบมาเป็นอันดับหนึ่งสำหรับอันดับแรกๆ ให้เป็นเครื่องมือทั่วไปที่ฝึกล่วงหน้า เพื่อให้เหมาะกับงานเฉพาะทาง ดังนั้น ฟีเจอร์นี้ "พร้อมใช้งานทันที" หรือ "ศูนย์ช็อต" ประสิทธิภาพอาจช้ากว่าโมเดลที่ออกแบบมาเพื่อ ได้
- PaliGemma ไม่ใช่แชทบ็อตแบบมัลติเทิร์น โดยออกแบบมาสำหรับ 1 รอบ รูปภาพและข้อความ