หน้าโมเดล: PaliGemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการให้บริการ: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
PaliGemma เป็นโมเดลภาษาการมองเห็น (VLM) อเนกประสงค์และน้ำหนักเบา ซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และสร้างจากองค์ประกอบแบบเปิด เช่น โมเดลการมองเห็นของ SigLIP และโมเดลภาษา Gemma วิธีนี้ใช้ทั้งรูปภาพและข้อความเป็นอินพุต และสร้างข้อความเป็นเอาต์พุต ซึ่งรองรับหลายภาษา โดยได้รับการออกแบบมาเพื่อปรับแต่งประสิทธิภาพระดับชั้นนำของชั้นเรียนสำหรับงานต่างๆ ด้านภาษาเกี่ยวกับการมองเห็น เช่น คำอธิบายภาพและวิดีโอสั้นๆ การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ
สถาปัตยกรรมโมเดล
PaliGemma เป็นองค์ประกอบหนึ่งของเครื่องมือถอดรหัส Transformer และเครื่องมือเข้ารหัสรูปภาพของ Vision Transformer ซึ่งมีพารามิเตอร์ทั้งหมด 3 พันล้านรายการ ตัวถอดรหัสข้อความจะเริ่มต้นจาก Gemma-2B โปรแกรมเปลี่ยนไฟล์รูปภาพเริ่มต้นจาก SigLIP-So400m/14 PaliGemma ได้รับการฝึกตามสูตร PaLI-3
อินพุตและเอาต์พุต
- อินพุต: สตริงรูปภาพและข้อความ เช่น พรอมต์ให้คำบรรยายรูปภาพหรือคำถาม
- เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำอธิบายภาพ คำตอบสำหรับคำถาม รายการพิกัดของกรอบออบเจ็กต์ที่ล้อมรอบ หรือโค้ดคำของกลุ่ม
ข้อมูลโมเดล
ชุดข้อมูลก่อนการฝึก
PaliGemma ได้รับการฝึกล่วงหน้าโดยใช้ชุดข้อมูลต่อไปนี้
- WebLI: WebLI (รูปภาพภาษาบนเว็บ) คือชุดข้อมูลข้อความรูปภาพหลายภาษาระดับเว็บที่สร้างขึ้นจากเว็บสาธารณะ เราใช้การแยก WebLI ที่หลากหลายเพื่อให้ได้ความสามารถของโมเดลที่ใช้งานได้หลากหลาย เช่น ความเข้าใจในความหมายภาพ การแปลวัตถุ การทำความเข้าใจข้อความที่แสดงเป็นภาพ หลายภาษา เป็นต้น
- CC3M-35L: คู่รูปภาพ-alt_text ภาษาอังกฤษที่ดูแลจัดการจากหน้าเว็บ (Sharma et al., 2018) เราใช้ Google Cloud Translation API เพื่อแปลเป็นภาษาเพิ่มเติม 34 ภาษา
- VQ²A-CC3M-35L/VQG-CC3M-35L: ชุดย่อยของ VQ2A-CC3M (Changpinyo et al., 2022a) ซึ่งแปลเป็นภาษาอื่นๆ อีก 34 ภาษาเช่นเดียวกับ CC3M-35L โดยใช้ Google Cloud Translation API
- OpenImages: การตรวจจับและคำถามและคำตอบเกี่ยวกับออบเจ็กต์ (Piergiovanni et al. 2022) ที่สร้างขึ้นโดย กฎที่สร้างขึ้นเองในชุดข้อมูล OpenImages
- WIT: รูปภาพและข้อความที่รวบรวมจาก Wikipedia (Srinivasan และ al., 2021)
การกรองความรับผิดชอบเกี่ยวกับข้อมูล
ตัวกรองต่อไปนี้จะใช้กับ WebLI โดยมีเป้าหมายเพื่อฝึก PaliGemma เกี่ยวกับข้อมูลที่สะอาด
- การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่ามีลักษณะลามกอนาจารออก
- การกรองความปลอดภัยของข้อความ: เราระบุและกรองรูปภาพที่จับคู่อยู่กับข้อความที่ไม่ปลอดภัยออก ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวกับ CSAI ภาพอนาจาร ภาษาหยาบคาย หรือไม่เหมาะสม
- การกรองข้อความที่ไม่เหมาะสม: เราใช้ Perspective API เพื่อระบุและกรองรูปภาพที่จับคู่กับข้อความที่ถือว่าเป็นการดูถูก อนาจาร แสดงความเกลียดชัง หรือเป็นเนื้อหาที่ไม่เหมาะสมออก
- การกรองข้อมูลส่วนบุคคลที่เป็นข้อความ: เรากรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกโดยใช้ Cloud Data Loss Prevention (DLP) API เพื่อปกป้องความเป็นส่วนตัวของแต่ละบุคคล มีการนำตัวระบุ เช่น หมายเลขประกันสังคมและข้อมูลที่ละเอียดอ่อนประเภทอื่นๆ ออก
- วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาโดยสอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา
ข้อมูลการใช้งาน
ฮาร์ดแวร์
PaliGemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)
ซอฟต์แวร์
ฝึกอบรมโดยใช้ JAX, Flax, TFDS และ big_vision
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU ในการฝึกโมเดลขนาดใหญ่ได้อย่างรวดเร็วและมีประสิทธิภาพยิ่งขึ้น
TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล ระบบได้เผยแพร่โค้ดปรับแต่งและโค้ดอนุมานของ PaliGemma ในbig_vision
ที่เก็บของ GitHub
ข้อมูลการประเมิน
ผลลัพธ์การเปรียบเทียบ
เพื่อตรวจสอบความสามารถในการถ่ายโอนของ PaliGemma ไปยังงานด้านวิชาการต่างๆ เราได้ปรับแต่งโมเดลที่ฝึกไว้แล้วล่วงหน้าในแต่ละงาน นอกจากนี้ เรายังฝึกโมเดลมิกซ์ด้วยงานการโอนที่ผสมผสานกันอีกด้วย เรารายงานผลลัพธ์ของความละเอียดต่างๆ เพื่อให้เข้าใจว่างานใดได้รับประโยชน์จากความละเอียดที่เพิ่มขึ้น ที่สำคัญคือไม่มีงานหรือชุดข้อมูลเหล่านี้เป็นส่วนหนึ่งของการผสมผสานข้อมูลก่อนการฝึก และระบบจะนำรูปภาพออกจากข้อมูลการฝึกล่วงหน้าสำหรับสเกลเว็บอย่างชัดเจน
งานเดียว (ปรับแต่งให้กับงานเดียว)
การเปรียบเทียบ (การแยกรถไฟ) | เมตริก (แยก) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
คำบรรยายวิดีโอ | ||||
คำบรรยายแทนเสียง COCO (รถไฟ + restval) | CIDEr (ค่า) | 141.92 | 144.60 | |
NoCaps (Eval ของการโอนคำบรรยาย COCO) | CIDEr (ค่า) | 121.72 | 123.58 | |
COCO-35L (รถไฟ) | CIDEr dev (th/avg-34/avg) |
|
|
|
XM3600 (ค่าประมาณการโอน COCO-35L) | CIDEr dev (th/avg-34/avg) |
|
|
|
TextCaps (รถไฟ) | CIDEr (ค่า) | 127.48 | 153.94 | |
SciCap (ประโยคแรก ไม่มีรูปแบบย่อย) (train+val) | CIDEr/BLEU-4 (ทดสอบ) |
|
|
|
Screen2words (ฝึกฝน+dev) | CIDE (ทดสอบ) | 117.57 | 1195.90 THB | |
คำบรรยายภาพของวิดเจ็ต (train+dev) | CIDE (ทดสอบ) | 136.07 | 148.36 | |
การตอบคำถาม | ||||
VQAv2 (รถไฟ+การตรวจสอบความถูกต้อง) | ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) | 83.19 | 85.64 | |
MMVP (Eval ของการโอน VQAv2) | ความแม่นยำที่จับคู่ | 47.33 | 45.33 | |
POPE (Eval ของการโอน VQAv2) | ความถูกต้อง (สุ่ม/ยอดนิยม/ที่ไม่พึงประสงค์) |
|
|
|
OKVQA (รถไฟ) | ความแม่นยำ (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (รถไฟ+วาล) | ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ) | 76.37 | 769.00 THB | |
A-OKVQA (DA) (รถไฟ+V) | ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | ความแม่นยำ (ทดสอบแบบสมดุล) | 65.61 | 67.03 | |
xGQA (Eval ของการโอน GQA) | ความแม่นยำเฉลี่ย (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (รถไฟ+นักพัฒนาซอฟต์แวร์) | ความแม่นยำ (ทดสอบ) | 90.02 | 88.93 | |
MaRVL (Eval ของการโอน NLVR2) | ความแม่นยำเฉลี่ย (ทดสอบ) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (รถไฟ) | ความแม่นยำ (ทดสอบ) | 72.12 | 73.28 | |
ScienceQA (ชุดย่อยของ Img, ไม่มี CoT) (train+val) | ความแม่นยำ (ทดสอบ) | 95.39 | 95.93 | |
RSVQA-LR (ไม่ใช่ตัวเลข) (train+val) | ความแม่นยำเฉลี่ย (ทดสอบ) | 92.65 | 93.11 | |
RSVQA-HR (ไม่ใช่ตัวเลข) (train+val) | ความแม่นยำเฉลี่ย (ทดสอบ/ทดสอบ 2) |
|
|
|
ChartQA (มนุษย์+aug)x(รถไฟ+วาล) | ค่าเฉลี่ยความแม่นยำแสนผ่อนคลาย (test_human, test_aug) | 57.08 | 71.36 | |
VizWiz VQA (รถไฟ+V) | ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) | 73.7 | 75.52 | |
TallyQA (รถไฟ) | ความแม่นยำ (test_simple/test_complex) |
|
|
|
OCR-VQA (รถไฟ+V) | ความแม่นยำ (ทดสอบ) | 72.32 | 74.61 | 74.93 |
TextVQA (รถไฟ+V) | ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) | 55.47 | 73.15 | 76.48 |
DocVQA (รถไฟ+V) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 43.74 | 78.02 | 84.77 |
อินโฟกราฟิก VQA (รถไฟ+วาล) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 28.46 | 40.47 | 47.75 |
SceneText VQA (รถไฟ+val) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 63.29 | 81.82 | 84.40 |
การแบ่งกลุ่ม | ||||
RefCOCO (รวม refcoco, refcoco+, refcocog ไม่รวม val และรูปภาพทดสอบ) | MIoU (การตรวจสอบ) refcoco/refcoco+/refcocog |
|
|
|
งานวิดีโอ (คำบรรยายวิดีโอ/QA) | ||||
MSR-VTT (คำบรรยาย) | CIDE (ทดสอบ) | 70.54 | ||
MSR-VTT (QA) | ความแม่นยำ (ทดสอบ) | 50.09 | ||
ActivityNet (คำบรรยายภาพ) | CIDE (ทดสอบ) | 34.62 | ||
ActivityNet (QA) | ความแม่นยำ (ทดสอบ) | 50.78 | ||
VATEX (คำบรรยายภาพ) | CIDE (ทดสอบ) | 79.73 | ||
MSVD (QA) | ความแม่นยำ (ทดสอบ) | 60:20 |
มิกซ์โมเดล (ปรับแต่งการผสมผสานของงานการโอน)
การเปรียบเทียบ | เมตริก (แยก) | mix-224 | mix-448 |
---|---|---|---|
MMVP | ความแม่นยำที่จับคู่ | 460.00 | 45.33 |
ป๊อป | ความถูกต้อง (สุ่ม/ยอดนิยม/ที่ไม่พึงประสงค์) |
|
|
จริยธรรมและความปลอดภัย
วิธีการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินแบบมีโครงสร้างและการทดสอบภายในเกี่ยวกับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงดำเนินการโดยทีมต่างๆ มากมายที่มีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย เช่น
- การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์เกี่ยวกับความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการเป็นตัวแทน ดูรายละเอียดเพิ่มเติมเกี่ยวกับแนวทางการประเมินได้ในการ์ดโมเดลของ Gemma แต่จะมีคำบรรยายรูปภาพและการตั้งค่าการตอบคำถามด้วยภาพ
- การประเมินการเปรียบเทียบรูปภาพเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น FairFace Dataset (Karkkainen et al., 2021)
ผลการประเมิน
- ผลการประเมินจากมนุษย์ด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายต่อตัวแทน
- นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ 0.8) ในการวัดความเป็นพิษ คำหยาบคาย และปัญหาอื่นๆ ที่อาจเกิดขึ้นในคำบรรยายที่สร้างขึ้นสำหรับรูปภาพที่มาจากชุดข้อมูล FairFace เรารายงานค่าสูงสุดและค่ามัธยฐานที่สังเกตได้ในกลุ่มย่อย สำหรับแอตทริบิวต์เพศ ชาติพันธุ์ และอายุที่รับรู้แต่ละรายการ
เมตริก | เพศที่รับรู้ | ชาติพันธุ์ | กลุ่มอายุ | |||
---|---|---|---|---|---|---|
สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | |
ความเป็นพิษ | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
การโจมตีข้อมูลประจำตัว | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
การดูหมิ่น | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
ภัยคุกคาม | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
คำหยาบคาย | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
การใช้งานและข้อจำกัด
วัตถุประสงค์การใช้งาน
Open Vision Language Models (VLM) มีแอปพลิเคชันที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุม รายการนี้มีจุดประสงค์เพื่อให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล
ปรับแต่งงานด้านภาษาสำหรับการมองเห็นหนึ่งๆ:
- โมเดลก่อนการฝึกนั้นสามารถปรับแต่งได้สำหรับงานด้านภาษาการมองเห็นที่หลากหลาย เช่น คำอธิบายภาพ คำบรรยายวิดีโอสั้นๆ การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ
- โมเดลก่อนการฝึกจะปรับแต่งได้สำหรับโดเมนที่เจาะจง เช่น การตอบคำถามแบบตรวจจับระยะไกล คำถามแบบภาพจากคนตาบอด การตอบคำถามวิทยาศาสตร์ การอธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
- โมเดลก่อนการฝึกจะปรับแต่งได้สำหรับงานที่มีเอาต์พุตที่ไม่ใช่ข้อความ เช่น กรอบล้อมรอบหรือมาสก์การแบ่งกลุ่มลูกค้า
การวิจัยภาษาของวิสัยทัศน์:
- โมเดลก่อนการฝึกและโมเดลที่ปรับแต่งแล้วจะเป็นรากฐานให้นักวิจัยทดลองเทคนิค VLM, พัฒนาอัลกอริทึม และมีส่วนช่วยทำให้เกิดความก้าวหน้าในวงการนี้
ความเสี่ยงและข้อควรพิจารณาด้านจริยธรรม
การพัฒนาโมเดลภาษาการมองเห็น (VLM) ทำให้เกิดข้อกังวลต่างๆ ด้านจริยธรรม ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกกับข้อมูลข้อความแบบรูปภาพขนาดใหญ่ในชีวิตจริงสามารถสะท้อนถึงอคติทางสังคมต่อวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึกอบรมได้ โมเดลเหล่านี้ผ่านการพิจารณาอย่างละเอียดรอบคอบ อธิบายการป้อนข้อมูลก่อนประมวลผลข้อมูล และการประเมินภายหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- ระบบอาจใช้ VLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เราจัดทำหลักเกณฑ์ไว้เพื่อการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่ได้รับการพัฒนาอย่างมีความรับผิดชอบจะมอบโอกาสในการแชร์นวัตกรรมโดยทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI สามารถเข้าถึงเทคโนโลยี VLM ได้
ความเสี่ยงที่ระบุและการลดความเสี่ยง:
- การไม่มีอคติ: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดความลำเอียงในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันโดยเฉพาะ
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้งาน LLM ที่เป็นอันตราย ดูแหล่งข้อมูลทางการศึกษาและกลไกการรายงานสำหรับผู้ใช้ที่แจ้งการใช้งานในทางที่ผิดได้ที่ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ การใช้งานโมเดลของ Gemma ที่ไม่อนุญาต จึงระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกจากข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่างออก เราแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ข้อจำกัด
- ข้อจำกัดส่วนใหญ่ที่รับช่วงมาจากโมเดล Gemma ที่เกี่ยวข้องจะยังคงมีผล ดังนี้
- VLM จะดีกว่าในงานที่สามารถจัดกรอบด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรือมีความซับซ้อนมากอาจทำได้ยาก
- ภาษาที่เป็นธรรมชาติมีความซับซ้อนโดยธรรมชาติ VLM อาจประสบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือถ้อยคำที่หยาบคาย
- VLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ จึงอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- VLM อาศัยรูปแบบทางสถิติในภาษาและรูปภาพ พวกเขาอาจไม่สามารถใช้เหตุผลทั่วไปในบางสถานการณ์
- PaliGemma ออกแบบมาเป็นอันดับแรกสำหรับใช้เป็นโมเดลทั่วไปก่อนการฝึกสำหรับการปรับแต่งเพื่องานเฉพาะทาง ดังนั้น ประสิทธิภาพการทำงานแบบ "แกะกล่อง" หรือ "ศูนย์ช็อต" อาจช้ากว่าโมเดลที่ออกแบบมาเพื่อสิ่งนั้นโดยเฉพาะ
- PaliGemma ไม่ใช่แชทบ็อตแบบหลายเทิร์น ซึ่งออกแบบมาสำหรับการป้อน รูปภาพและข้อความรอบเดียว