ลองดูที่เก็บ Gemma Cookbook เพื่อฟังตัวอย่างการสร้างและปรับแต่ง ดูข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

การ์ดโมเดล PaliGemma

หน้าโมเดล: PaliGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

PaliGemma คือโมเดลภาษาการมองเห็น (VLM) ที่ใช้งานง่ายและมีน้ำหนักเบาซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์เปิด เช่น โมเดลวิสัยทัศน์ SigLIP และ Gemma โมเดลภาษา โดยใช้ทั้งรูปภาพและข้อความ เป็นอินพุตและสร้างข้อความเป็นเอาต์พุต รองรับหลายภาษา ใช่เลย ที่ออกแบบมาเพื่อการปรับแต่งประสิทธิภาพระดับชั้นนำใน งานด้านภาษาที่มองเห็น เช่น คำอธิบายภาพและคำอธิบายภาพวิดีโอสั้นๆ คำถามที่เป็นภาพ การตอบ การอ่านข้อความ การตรวจหาวัตถุ และการแบ่งกลุ่มวัตถุ

สถาปัตยกรรมโมเดล

PaliGemma เป็นองค์ประกอบของ Transformer decoder และรูปภาพ Vision Transformer ของโปรแกรมเปลี่ยนไฟล์ และมีพารามิเตอร์ทั้งหมด 3 พันล้านรายการ ตัวถอดรหัสข้อความเริ่มต้นจาก Gemma-2B โปรแกรมเปลี่ยนไฟล์คือรูปภาพ เริ่มต้นจาก SigLIP-So400m/14 PaliGemma ได้รับการฝึกตามสูตร PaLI-3

อินพุตและเอาต์พุต

อินพุต: สตริงรูปภาพและข้อความ เช่น ข้อความแจ้งให้อธิบายรูปภาพ หรือ คำถาม
เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำบรรยายวิดีโอ รูปภาพ คำตอบสำหรับคำถาม รายการกรอบล้อมรอบวัตถุ หรือชุดโค้ดสำหรับการแบ่งกลุ่มลูกค้า

ข้อมูลโมเดล

ชุดข้อมูลก่อนการฝึก

PaliGemma ได้รับการฝึกล่วงหน้าด้วยชุดข้อมูลแบบผสมต่อไปนี้

WebLI: WebLI (รูปภาพภาษาบนเว็บ) คือ ชุดข้อมูลรูปภาพ-ข้อความหลายภาษาสำหรับแพลตฟอร์มเว็บที่สร้างขึ้นจากเว็บสาธารณะ ต ใช้การแยก WebLI หลายๆ แบบเพื่อสร้างความสามารถของโมเดลอเนกประสงค์ เช่น การทำความเข้าใจความหมายของภาพ การแปลออบเจ็กต์ การทำความเข้าใจข้อความที่มีภาพจำลอง หลายภาษา ฯลฯ
CC3M-35L: มีการดูแลจัดการคู่ภาพ-alt_text ภาษาอังกฤษจากหน้าเว็บ (Sharma et คณะ 2018) เราใช้ธีมแอป Google Cloud Translation API ที่จะแปลเป็นภาษา 34 ภาษาอื่นๆ
VQ²A-CC3M-35L/VQG-CC3M-35L: ส่วนย่อยของ VQ2A-CC3M (Changpinyo และคณะ, 2022a) โดยแปลเป็นภาษา และภาษาอื่นๆ เพิ่มเติมอีก 34 ภาษาเช่นเดียวกับ CC3M-35L โดยใช้Google Cloud Translation API
OpenImages: คำถามและคำตอบเกี่ยวกับการตรวจจับและการรับรู้ออบเจ็กต์ (Piergiovanni และคณะ 2022) สร้างโดย กฎที่กำหนดเองในชุดข้อมูล OpenImages
วิทย์: รูปภาพและข้อความที่รวบรวมจากวิกิพีเดีย (ศรีนิวาสานและคณะ, 2021)

การกรองความรับผิดชอบต่อข้อมูล

ตัวกรองต่อไปนี้จะใช้กับ WebLI โดยมีเป้าหมายเพื่อการฝึก PaliGemma เกี่ยวกับข้อมูลที่สะอาด:

การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่าเป็นภาพลามกอนาจารออก ลักษณะลามกอนาจาร
การกรองความปลอดภัยของข้อความ: เราระบุและกรองรูปภาพที่จับคู่แล้วออก ด้วยข้อความที่ไม่ปลอดภัย ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวกับ CSAI, ภาพอนาจาร, คำหยาบคาย หรือไม่เหมาะสมในลักษณะอื่นๆ
การกรองข้อความเป็นพิษ: เรายังใช้ Perspective API เพื่อระบุและกรองรูปภาพที่ จับคู่กับข้อความที่ถือว่าดูหมิ่น อนาจาร แสดงความเกลียดชัง หรือเป็นภัย
การกรองข้อมูลส่วนบุคคลของข้อความ: เรากรองข้อมูลส่วนบุคคลบางรายการ และข้อมูลที่ละเอียดอ่อนอื่นๆ โดยใช้การป้องกันข้อมูลรั่วไหลของระบบคลาวด์ (DLP) API ในการปกป้อง ความเป็นส่วนตัวของปัจเจกบุคคล ตัวระบุ เช่น หมายเลขประกันสังคมและ รวมถึงได้นำข้อมูลที่ละเอียดอ่อนประเภทอื่นๆ ออกแล้ว
วิธีการเพิ่มเติม: การกรองตามคุณภาพเนื้อหาและความปลอดภัยใน สอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา

ข้อมูลการใช้งาน

ฮาร์ดแวร์

PaliGemma ได้รับการฝึกโดยใช้หน่วยประมวลผล Tensor รุ่นล่าสุด (TPU) ฮาร์ดแวร์ (TPUv5e)

ซอฟต์แวร์

การฝึกทำโดยใช้ JAX สบายๆ TFDS และ big_vision

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อการฝึกโมเดลขนาดใหญ่ที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น

TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล เผยแพร่โค้ดปรับแต่งและโค้ดการอนุมานของ PaliGemma ใน big_vision ที่เก็บ GitHub

ข้อมูลการประเมิน

ผลการเปรียบเทียบ

เพื่อยืนยันความสามารถในการโอนของ PaliGemma ไปยัง ในงานวิชาการ เราจะปรับแต่งโมเดลที่ฝึกไว้แล้วล่วงหน้าในแต่ละงาน นอกจากนี้เรายัง ฝึกโมเดลแบบผสมผสานด้วยงานการโอนที่ผสมผสานกัน เรารายงานผลลัพธ์ใน โดยใช้ความละเอียดแบบต่างๆ เพื่อแสดงให้เห็นว่างานใดได้รับประโยชน์บ้าง ความละเอียดที่เพิ่มขึ้น ที่สำคัญ งานหรือชุดข้อมูลเหล่านี้ไม่ได้เป็นส่วนหนึ่งของ ข้อมูลการฝึกล่วงหน้า และรูปภาพจะถูกนำออกจาก ข้อมูลการฝึกล่วงหน้าในระดับเว็บ

งานเดียว (ปรับแต่งในงานเดียว)

การเปรียบเทียบ (แยกรถไฟ)	เมตริก (แยก)	pt-224	pt-448	pt-896
คำบรรยายวิดีโอ
คำบรรยายแทนเสียงแบบ COCO (รถไฟ+ย้อนกลับ)	CIDEr (ค่า)	141.92	144.60
NoCaps (การโอนคำบรรยายแทนเสียง Eval of COCO)	CIDEr (ค่า)	121.72	123.58
COCO-35L (รถไฟ)	CIDEr dev (en/average-34/CPM)	139.2 115.8 116.4	141.2 118.0 118.6
XM3600 (การประเมินการโอน COCO-35L)	CIDEr dev (en/average-34/CPM)	78.1 41.3 42.4	80.0 41.9 42.9
TextCaps (รถไฟ)	CIDEr (ค่า)	127.48	153.94
SciCap (ประโยคแรก ไม่มีรูปย่อย) (train+val)	CIDE//BLEU-4 (ทดสอบ)	162.25 0.192	181.49 0.211
Screen2words (รถไฟ+การพัฒนา)	CIDEr (ทดสอบ)	117.57	119.59
วิดเจ็ตคำบรรยายแทนเสียง (train+dev)	CIDEr (ทดสอบ)	136.07	148.36
การตอบคำถาม
VQAv2 (รถไฟ+การตรวจสอบความถูกต้อง)	ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std)	83.19	85.64
MMVP (การประเมินการโอน VQAv2)	ความถูกต้องที่จับคู่	47.33	45.33
POPE (การโอน Eval of VQAv2)	ความถูกต้อง (สุ่ม/ยอดนิยม/adversarial)	87.80 85.87 84.27	88.23 86.77 85.90
OKVQA (รถไฟ)	ความถูกต้อง (val)	63.54	63.15
A-OKVQA (MC) (รถไฟ+ค่าจอดรถ)	ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ)	76.37	769.00
A-OKVQA (DA) (รถไฟ+ค่าจอดรถ)	ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ)	61.85	63.22
GQA (รถไฟยอดคงเหลือ + val_balanced)	ความแม่นยำ (testdev สมดุล)	65.61	67.03
xGQA (การประเมินการโอน GQA)	ความแม่นยำเฉลี่ย (bn, de, en, id, ko, pt, ru, zh)	58.37	59.07
NLVR2 (รถไฟ+ส่วนพัฒนา)	ความถูกต้อง (ทดสอบ)	90.02	88.93
MaRVL (การประเมินการโอน NLVR2)	ความแม่นยำเฉลี่ย (ทดสอบ) (id, sw, ta, tr, zh)	80.57	76.78
AI2D (รถไฟ)	ความถูกต้อง (ทดสอบ)	72.12	73.28
ScienceQA (ชุดย่อย Img, ไม่มี CoT) (การฝึก + ค่า)	ความถูกต้อง (ทดสอบ)	95.39	95.93
RSVQA-LR (ไม่ใช่ตัวเลข) (รถไฟ+ค่าจอดรถ)	ความแม่นยำเฉลี่ย (ทดสอบ)	92.65	93.11
RSVQA-HR (ไม่ใช่ตัวเลข) (รถไฟ+ค่าจอดรถ)	ความแม่นยำเฉลี่ย (ทดสอบ/ทดสอบ 2)	92.61 90.58	92.79 90.54
ChartQA (มนุษย์+สิงหา)x(รถไฟ+ค่า)	ความถูกต้องการผ่อนคลายเฉลี่ย (test_human, test_aug)	57.08	71.36
VizWiz VQA (รถไฟ+ค่าจอดรถ)	ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std)	73.7	75.52
TallyQA (รถไฟ)	ความถูกต้อง (test_simple/test_complex)	81.72 69.56	84.86 72.27
OCR-VQA (รถไฟ+ค่าจอดรถ)	ความถูกต้อง (ทดสอบ)	72.32	74.61	74.93
TextVQA (รถไฟ+ค่า)	ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std)	55.47	73.15	76.48
DocVQA (รถไฟ+ค่าจอดรถ)	ANLS (เซิร์ฟเวอร์ทดสอบ)	43.74	78.02	84.77
อินโฟกราฟิก VQA (รถไฟ+ค่าจอดรถ)	ANLS (เซิร์ฟเวอร์ทดสอบ)	28.46	40.47	47.75
SceneText VQA (รถไฟ + ค่ารถไฟ)	ANLS (เซิร์ฟเวอร์ทดสอบ)	63.29	81.82	84.40
การแบ่งกลุ่ม
RefCOCO (Refcoco แบบรวม, refcoco+, refcocog ไม่รวมรูปภาพ Val และรูปภาพทดสอบ)	MIoU (การตรวจสอบ) refcoco/refcoco+/refcocog	73.40 68.32 67.65	75.57 69.76 70.17	76.94 72.18 72.22
งานวิดีโอ (คำบรรยายแทนเสียง/QA)
MSR-VTT (คำบรรยายวิดีโอ)	CIDEr (ทดสอบ)	70.54
MSR-VTT (QA)	ความถูกต้อง (ทดสอบ)	50.09
ActivityNet (คำบรรยายแทนเสียง)	CIDEr (ทดสอบ)	34.62
ActivityNet (QA)	ความถูกต้อง (ทดสอบ)	50.78
VATEX (คำบรรยายภาพ)	CIDEr (ทดสอบ)	79.73
MSVD (QA)	ความถูกต้อง (ทดสอบ)	60.22

โมเดลแบบผสม (ปรับแต่งงานการโอนแบบผสม)

เปรียบเทียบ	เมตริก (แยก)	mix-224	mix-448
MMVP	ความถูกต้องที่จับคู่	460.00	45.33
POPE	ความถูกต้อง (สุ่ม/ยอดนิยม/adversarial)	88.00 86.63 85.67	89.37 88.40 87.47

เปรียบเทียบ

เมตริก (แยก)

mix-224

mix-448

MMVP

ความถูกต้องที่จับคู่

460.00

45.33

POPE

ความถูกต้อง (สุ่ม/ยอดนิยม/adversarial)

88.00

86.63

85.67

89.37

88.40

87.47

จริยธรรมและความปลอดภัย

วิธีการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและทีมสีแดงภายใน นโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงได้ดำเนินการโดย ทีมต่างๆ แต่ละคนมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน เหล่านี้ โมเดลได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากที่เกี่ยวข้องกับ จริยธรรมและความปลอดภัย ซึ่งรวมถึง

การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และ ที่นำเสนอโดยตรง ดูโมเดล Gemma บัตรสำหรับ รายละเอียดเพิ่มเติมเกี่ยวกับวิธีการประเมิน แต่มีคำบรรยายและรูปภาพ ของการตอบคำถาม
การประเมินการเปรียบเทียบแบบรูปภาพเป็นข้อความ: การเปรียบเทียบกับงานด้านวิชาการที่เกี่ยวข้อง เช่น FairFace Dataset (Karkkainen et al., 2021)

ผลการประเมิน

ผลการประเมินจากเจ้าหน้าที่สำหรับการประเมินจริยธรรมและความปลอดภัยอยู่ใน เกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามภายใน นโยบาย สำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และการแสดงตัวตน อันตราย
นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ของ 0.8) เพื่อวัดความเป็นพิษ ความหยาบคาย และความเป็นไปได้อื่นๆ ปัญหาในคำบรรยายแทนเสียงที่สร้างขึ้นสำหรับรูปภาพที่มาจาก FairFace ชุดข้อมูล เรารายงานค่าสูงสุดและค่ามัธยฐานที่สังเกตได้ในกลุ่มย่อย สำหรับแอตทริบิวต์เพศ ชาติพันธุ์ และอายุที่รับรู้แต่ละรายการ

เมตริก	เพศที่รับรู้		ชาติพันธุ์		กลุ่มอายุ
	สูงสุด	ค่ามัธยฐาน	สูงสุด	ค่ามัธยฐาน	สูงสุด	ค่ามัธยฐาน
การเป็นพิษ	0.04%	0.03%	0.08%	0.00%	0.09%	0.00%
การโจมตีข้อมูลประจำตัว	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
การดูหมิ่น	0.06%	0.04%	0.09%	0.07%	0.16%	0.00%
ภัยคุกคาม	0.06%	0.05%	0.14%	0.05%	0.17%	0.00%
คำหยาบคาย	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

การใช้งานและข้อจำกัด

วัตถุประสงค์การใช้งาน

Open Vision Language Models (VLM) มีแอปพลิเคชันมากมายใน อุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ใช่ ครอบคลุม จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของโมเดล การฝึกอบรมและการพัฒนา

ปรับแต่งงานที่ใช้ภาษาการมองเห็นที่เฉพาะเจาะจง

สามารถปรับแต่งโมเดลก่อนการฝึกได้ในภาษาการมองเห็นที่หลากหลาย งานต่างๆ เช่น การใส่คำบรรยายภาพ คำบรรยายภาพวิดีโอสั้นๆ คำถามเกี่ยวกับภาพ การตอบ การอ่านข้อความ การตรวจหาวัตถุ และการแบ่งกลุ่มวัตถุ
โมเดลก่อนการฝึกสามารถปรับแต่งอย่างละเอียดสำหรับโดเมนที่เฉพาะเจาะจง เช่น โดเมนระยะไกล การรับรู้การตอบคำถาม คำถามด้านภาพจากบุคคลที่ตาบอด การตอบคำถามทางวิทยาศาสตร์ อธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
สามารถปรับแต่งโมเดลก่อนการฝึกให้เหมาะกับงานที่มีเอาต์พุตที่ไม่ใช่ข้อความได้ เช่น กรอบล้อมรอบหรือมาสก์การแบ่งกลุ่ม

การวิจัยด้านการมองเห็น:

โมเดลก่อนการฝึกและโมเดลที่ปรับแต่งแล้วจะเป็นรากฐานสำหรับ ให้นักวิจัยทดลองเทคนิค VLM, พัฒนาอัลกอริทึม และ ส่งเสริมความก้าวหน้าในวงการนี้

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาวิสัยทัศน์ (VLM) ยกระดับจริยธรรมหลายอย่าง ของ Google ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ

อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกโดยใช้ข้อมูลข้อความรูปภาพจำนวนมากจากชีวิตจริงสามารถสะท้อนถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอน โมเดลเหล่านี้ ได้ผ่านการตรวจสอบอย่างรอบคอบและประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และ การประเมินส่วนหลังที่รายงานในการ์ดนี้
การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- ระบบอาจใช้ VLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือ เป็นอันตราย
- มีหลักเกณฑ์สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดู ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับโมเดล สถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินผล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แบ่งปัน โดยการทำให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงเทคโนโลยี VLM และ นักวิจัยในระบบนิเวศ AI

การระบุและการลดความเสี่ยง:

การคงอยู่ของอคติ: ขอแนะนำให้คุณทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจการลดการให้น้ำหนัก เทคนิคในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์สำหรับเนื้อหา ความปลอดภัยเป็นสิ่งสำคัญ ขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยเนื้อหาที่เหมาะสมโดยอิงตาม นโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและนักพัฒนา และ การให้ความรู้แก่ผู้ใช้ปลายทางช่วยลดการใช้ LLM ที่เป็นอันตรายได้ แหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด ระบุ: ดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ ข้อห้ามในการใช้งาน Gemma มีระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกกับข้อมูลที่กรองเพื่อนำออก ข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่าง ขอแนะนำให้นักพัฒนาซอฟต์แวร์ ในการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ข้อจำกัด

ข้อจำกัดส่วนใหญ่ที่รับช่วงมาจากโมเดล Gemma ที่สำคัญยังคงมีผลดังนี้
- VLM จะทำงานได้ดียิ่งขึ้น ซึ่งสามารถจัดกรอบด้วยพรอมต์ที่ชัดเจนและ วิธีทำ งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
- ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง VLM อาจไม่ค่อยเข้าใจ ถ้อยคำที่เล็กน้อยมาก การเสียดสี หรือภาษาเชิงเปรียบเทียบ
- VLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จาก ชุดข้อมูลการฝึกอบรมนี้ แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้าง ข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- VLM ใช้รูปแบบทางสถิติในภาษาและรูปภาพ โดยอาจ ขาดความสามารถในการใช้เหตุผลด้านสามัญสำนึกในบางสถานการณ์
PaliGemma ออกแบบมาเป็นอันดับหนึ่งสำหรับอันดับแรกๆ ให้เป็นเครื่องมือทั่วไปที่ฝึกล่วงหน้า เพื่อให้เหมาะกับงานเฉพาะทาง ดังนั้น ฟีเจอร์นี้ "พร้อมใช้งานทันที" หรือ "ศูนย์ช็อต" ประสิทธิภาพอาจช้ากว่าโมเดลที่ออกแบบมาเพื่อ ได้
PaliGemma ไม่ใช่แชทบ็อตแบบมัลติเทิร์น โดยออกแบบมาสำหรับ 1 รอบ รูปภาพและข้อความ