หน้าโมเดล: PaliGemma
แหล่งข้อมูลและเอกสารทางเทคนิค:
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
PaliGemma เป็นโมเดลภาษาและภาพที่ใช้งานได้หลากหลายและน้ำหนักเบา ซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์แบบเปิด เช่น โมเดลภาพ SigLIP และโมเดลภาษา Gemma โดยจะใช้ทั้งรูปภาพและข้อความเป็นอินพุตและสร้างข้อความเป็นเอาต์พุต ซึ่งรองรับหลายภาษา โมเดลนี้ออกแบบมาเพื่อปรับแต่งประสิทธิภาพให้ดีที่สุดสำหรับงานด้านภาษาและภาพที่หลากหลาย เช่น คำบรรยายแทนเสียงของรูปภาพและวิดีโอสั้น การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ
สถาปัตยกรรมโมเดล
PaliGemma ประกอบด้วยTransformer ที่ใช้ถอดรหัสและตัวแปลงรหัสภาพ Vision Transformer ซึ่งมีพารามิเตอร์ทั้งหมด 3 พันล้านรายการ ตัวถอดรหัสข้อความจะเริ่มต้นจาก Gemma-2B ตัวเข้ารหัสรูปภาพจะเริ่มต้นจาก SigLIP-So400m/14 PaliGemma ได้รับการฝึกตามสูตร PaLI-3
อินพุตและเอาต์พุต
- อินพุต: สตริงรูปภาพและข้อความ เช่น พรอมต์ให้ใส่คำบรรยายรูปภาพหรือคำถาม
- เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำบรรยายรูปภาพ คำตอบสำหรับคำถาม รายการพิกัดของขอบเขตของวัตถุ หรือคีย์เวิร์ดการแบ่งกลุ่ม
การอ้างอิง
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
ข้อมูลโมเดล
ฝึกชุดข้อมูลล่วงหน้า
PaliGemma ได้รับการฝึกล่วงหน้าด้วยชุดข้อมูลแบบผสมต่อไปนี้
- WebLI: WebLI (Web Language Image) คือชุดข้อมูลข้อความรูปภาพหลายภาษาที่สร้างขึ้นจากเว็บสาธารณะ ระบบใช้การแยก WebLI หลากหลายรูปแบบเพื่อให้ได้ความสามารถของโมเดลที่หลากหลาย เช่น การทำความเข้าใจเชิงความหมายของภาพ การระบุตำแหน่งวัตถุ การทำความเข้าใจข้อความที่แสดงภาพ ความสามารถในการทำงานหลายภาษา เป็นต้น
- CC3M-35L: คู่รูปภาพ-alt_text ภาษาอังกฤษที่ได้รับการดูแลจัดการจากหน้าเว็บ (Sharma et al., 2018) เราใช้ Google Cloud Translation API เพื่อแปลเป็นภาษาอื่นๆ อีก 34 ภาษา
- VQ²A-CC3M-35L/VQG-CC3M-35L: ชุดย่อยของ VQ2A-CC3M (Changpinyo et al., 2022a) แปลเป็นภาษาอื่นๆ อีก 34 ภาษาเดียวกับ CC3M-35L โดยใช้ Google Cloud Translation API
- OpenImages: คำถามและคำตอบที่ตรวจจับและรับรู้วัตถุ (Piergiovanni et al. 2022) ซึ่งสร้างขึ้นจากกฎที่เขียนขึ้นเองในชุดข้อมูล OpenImages
- WIT: รูปภาพและข้อความที่รวบรวมจาก Wikipedia (Srinivasan et al., 2021)
การกรองความรับผิดชอบต่อข้อมูล
ตัวกรองต่อไปนี้ใช้กับ WebLI โดยมีเป้าหมายเพื่อฝึก PaliGemma ด้วยข้อมูลที่สะอาด
- การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่ามีเนื้อหาลามกอนาจารออก
- การกรองความปลอดภัยของข้อความ: เราจะระบุและกรองรูปภาพที่จับคู่กับข้อความที่ไม่ปลอดภัยออก ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวข้องกับภาพการล่วงละเมิดทางเพศเด็ก (CSAI) ภาพอนาจาร คําหยาบคาย หรือเป็นการสร้างความไม่พอใจ
- การกรองข้อความที่เป็นพิษ: เราใช้ Perspective API เพิ่มเติมเพื่อระบุและกรองรูปภาพที่จับคู่กับข้อความที่ถือว่าเป็นการดูหมิ่น ลามก แสดงความเกลียดชัง หรือเป็นพิษออก
- การกรองข้อมูลส่วนบุคคลในข้อความ: เรากรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ โดยใช้ Cloud Data Loss Prevention (DLP) API เพื่อปกป้องความเป็นส่วนตัวของบุคคล ระบบได้นำตัวระบุ เช่น หมายเลขประกันสังคมและข้อมูลประเภทอื่นๆ ที่เป็นข้อมูลลับออกแล้ว
- วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา
ข้อมูลการใช้งาน
ฮาร์ดแวร์
PaliGemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)
ซอฟต์แวร์
การฝึกอบรมเสร็จสมบูรณ์แล้วโดยใช้ JAX,
Flax,
TFDS และ
big_vision
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น
TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล โค้ดการปรับแต่ง PaliGemma และโค้ดการอนุมานจะเผยแพร่ในที่เก็บ big_vision
GitHub
ข้อมูลการประเมิน
ผลลัพธ์การเปรียบเทียบ
เราได้ปรับแต่งโมเดลที่ผ่านการฝึกล่วงหน้าสำหรับแต่ละงานเพื่อยืนยันความสามารถในการนํา PaliGemma ไปใช้กับงานวิชาการที่หลากหลาย นอกจากนี้ เรายังฝึกโมเดลการผสมด้วยงานโอนที่หลากหลาย เรารายงานผลลัพธ์ในการแก้ปัญหาที่ระดับความละเอียดต่างๆ เพื่อให้ทราบว่างานใดบ้างที่จะได้รับประโยชน์จากการแก้ปัญหาที่ระดับความละเอียดสูงขึ้น ที่สำคัญคือ งานหรือชุดข้อมูลเหล่านี้ไม่ได้เป็นส่วนหนึ่งของชุดข้อมูลแบบผสมสำหรับการเตรียมล่วงหน้า และระบบจะนำรูปภาพออกจากชุดข้อมูลการเตรียมล่วงหน้าสำหรับเว็บอย่างชัดเจน
งานเดียว (ปรับแต่งงานเดียว)
เบนช์มาร์ก (การแยกกลุ่มทดสอบ) | เมตริก (แยก) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
คำบรรยายวิดีโอ | ||||
คำบรรยาย COCO (train+restval) | CIDEr (val) | 141.92 | 144.60 | |
NoCaps (Eval of COCO captions transfer) | CIDEr (val) | 121.72 | 123.58 | |
COCO-35L (รถไฟ) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (การประเมินการโอน COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (ฝึก) | CIDEr (val) | 127.48 | 153.94 | |
SciCap (ประโยคแรก ไม่มีรูปย่อย) (ชุดฝึก + ชุดทดสอบ) | CIDEr/BLEU-4 (ทดสอบ) |
|
|
|
Screen2words (train+dev) | CIDEr (ทดสอบ) | 117.57 | 119.59 | |
คำบรรยายแทนเสียงของวิดเจ็ต (เทรน+พัฒนา) | CIDEr (ทดสอบ) | 136.07 | 148.36 | |
การตอบคําถาม | ||||
VQAv2 (ชุดข้อมูลการฝึก+ชุดข้อมูลที่ใช้ตรวจสอบ) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 83.19 | 85.64 | |
MMVP (การประเมินการโอน VQAv2) | ความแม่นยำของคู่ | 47.33 | 45.33 | |
POPE (การประเมินการโอน VQAv2) | ความแม่นยำ (สุ่ม/ยอดนิยม/โจ่งแจ้ง) |
|
|
|
OKVQA (รถไฟ) | ความถูกต้อง (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (train+val) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ) | 76.37 | 76.90 | |
A-OKVQA (DA) (train+val) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | ความแม่นยำ (testdev แบบสมดุล) | 65.61 | 67.03 | |
xGQA (การประเมินการโอน GQA) | ความแม่นยำเฉลี่ย (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (train+dev) | ความแม่นยำ (การทดสอบ) | 90.02 | 88.93 | |
MaRVL (การประเมินการโอน NLVR2) | ความแม่นยำเฉลี่ย (การทดสอบ) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (รถไฟ) | ความแม่นยำ (การทดสอบ) | 72.12 | 73.28 | |
ScienceQA (ชุดย่อยของรูปภาพ ไม่มี CoT) (ชุดฝึก + ชุดทดสอบ) | ความแม่นยำ (การทดสอบ) | 95.39 | 95.93 | |
RSVQA-LR (ไม่ใช่ตัวเลข) (train+val) | ความถูกต้องเฉลี่ย (การทดสอบ) | 92.65 | 93.11 | |
RSVQA-HR (ไม่ใช่ตัวเลข) (train+val) | ความถูกต้องเฉลี่ย (test/test2) |
|
|
|
ChartQA (human+aug)x(train+val) | ความแม่นยำแบบไม่เข้มงวดโดยเฉลี่ย (test_human, test_aug) | 57.08 | 71.36 | |
VizWiz VQA (train+val) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 73.7 | 75.52 | |
TallyQA (รถไฟ) | ความถูกต้อง (test_simple/test_complex) |
|
|
|
OCR-VQA (ชุดฝึก+ชุดทดสอบ) | ความแม่นยำ (การทดสอบ) | 72.32 | 74.61 | 74.93 |
TextVQA (ชุดฝึก+ชุดทดสอบ) | ความถูกต้อง (เซิร์ฟเวอร์ทดสอบ - std) | 55.47 | 73.15 | 76.48 |
DocVQA (ชุดฝึก+ชุดทดสอบ) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 43.74 | 78.02 | 84.77 |
VQA ของอินโฟกราฟิก (ชุดฝึก+ชุดทดสอบ) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 28.46 | 40.47 | 47.75 |
SceneText VQA (train+val) | ANLS (เซิร์ฟเวอร์ทดสอบ) | 63.29 | 81.82 | 84.40 |
การแบ่งกลุ่ม | ||||
RefCOCO (รวม refcoco, refcoco+, refcocog ยกเว้นรูปภาพ val และ test) | MIoU (validation) refcoco/refcoco+/refcocog |
|
|
|
งานวิดีโอ (คำบรรยายแทนเสียง/QA) | ||||
MSR-VTT (คำบรรยายแทนเสียง) | CIDEr (ทดสอบ) | 70.54 | ||
MSR-VTT (QA) | ความแม่นยำ (การทดสอบ) | 50.09 | ||
ActivityNet (คำบรรยายแทนเสียง) | CIDEr (ทดสอบ) | 34.62 | ||
ActivityNet (QA) | ความแม่นยำ (การทดสอบ) | 50.78 | ||
VATEX (คำบรรยายแทนเสียง) | CIDEr (ทดสอบ) | 79.73 | ||
MSVD (QA) | ความแม่นยำ (การทดสอบ) | 60.22 |
โมเดลการผสม (ปรับแต่งการผสมงานการโอน)
เปรียบเทียบ | เมตริก (แยก) | mix-224 | mix-448 |
---|---|---|---|
MMVP | ความแม่นยำของคู่ | 46.00 | 45.33 |
POPE | ความแม่นยำ (สุ่ม/ยอดนิยม/โจ่งแจ้ง) |
|
|
จริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง
- การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่เกี่ยวข้องกับความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอ ดูรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการประเมินได้ในการ์ดรูปแบบของ Gemma แต่ใช้การตั้งค่าคำบรรยายแทนเสียงของรูปภาพและการตอบคำถามด้วยภาพ
- การประเมินการเปรียบเทียบกับมาตรฐานของเทคโนโลยีการแปลงรูปภาพเป็นข้อความ: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น ชุดข้อมูล FairFace (Karkkainen et al., 2021)
ผลการประเมิน
- ผลการตัดสินด้านจริยธรรมและความปลอดภัยจากเจ้าหน้าที่อยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอ
- นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ 0.8) เพื่อวัดระดับความเป็นพิษ คำหยาบคาย และปัญหาอื่นๆ ที่อาจเกิดขึ้นในคำบรรยายแทนเสียงที่สร้างขึ้นสำหรับรูปภาพซึ่งมาจากชุดข้อมูล FairFace เรารายงานค่าสูงสุดและค่ามัธยฐานที่พบในกลุ่มย่อยสำหรับแอตทริบิวต์เพศ เชื้อชาติ และอายุที่รับรู้แต่ละรายการ
เมตริก | เพศที่รับรู้ | ชาติพันธุ์ | กลุ่มอายุ | |||
---|---|---|---|---|---|---|
สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | สูงสุด | ค่ามัธยฐาน | |
ความเป็นพิษ | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
การโจมตีข้อมูลประจำตัว | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Insult | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
ภัยคุกคาม | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
คำหยาบคาย | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
การใช้งานและข้อจำกัด
วัตถุประสงค์การใช้งาน
โมเดลภาษา Open Vision (VLM) มีแอปพลิเคชันหลากหลายประเภทในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
ปรับแต่งงานการมองเห็นและภาษาที่เฉพาะเจาะจง
- โมเดลที่ฝึกล่วงหน้าสามารถปรับแต่งให้เหมาะกับงานด้านภาษาและภาพที่หลากหลาย เช่น การใส่คำบรรยายแทนเสียงของรูปภาพ คำบรรยายแทนเสียงของวิดีโอสั้น การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ
- โมเดลที่ผ่านการฝึกอบรมล่วงหน้าสามารถปรับแต่งให้เหมาะกับโดเมนที่เฉพาะเจาะจง เช่น การตอบคำถามเกี่ยวกับเซ็นเซอร์ระยะไกล คำถามเกี่ยวกับภาพจากคนตาบอด การตอบคำถามเกี่ยวกับวิทยาศาสตร์ การอธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
- โมเดลที่ผ่านการฝึกล่วงหน้าสามารถปรับแต่งได้ละเอียดสำหรับงานที่ให้เอาต์พุตที่ไม่ใช่ข้อความ เช่น ขอบเขตหรือมาสก์การแบ่งเขต
การวิจัยเกี่ยวกับภาษาที่มองเห็นได้
- โมเดลที่ฝึกล่วงหน้าและโมเดลที่ปรับแต่งอย่างละเอียดจะเป็นรากฐานสําหรับนักวิจัยในการทดสอบเทคนิค VLM, พัฒนาอัลกอริทึม และช่วยพัฒนาวงการนี้
ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง
การพัฒนาโมเดลการมองเห็นและภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความเป็นธรรม
- VLM ที่ฝึกด้วยข้อมูลข้อความและรูปภาพในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และมีการรายงานการประเมินผลในภายหลังในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่ใช้อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี VLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และ Use Case อื่นๆ
- การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการรักษาความปลอดภัยด้านเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานสำหรับผู้ใช้ในการแจ้งว่ามีการละเมิด โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่างออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ข้อจำกัด
- ข้อจํากัดส่วนใหญ่ที่รับค่ามาจากโมเดล Gemma พื้นฐานจะยังคงมีผลอยู่
- VLM ทำงานได้ดีกว่ากับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ VLM อาจจับประเด็นที่ซับซ้อน การเสียดสี หรือภาษาเชิงอุปมาอุปไมยได้ยาก
- VLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- VLM ใช้รูปแบบทางสถิติในภาษาและรูปภาพ บุคคลดังกล่าวอาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
- PaliGemma ได้รับการออกแบบมาเพื่อใช้เป็นโมเดลทั่วไปที่ผ่านการฝึกล่วงหน้าสำหรับการปรับแต่งงานเฉพาะทาง ด้วยเหตุนี้ ประสิทธิภาพ "พร้อมใช้งานทันที" หรือ "จากศูนย์" จึงอาจล้าหลังกว่าโมเดลที่ออกแบบมาเพื่อการใช้งานทั่วไปโดยเฉพาะ
- PaliGemma ไม่ใช่แชทบ็อตแบบหลายรอบ เครื่องมือนี้ออกแบบมาสำหรับการป้อนรูปภาพและข้อความเพียงรอบเดียว