การ์ดรุ่น PaliGemma 2

หน้าโมเดล: PaliGemma

แหล่งข้อมูลและเอกสารทางเทคนิค:

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

PaliGemma 2 เป็นการอัปเดตโมเดลภาษาที่ได้จากภาพ (VLM) ของ PaliGemma ซึ่งรวมความสามารถของโมเดล Gemma 2 ไว้ด้วย โมเดล PaliGemma ได้รับแรงบันดาลใจจาก PaLI-3 และอิงตามคอมโพเนนต์แบบเปิด เช่น โมเดลการมองเห็น SigLIP และโมเดลภาษา Gemma 2 โดยระบบจะรับทั้งรูปภาพและข้อความเป็นอินพุตและสร้างข้อความเป็นเอาต์พุต ซึ่งรองรับหลายภาษา โมเดลนี้ออกแบบมาเพื่อปรับแต่งประสิทธิภาพให้ดีที่สุดสำหรับงานด้านภาษาและภาพที่หลากหลาย เช่น คำบรรยายแทนเสียงของรูปภาพและวิดีโอสั้น การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ

สถาปัตยกรรมโมเดล

PaliGemma 2 ประกอบด้วยตัวถอดรหัส Transformer และโปรแกรมเข้ารหัสรูปภาพ Vision Transformer ตัวถอดรหัสข้อความจะเริ่มต้นจาก Gemma 2 ในขนาดพารามิเตอร์ 2B, 9B และ 27B โปรแกรมเข้ารหัสรูปภาพจะเริ่มต้นจาก SigLIP-So400m/14 PaliGemma 2 ได้รับการฝึกตามสูตร PaLI-3 เช่นเดียวกับโมเดล PaliGemma เวอร์ชันแรก

อินพุตและเอาต์พุต

  • อินพุต: สตริงรูปภาพและข้อความ เช่น พรอมต์ให้ใส่คำบรรยายรูปภาพหรือคำถาม
  • เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำบรรยายรูปภาพ คำตอบสำหรับคำถาม รายการพิกัดของกล่องขอบเขตของวัตถุ หรือคีย์เวิร์ดการแบ่งกลุ่ม

การอ้างอิง

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

ข้อมูลโมเดล

ฝึกชุดข้อมูลล่วงหน้า

PaliGemma 2 ได้รับการฝึกล่วงหน้าด้วยชุดข้อมูลที่ผสมผสานกันดังต่อไปนี้

  • WebLI: WebLI (Web Language Image) คือชุดข้อมูลข้อความรูปภาพหลายภาษาสเกลเว็บที่สร้างขึ้นจากเว็บสาธารณะ ระบบจะใช้การแยก WebLI หลากหลายรูปแบบเพื่อให้ได้ความสามารถของโมเดลที่หลากหลาย เช่น การทำความเข้าใจเชิงความหมายของภาพ การระบุตำแหน่งวัตถุ การทำความเข้าใจข้อความที่แสดงภาพ และความสามารถในการทำงานหลายภาษา
  • CC3M-35L: คู่รูปภาพ-alt_text ภาษาอังกฤษที่ได้รับการดูแลจัดการจากหน้าเว็บ (Sharma et al., 2018) เราใช้ Google Cloud Translation API เพื่อแปลเป็นภาษาอื่นๆ อีก 34 ภาษา
  • VQ²A-CC3M-35L/VQG-CC3M-35L: ชุดย่อยของ VQ2A-CC3M (Changpinyo et al., 2022a) ซึ่งแปลเป็นภาษาอื่นๆ อีก 34 ภาษาเช่นเดียวกับ CC3M-35L โดยใช้ Google Cloud Translation API
  • OpenImages: คำถามและคำตอบที่ตรวจจับและรับรู้วัตถุ (Piergiovanni et al. 2022) ซึ่งสร้างขึ้นจากกฎที่เขียนขึ้นเองในชุดข้อมูล OpenImages
  • WIT: รูปภาพและข้อความที่รวบรวมจาก Wikipedia (Srinivasan et al., 2021)

PaliGemma 2 อิงตาม Gemma 2 และคุณสามารถดูข้อมูลเกี่ยวกับชุดข้อมูลการฝึกล่วงหน้าสําหรับ Gemma 2 ได้ในการ์ดโมเดล Gemma 2

การกรองความรับผิดชอบต่อข้อมูล

ระบบใช้ตัวกรองต่อไปนี้กับ WebLI โดยมีเป้าหมายเพื่อฝึก PaliGemma 2 เกี่ยวกับข้อมูลที่ปลอดภัยและมีความรับผิดชอบ

  • การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่ามีเนื้อหาลามกอนาจารออก
  • การกรองความปลอดภัยของข้อความ: เราจะระบุและกรองรูปภาพที่จับคู่กับข้อความที่ไม่ปลอดภัยออก ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวข้องกับภาพการล่วงละเมิดทางเพศเด็ก (CSAI) ภาพอนาจาร คําหยาบคาย หรือเป็นการสร้างความไม่พอใจ
  • การกรองข้อความที่เป็นพิษ: เราใช้ Perspective API เพิ่มเติมเพื่อระบุและกรองรูปภาพที่จับคู่กับข้อความที่ถือว่าเป็นการดูหมิ่น ลามก แสดงความเกลียดชัง หรือเป็นพิษออก
  • การกรองข้อมูลส่วนบุคคลในข้อความ: เรากรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ โดยใช้ Cloud Data Loss Prevention (DLP) API เพื่อปกป้องความเป็นส่วนตัวของบุคคล ระบบได้นำตัวระบุ เช่น หมายเลขประกันสังคมและข้อมูลประเภทอื่นๆ ที่เป็นข้อมูลลับออกแล้ว
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา

ข้อมูลการใช้งาน

ฮาร์ดแวร์

PaliGemma 2 ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)

ซอฟต์แวร์

การฝึกอบรมเสร็จสมบูรณ์แล้วโดยใช้ JAX, Flax, TFDS และ big_vision

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น

TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล โค้ดการปรับแต่งอย่างละเอียดและโค้ดการอนุมานของ PaliGemma 2 จะเผยแพร่ในที่เก็บ GitHub big_vision

ข้อมูลการประเมิน

ผลลัพธ์การเปรียบเทียบ

เราได้ปรับแต่งโมเดลที่ผ่านการฝึกล่วงหน้าสำหรับแต่ละงานเพื่อยืนยันความสามารถในการนํา PaliGemma 2 ไปใช้กับงานวิชาการที่หลากหลาย เรารายงานผลลัพธ์เกี่ยวกับความละเอียดต่างๆ เพื่อให้ทราบว่างานใดบ้างที่ได้รับประโยชน์จากความละเอียดที่เพิ่มขึ้น ที่สำคัญคือ ไม่มีงานหรือชุดข้อมูลใดเป็นส่วนหนึ่งของชุดข้อมูลการเทรนล่วงหน้า และระบบจะนำรูปภาพออกจากชุดข้อมูลการเทรนล่วงหน้าสำหรับเว็บอย่างชัดเจน

ผลลัพธ์ของ PaliGemma 2 ตามความละเอียดและขนาดของรุ่น

เปรียบเทียบ 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (เฉลี่ย) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (เจ้าหน้าที่) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (ทดสอบ) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (ทดสอบ) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (ซับซ้อน) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (แบบง่าย) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (avg7) 58.6 61.4 61.1 60.4 62.6 62.1

การเปรียบเทียบเพิ่มเติม

ICDAR 2015 Incidental

รุ่น ความแม่นยำ การจดจำ F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

รุ่น ความแม่นยำ การจดจำ F1
PaliGemma 2 3B 73.8 74.54 74.17

FinTabNet

รุ่น S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

รุ่น S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

รุ่น CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B, ตรงกันทั้งหมด: 94.8

DOCCI

รุ่น avg#char avg#sent NES %
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: จํานวนตัวอักขระเฉลี่ย
  • avg#sent: จํานวนประโยคเฉลี่ย
  • NES: ประโยคที่ไม่เป็นไปตามความน่าจะเป็น

MIMIC-CXR

รุ่น CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

การคิดเชิงพื้นที่ด้วยภาพ

รุ่น VSR zeroshot split (test) VSR แบบสุ่ม (การทดสอบ)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

จริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินด้านจริยธรรมและความปลอดภัยที่มีโครงสร้างในนโยบายเนื้อหาที่เกี่ยวข้อง ซึ่งรวมถึงนโยบายต่อไปนี้

  • การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่เกี่ยวข้องกับความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอ ดูรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการประเมินได้ในการ์ดรูปแบบ Gemma แต่ใช้การตั้งค่าคำบรรยายแทนข้อความและการตั้งค่าการตอบคำถามด้วยภาพ
  • การประเมินการเปรียบเทียบกับมาตรฐานของเทคโนโลยีการแปลงรูปภาพเป็นข้อความ: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น ชุดข้อมูล FairFace (Karkkainen et al., 2021)

ผลการประเมิน

  • ผลการตัดสินด้านจริยธรรมและความปลอดภัยจากเจ้าหน้าที่อยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอ
  • นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ 0.8) เพื่อวัดระดับความเป็นพิษ คำหยาบคาย และปัญหาอื่นๆ ที่อาจเกิดขึ้นในคำบรรยายแทนเสียงที่สร้างขึ้นสำหรับรูปภาพซึ่งมาจากชุดข้อมูล FairFace เรารายงานค่าสูงสุดและค่ามัธยฐานที่พบในกลุ่มย่อยสำหรับแอตทริบิวต์เพศ เชื้อชาติ และอายุที่รับรู้แต่ละรายการ
เมตริก เพศที่รับรู้ ชาติพันธุ์ กลุ่มอายุ
ขนาดโมเดล 3 พันล้าน 10,000 ล้าน 28B 3 พันล้าน 10,000 ล้าน 28B 3 พันล้าน 10,000 ล้าน 28B
สูงสุด
ความเป็นพิษ 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
การโจมตีข้อมูลประจำตัว 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
Insult 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
ภัยคุกคาม 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
คำหยาบคาย 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
ค่ามัธยฐาน
ความเป็นพิษ 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
การโจมตีข้อมูลประจำตัว 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insult 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
ภัยคุกคาม 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
คำหยาบคาย 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

การใช้งานและข้อจำกัด

วัตถุประสงค์การใช้งาน

โมเดลภาษา Open Vision (VLM) มีแอปพลิเคชันหลากหลายประเภทในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma

ปรับแต่งงานด้านภาษาที่มองเห็นได้โดยเฉพาะ

  • โมเดลที่ฝึกล่วงหน้าสามารถปรับแต่งให้เหมาะกับงานด้านภาษาและภาพที่หลากหลาย เช่น การใส่คำบรรยายแทนเสียงของรูปภาพ คำบรรยายแทนเสียงของวิดีโอสั้น การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแยกแยะวัตถุ
  • โมเดลที่ผ่านการฝึกอบรมล่วงหน้าสามารถปรับแต่งให้เหมาะกับโดเมนที่เฉพาะเจาะจง เช่น การตอบคำถามเกี่ยวกับเซ็นเซอร์ระยะไกล คำถามเกี่ยวกับภาพจากคนตาบอด การตอบคำถามเกี่ยวกับวิทยาศาสตร์ การอธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
  • โมเดลที่ผ่านการฝึกล่วงหน้าสามารถปรับแต่งได้ละเอียดสำหรับงานที่ให้เอาต์พุตที่ไม่ใช่ข้อความ เช่น ขอบเขตหรือมาสก์การแบ่งเขต

การวิจัยเกี่ยวกับภาษาที่มองเห็นได้

  • โมเดลที่ฝึกล่วงหน้าและโมเดลที่ปรับแต่งอย่างละเอียดจะเป็นรากฐานสําหรับนักวิจัยในการทดสอบเทคนิค VLM, พัฒนาอัลกอริทึม และช่วยพัฒนาวงการนี้

ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง

การพัฒนาโมเดลการมองเห็นและภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความเป็นธรรม
    • VLM ที่ฝึกด้วยข้อมูลข้อความและรูปภาพในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และมีการรายงานการประเมินผลในภายหลังในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี VLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้

ความเสี่ยงที่พบและการลดความเสี่ยง

  • การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และ Use Case อื่นๆ
  • การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการรักษาความปลอดภัยด้านเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานสำหรับผู้ใช้ในการแจ้งว่ามีการละเมิด โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่างออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ข้อจำกัด

  • ข้อจำกัดส่วนใหญ่ที่รับช่วงมาจากโมเดล Gemma 2 พื้นฐานยังคงมีผลอยู่
    • VLM เหมาะกับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
    • ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ VLM อาจจับประเด็นที่ซับซ้อน การเสียดสี หรือภาษาเชิงอุปมาอุปไมยได้ยาก
    • VLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
    • VLM อาศัยรูปแบบทางสถิติในภาษาและรูปภาพ บุคคลดังกล่าวอาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
  • PaliGemma 2 ได้รับการออกแบบมาเพื่อใช้เป็นโมเดลทั่วไปที่ผ่านการฝึกล่วงหน้าสำหรับการปรับแต่งเฉพาะงาน ด้วยเหตุนี้ ประสิทธิภาพ "พร้อมใช้งานทันที" หรือ "จากศูนย์" จึงอาจล้าหลังกว่าโมเดลที่ออกแบบมาเพื่อการใช้งานทั่วไปโดยเฉพาะ
  • PaliGemma 2 ไม่ใช่แชทบ็อตแบบหลายรอบ เครื่องมือนี้ออกแบบมาสำหรับการป้อนรูปภาพและข้อความเพียงรอบเดียว