การ์ดโมเดล PaliGemma

หน้าโมเดล: PaliGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการให้บริการ: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

PaliGemma เป็นโมเดลภาษาการมองเห็น (VLM) อเนกประสงค์และน้ำหนักเบา ซึ่งได้รับแรงบันดาลใจจาก PaLI-3 และสร้างจากองค์ประกอบแบบเปิด เช่น โมเดลการมองเห็นของ SigLIP และโมเดลภาษา Gemma วิธีนี้ใช้ทั้งรูปภาพและข้อความเป็นอินพุต และสร้างข้อความเป็นเอาต์พุต ซึ่งรองรับหลายภาษา โดยได้รับการออกแบบมาเพื่อปรับแต่งประสิทธิภาพระดับชั้นนำของชั้นเรียนสำหรับงานต่างๆ ด้านภาษาเกี่ยวกับการมองเห็น เช่น คำอธิบายภาพและวิดีโอสั้นๆ การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ

สถาปัตยกรรมโมเดล

PaliGemma เป็นองค์ประกอบหนึ่งของเครื่องมือถอดรหัส Transformer และเครื่องมือเข้ารหัสรูปภาพของ Vision Transformer ซึ่งมีพารามิเตอร์ทั้งหมด 3 พันล้านรายการ ตัวถอดรหัสข้อความจะเริ่มต้นจาก Gemma-2B โปรแกรมเปลี่ยนไฟล์รูปภาพเริ่มต้นจาก SigLIP-So400m/14 PaliGemma ได้รับการฝึกตามสูตร PaLI-3

อินพุตและเอาต์พุต

  • อินพุต: สตริงรูปภาพและข้อความ เช่น พรอมต์ให้คำบรรยายรูปภาพหรือคำถาม
  • เอาต์พุต: ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำอธิบายภาพ คำตอบสำหรับคำถาม รายการพิกัดของกรอบออบเจ็กต์ที่ล้อมรอบ หรือโค้ดคำของกลุ่ม

ข้อมูลโมเดล

ชุดข้อมูลก่อนการฝึก

PaliGemma ได้รับการฝึกล่วงหน้าโดยใช้ชุดข้อมูลต่อไปนี้

  • WebLI: WebLI (รูปภาพภาษาบนเว็บ) คือชุดข้อมูลข้อความรูปภาพหลายภาษาระดับเว็บที่สร้างขึ้นจากเว็บสาธารณะ เราใช้การแยก WebLI ที่หลากหลายเพื่อให้ได้ความสามารถของโมเดลที่ใช้งานได้หลากหลาย เช่น ความเข้าใจในความหมายภาพ การแปลวัตถุ การทำความเข้าใจข้อความที่แสดงเป็นภาพ หลายภาษา เป็นต้น
  • CC3M-35L: คู่รูปภาพ-alt_text ภาษาอังกฤษที่ดูแลจัดการจากหน้าเว็บ (Sharma et al., 2018) เราใช้ Google Cloud Translation API เพื่อแปลเป็นภาษาเพิ่มเติม 34 ภาษา
  • VQ²A-CC3M-35L/VQG-CC3M-35L: ชุดย่อยของ VQ2A-CC3M (Changpinyo et al., 2022a) ซึ่งแปลเป็นภาษาอื่นๆ อีก 34 ภาษาเช่นเดียวกับ CC3M-35L โดยใช้ Google Cloud Translation API
  • OpenImages: การตรวจจับและคำถามและคำตอบเกี่ยวกับออบเจ็กต์ (Piergiovanni et al. 2022) ที่สร้างขึ้นโดย กฎที่สร้างขึ้นเองในชุดข้อมูล OpenImages
  • WIT: รูปภาพและข้อความที่รวบรวมจาก Wikipedia (Srinivasan และ al., 2021)

การกรองความรับผิดชอบเกี่ยวกับข้อมูล

ตัวกรองต่อไปนี้จะใช้กับ WebLI โดยมีเป้าหมายเพื่อฝึก PaliGemma เกี่ยวกับข้อมูลที่สะอาด

  • การกรองรูปภาพลามกอนาจาร: ตัวกรองนี้จะนํารูปภาพที่ถือว่ามีลักษณะลามกอนาจารออก
  • การกรองความปลอดภัยของข้อความ: เราระบุและกรองรูปภาพที่จับคู่อยู่กับข้อความที่ไม่ปลอดภัยออก ข้อความที่ไม่ปลอดภัยคือข้อความที่ถือว่ามีหรือเกี่ยวกับ CSAI ภาพอนาจาร ภาษาหยาบคาย หรือไม่เหมาะสม
  • การกรองข้อความที่ไม่เหมาะสม: เราใช้ Perspective API เพื่อระบุและกรองรูปภาพที่จับคู่กับข้อความที่ถือว่าเป็นการดูถูก อนาจาร แสดงความเกลียดชัง หรือเป็นเนื้อหาที่ไม่เหมาะสมออก
  • การกรองข้อมูลส่วนบุคคลที่เป็นข้อความ: เรากรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกโดยใช้ Cloud Data Loss Prevention (DLP) API เพื่อปกป้องความเป็นส่วนตัวของแต่ละบุคคล มีการนำตัวระบุ เช่น หมายเลขประกันสังคมและข้อมูลที่ละเอียดอ่อนประเภทอื่นๆ ออก
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาโดยสอดคล้องกับนโยบายและแนวทางปฏิบัติของเรา

ข้อมูลการใช้งาน

ฮาร์ดแวร์

PaliGemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)

ซอฟต์แวร์

ฝึกอบรมโดยใช้ JAX, Flax, TFDS และ big_vision

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU ในการฝึกโมเดลขนาดใหญ่ได้อย่างรวดเร็วและมีประสิทธิภาพยิ่งขึ้น

TFDS ใช้เพื่อเข้าถึงชุดข้อมูล ส่วน Flax ใช้สำหรับสถาปัตยกรรมโมเดล ระบบได้เผยแพร่โค้ดปรับแต่งและโค้ดอนุมานของ PaliGemma ในbig_vision ที่เก็บของ GitHub

ข้อมูลการประเมิน

ผลลัพธ์การเปรียบเทียบ

เพื่อตรวจสอบความสามารถในการถ่ายโอนของ PaliGemma ไปยังงานด้านวิชาการต่างๆ เราได้ปรับแต่งโมเดลที่ฝึกไว้แล้วล่วงหน้าในแต่ละงาน นอกจากนี้ เรายังฝึกโมเดลมิกซ์ด้วยงานการโอนที่ผสมผสานกันอีกด้วย เรารายงานผลลัพธ์ของความละเอียดต่างๆ เพื่อให้เข้าใจว่างานใดได้รับประโยชน์จากความละเอียดที่เพิ่มขึ้น ที่สำคัญคือไม่มีงานหรือชุดข้อมูลเหล่านี้เป็นส่วนหนึ่งของการผสมผสานข้อมูลก่อนการฝึก และระบบจะนำรูปภาพออกจากข้อมูลการฝึกล่วงหน้าสำหรับสเกลเว็บอย่างชัดเจน

งานเดียว (ปรับแต่งให้กับงานเดียว)

การเปรียบเทียบ (การแยกรถไฟ) เมตริก (แยก) pt-224 pt-448 pt-896
คำบรรยายวิดีโอ
คำบรรยายแทนเสียง COCO (รถไฟ + restval) CIDEr (ค่า) 141.92 144.60
NoCaps (Eval ของการโอนคำบรรยาย COCO) CIDEr (ค่า) 121.72 123.58
COCO-35L (รถไฟ) CIDEr dev (th/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (ค่าประมาณการโอน COCO-35L) CIDEr dev (th/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (รถไฟ) CIDEr (ค่า) 127.48 153.94
SciCap (ประโยคแรก ไม่มีรูปแบบย่อย) (train+val) CIDEr/BLEU-4 (ทดสอบ)
162.25
0.192
181.49
0.211
Screen2words (ฝึกฝน+dev) CIDE (ทดสอบ) 117.57 1195.90 THB
คำบรรยายภาพของวิดเจ็ต (train+dev) CIDE (ทดสอบ) 136.07 148.36
การตอบคำถาม
VQAv2 (รถไฟ+การตรวจสอบความถูกต้อง) ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) 83.19 85.64
MMVP (Eval ของการโอน VQAv2) ความแม่นยำที่จับคู่ 47.33 45.33
POPE (Eval ของการโอน VQAv2) ความถูกต้อง (สุ่ม/ยอดนิยม/ที่ไม่พึงประสงค์)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (รถไฟ) ความแม่นยำ (val) 63.54 63.15
A-OKVQA (MC) (รถไฟ+วาล) ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ) 76.37 769.00 THB
A-OKVQA (DA) (รถไฟ+V) ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ) 61.85 63.22
GQA (train_balanced+val_balanced) ความแม่นยำ (ทดสอบแบบสมดุล) 65.61 67.03
xGQA (Eval ของการโอน GQA) ความแม่นยำเฉลี่ย (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (รถไฟ+นักพัฒนาซอฟต์แวร์) ความแม่นยำ (ทดสอบ) 90.02 88.93
MaRVL (Eval ของการโอน NLVR2) ความแม่นยำเฉลี่ย (ทดสอบ) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (รถไฟ) ความแม่นยำ (ทดสอบ) 72.12 73.28
ScienceQA (ชุดย่อยของ Img, ไม่มี CoT) (train+val) ความแม่นยำ (ทดสอบ) 95.39 95.93
RSVQA-LR (ไม่ใช่ตัวเลข) (train+val) ความแม่นยำเฉลี่ย (ทดสอบ) 92.65 93.11
RSVQA-HR (ไม่ใช่ตัวเลข) (train+val) ความแม่นยำเฉลี่ย (ทดสอบ/ทดสอบ 2)
92.61
90.58
92.79
90.54
ChartQA (มนุษย์+aug)x(รถไฟ+วาล) ค่าเฉลี่ยความแม่นยำแสนผ่อนคลาย (test_human, test_aug) 57.08 71.36
VizWiz VQA (รถไฟ+V) ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) 73.7 75.52
TallyQA (รถไฟ) ความแม่นยำ (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (รถไฟ+V) ความแม่นยำ (ทดสอบ) 72.32 74.61 74.93
TextVQA (รถไฟ+V) ความแม่นยำ (เซิร์ฟเวอร์ทดสอบ - STD) 55.47 73.15 76.48
DocVQA (รถไฟ+V) ANLS (เซิร์ฟเวอร์ทดสอบ) 43.74 78.02 84.77
อินโฟกราฟิก VQA (รถไฟ+วาล) ANLS (เซิร์ฟเวอร์ทดสอบ) 28.46 40.47 47.75
SceneText VQA (รถไฟ+val) ANLS (เซิร์ฟเวอร์ทดสอบ) 63.29 81.82 84.40
การแบ่งกลุ่ม
RefCOCO (รวม refcoco, refcoco+, refcocog ไม่รวม val และรูปภาพทดสอบ) MIoU (การตรวจสอบ) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
งานวิดีโอ (คำบรรยายวิดีโอ/QA)
MSR-VTT (คำบรรยาย) CIDE (ทดสอบ) 70.54
MSR-VTT (QA) ความแม่นยำ (ทดสอบ) 50.09
ActivityNet (คำบรรยายภาพ) CIDE (ทดสอบ) 34.62
ActivityNet (QA) ความแม่นยำ (ทดสอบ) 50.78
VATEX (คำบรรยายภาพ) CIDE (ทดสอบ) 79.73
MSVD (QA) ความแม่นยำ (ทดสอบ) 60:20

มิกซ์โมเดล (ปรับแต่งการผสมผสานของงานการโอน)

การเปรียบเทียบ เมตริก (แยก) mix-224 mix-448
MMVP ความแม่นยำที่จับคู่ 460.00 45.33
ป๊อป ความถูกต้อง (สุ่ม/ยอดนิยม/ที่ไม่พึงประสงค์)
88.00
86.63
85.67
89.37
88.40
87.47

จริยธรรมและความปลอดภัย

วิธีการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินแบบมีโครงสร้างและการทดสอบภายในเกี่ยวกับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงดำเนินการโดยทีมต่างๆ มากมายที่มีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย เช่น

  • การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์เกี่ยวกับความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการเป็นตัวแทน ดูรายละเอียดเพิ่มเติมเกี่ยวกับแนวทางการประเมินได้ในการ์ดโมเดลของ Gemma แต่จะมีคำบรรยายรูปภาพและการตั้งค่าการตอบคำถามด้วยภาพ
  • การประเมินการเปรียบเทียบรูปภาพเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น FairFace Dataset (Karkkainen et al., 2021)

ผลการประเมิน

  • ผลการประเมินจากมนุษย์ด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายต่อตัวแทน
  • นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว เรายังใช้ Perspective API (เกณฑ์ 0.8) ในการวัดความเป็นพิษ คำหยาบคาย และปัญหาอื่นๆ ที่อาจเกิดขึ้นในคำบรรยายที่สร้างขึ้นสำหรับรูปภาพที่มาจากชุดข้อมูล FairFace เรารายงานค่าสูงสุดและค่ามัธยฐานที่สังเกตได้ในกลุ่มย่อย สำหรับแอตทริบิวต์เพศ ชาติพันธุ์ และอายุที่รับรู้แต่ละรายการ
เมตริก เพศที่รับรู้ ชาติพันธุ์ กลุ่มอายุ
สูงสุด ค่ามัธยฐาน สูงสุด ค่ามัธยฐาน สูงสุด ค่ามัธยฐาน
ความเป็นพิษ 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
การโจมตีข้อมูลประจำตัว 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
การดูหมิ่น 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
ภัยคุกคาม 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
คำหยาบคาย 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

การใช้งานและข้อจำกัด

วัตถุประสงค์การใช้งาน

Open Vision Language Models (VLM) มีแอปพลิเคชันที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุม รายการนี้มีจุดประสงค์เพื่อให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

ปรับแต่งงานด้านภาษาสำหรับการมองเห็นหนึ่งๆ:

  • โมเดลก่อนการฝึกนั้นสามารถปรับแต่งได้สำหรับงานด้านภาษาการมองเห็นที่หลากหลาย เช่น คำอธิบายภาพ คำบรรยายวิดีโอสั้นๆ การตอบคำถามด้วยภาพ การอ่านข้อความ การตรวจจับวัตถุ และการแบ่งกลุ่มวัตถุ
  • โมเดลก่อนการฝึกจะปรับแต่งได้สำหรับโดเมนที่เจาะจง เช่น การตอบคำถามแบบตรวจจับระยะไกล คำถามแบบภาพจากคนตาบอด การตอบคำถามวิทยาศาสตร์ การอธิบายฟังก์ชันการทำงานขององค์ประกอบ UI
  • โมเดลก่อนการฝึกจะปรับแต่งได้สำหรับงานที่มีเอาต์พุตที่ไม่ใช่ข้อความ เช่น กรอบล้อมรอบหรือมาสก์การแบ่งกลุ่มลูกค้า

การวิจัยภาษาของวิสัยทัศน์:

  • โมเดลก่อนการฝึกและโมเดลที่ปรับแต่งแล้วจะเป็นรากฐานให้นักวิจัยทดลองเทคนิค VLM, พัฒนาอัลกอริทึม และมีส่วนช่วยทำให้เกิดความก้าวหน้าในวงการนี้

ความเสี่ยงและข้อควรพิจารณาด้านจริยธรรม

การพัฒนาโมเดลภาษาการมองเห็น (VLM) ทำให้เกิดข้อกังวลต่างๆ ด้านจริยธรรม ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • VLM ที่ได้รับการฝึกกับข้อมูลข้อความแบบรูปภาพขนาดใหญ่ในชีวิตจริงสามารถสะท้อนถึงอคติทางสังคมต่อวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึกอบรมได้ โมเดลเหล่านี้ผ่านการพิจารณาอย่างละเอียดรอบคอบ อธิบายการป้อนข้อมูลก่อนประมวลผลข้อมูล และการประเมินภายหลังที่รายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
    • ระบบอาจใช้ VLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
    • เราจัดทำหลักเกณฑ์ไว้เพื่อการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่ได้รับการพัฒนาอย่างมีความรับผิดชอบจะมอบโอกาสในการแชร์นวัตกรรมโดยทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI สามารถเข้าถึงเทคโนโลยี VLM ได้

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

  • การไม่มีอคติ: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดความลำเอียงในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันโดยเฉพาะ
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้งาน LLM ที่เป็นอันตราย ดูแหล่งข้อมูลทางการศึกษาและกลไกการรายงานสำหรับผู้ใช้ที่แจ้งการใช้งานในทางที่ผิดได้ที่ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ การใช้งานโมเดลของ Gemma ที่ไม่อนุญาต จึงระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกจากข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนบางอย่างออก เราแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ข้อจำกัด

  • ข้อจำกัดส่วนใหญ่ที่รับช่วงมาจากโมเดล Gemma ที่เกี่ยวข้องจะยังคงมีผล ดังนี้
    • VLM จะดีกว่าในงานที่สามารถจัดกรอบด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรือมีความซับซ้อนมากอาจทำได้ยาก
    • ภาษาที่เป็นธรรมชาติมีความซับซ้อนโดยธรรมชาติ VLM อาจประสบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือถ้อยคำที่หยาบคาย
    • VLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ จึงอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
    • VLM อาศัยรูปแบบทางสถิติในภาษาและรูปภาพ พวกเขาอาจไม่สามารถใช้เหตุผลทั่วไปในบางสถานการณ์
  • PaliGemma ออกแบบมาเป็นอันดับแรกสำหรับใช้เป็นโมเดลทั่วไปก่อนการฝึกสำหรับการปรับแต่งเพื่องานเฉพาะทาง ดังนั้น ประสิทธิภาพการทำงานแบบ "แกะกล่อง" หรือ "ศูนย์ช็อต" อาจช้ากว่าโมเดลที่ออกแบบมาเพื่อสิ่งนั้นโดยเฉพาะ
  • PaliGemma ไม่ใช่แชทบ็อตแบบหลายเทิร์น ซึ่งออกแบบมาสำหรับการป้อน รูปภาพและข้อความรอบเดียว