כרטיס מודל PaliGemma

דף מודל: PaliGemma

מקורות מידע ומסמכים טכניים:

תנאים והגבלות: תנאים

מחברים: Google

פרטי דגם

סיכום המודל

תיאור

PaliGemma הוא מודל שפה קל ורב-תכליתי (VLM) בהשראת PaLI-3, שמבוסס על רכיבים פתוחים כמו מודל הראייה של SigLIP ומודל השפה של Gemma. הוא מקבל גם תמונה וגם טקסט כקלט, ומפיק טקסט כפלט, תוך תמיכה בשפות מרובות. הוא מיועד לשיפור הביצועים ברמת הכיתה במגוון רחב של משימות הקשורות לראייה חזותית, כמו כתוביות לתמונות ולסרטונים קצרים, מענה על שאלות ויזואליות, קריאת טקסט, זיהוי אובייקטים ופילוח אובייקטים.

ארכיטקטורת מודלים

PaliGemma הוא הרכב של מפענח Transformer ומקודד תמונה של Vision Transformer, שמכיל 3 מיליארד פרמטרים בסך הכול. מפענח הטקסט מאותחל מ-Gemma-2B. מקודד התמונות מאותחל מ-SigLIP-So400m/14. PaliGemma מאומנים לפי מתכונים של PaLI-3.

קלט ופלט

  • קלט: תמונה ומחרוזת טקסט, כמו הנחיה להוספת כיתוב לתמונה או שאלה.
  • פלט: טקסט שנוצר בתגובה לקלט, כמו כיתוב של התמונה, תשובה לשאלה, רשימה של קואורדינטות תיבה תוחמת את האובייקט או מילות קוד של פילוח.

נתוני המודל

מערכי נתונים לפני אימון

PaliGemma עובר אימון מראש על סמך תערובת מערכי הנתונים הבאה:

  • WebLI: WebLI (Web Language Image) הוא מערך נתונים של טקסטים של תמונות, בקנה מידה גדול באינטרנט, שנוצר מהאינטרנט הציבורי. משתמשים במגוון רחב של פיצולי WebLI כדי לרכוש יכולות מגוונות של מודלים, כמו הבנה סמנטית חזותית, לוקליזציה של אובייקטים, הבנת טקסט במיקום חזותי, רב-לשוניות וכו'.
  • CC3M-35L: אוסף של צמדי image-alt_text באנגלית מדפי אינטרנט (Shara et al., 2018). השתמשנו ב-Google Cloud Translation API כדי לתרגם ל-34 שפות נוספות.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: קבוצת משנה של VQ2A-CC3M (Chanpinyo et al., 2022a), מתורגמת לאותן 34 שפות נוספות כמו CC3M-35L, באמצעות Google Cloud Translation API.
  • OpenImages: שאלות ותשובות הקשורות לזיהוי ולאובייקטים (Piergiovanni et al. 2022) שנוצרו באמצעות כללים בעבודת יד במערך הנתונים של OpenImages.
  • WIT: תמונות וטקסטים שנאספו מוויקיפדיה (Srinivasan et al., 2021).

סינון לפי אחריות נתונים

המסננים הבאים חלים על WebLI, במטרה לאמן את PaliGemma על נתונים נקיים:

  • סינון תמונות פורנוגרפיות: המסנן הזה מסיר תמונות בעלות אופי פורנוגרפי.
  • סינון בטיחות טקסט: אנחנו מזהים ומסננים תמונות שמותאמות לטקסט לא בטוח. טקסט לא בטוח הוא כל טקסט שנחשב כמכיל או עוסק בתוכן שמתאר התעללות מינית בילדים, פורנוגרפיה, גסויות או תוכן פוגעני מסוג אחר.
  • סינון הרעילות של טקסט: אנחנו משתמשים ב-Perspective API כדי לזהות ולסנן תמונות מותאמות עם טקסט שנחשב למעליב, מגונה, רווי שנאה או רעיל מכל סוג אחר.
  • סינון פרטים אישיים מסוג טקסט: סיננו פרטים אישיים מסוימים ומידע אישי רגיש אחר באמצעות ה-API למניעת אובדן נתונים (DLP) בענן כדי להגן על הפרטיות של אנשים. הוסרו מזהים כמו מספרי תעודת זהות וסוגים אחרים של מידע רגיש.
  • שיטות נוספות: סינון לפי איכות ובטיחות של התוכן, בהתאם למדיניות ולשיטות שלנו.

מידע על ההטמעה

חומרה

PaliGemma אומן באמצעות הדור החדש של חומרת יחידת העיבוד של Tensor (TPU) (TPUv5e).

תוכנות

ההדרכה בוצעה באמצעות JAX, Flax, TFDS ו-big_vision.

JAX מאפשרת לחוקרים לנצל את הדור החדש של החומרה, כולל TPU, כדי לבצע אימון מהיר ויעיל יותר של דגמים גדולים.

הפקודה TFDS משמשת כדי לגשת למערכי נתונים, וב-Flax משתמשים בארכיטקטורת מודלים. קוד הכוונון וקוד ההסקה של PaliGemma מתפרסמים במאגר big_vision של GitHub.

פרטי ההערכה

תוצאות ההשוואה לשוק

כדי לוודא את יכולת ההעברה של PaliGemma למגוון רחב של משימות אקדמיות, אנחנו משפרים את המודלים שעברו אימון מראש בכל משימה. בנוסף, אנחנו מאמנים את מודל השילוב באמצעות שילוב של משימות ההעברה. אנחנו מדווחים על התוצאות ברזולוציות שונות, כדי לראות אילו משימות נהנות מרזולוציה גבוהה יותר. חשוב לציין שאף אחת מהמשימות וממערכי הנתונים האלה לא שייכת לתמהיל הנתונים לאימון מראש, והתמונות שלהן מוסרות באופן מפורש מהנתונים בפועל לאימון מראש של האינטרנט.

משימה יחידה (שיפור איכות של משימה אחת)

נקודת השוואה (חלוקת רכבת) מדד (פיצול) pt-224 pt-448 pt-896
כתוביות
כתוביות של COCO (רכבת + מנוחה) CIDEr (val) 144.60
NoCaps (העברת הכתוביות של COCO) CIDEr (val) 121.72 123.58
COCO-35L (רכבת) CIDEr dev (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (שווי של העברה של COCO-35L) CIDEr dev (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (רכבת) CIDEr (val) 127.48
SciCap (משפט ראשון, ללא תת-דמות) (train+val) CIDEr/BLEU-4 (בדיקה)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (בדיקה) 117.57 119.59
Widget Captioning (train+dev) CIDEr (בדיקה) 136.07
מענה לשאלות
VQAv2 (אימות+רכבת) דיוק (שרת בדיקה – std) 83.19 85.64
MMVP (Eval of VQAv2 Transfer) דיוק מותאם 47.33 45.33
POPE (Eval of VQAv2 Transfer) דיוק (אקראי/פופולרי/תחרותי)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (רכבת) דיוק (val) 63.54 63.15
A-OKVQA (MC) (train+val) דיוק (שרת בדיקה) 76.37 76.90
A-OKVQA (DA) (train+val) דיוק (שרת בדיקה) 61.85 63.22
GQA (train_balanced+val_balanced) דיוק (testdev מאוזן) 65.61 67.03
xGQA (הערכה של העברת GQA) דיוק ממוצע (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (train+dev) דיוק (בדיקה) 90.02 88.93
MaRVL (העברת Eval of NLVR2) דיוק ממוצע (בדיקה) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (רכבת) דיוק (בדיקה) 72.12 73.28
ScienceQA (קבוצת משנה של Img, ללא CoT) (train+val) דיוק (בדיקה) 95.39 95.93
RSVQA-LR (ללא מספרי) (train+val) דיוק ממוצע (בדיקה) 92.65 93.11
RSVQA-HR (ללא מספרי) (train+val) דיוק ממוצע (בדיקה/בדיקה2)
92.61
90.58
92.79
90.54
ChartQA (human+aug)x(train+val) ממוצע רגוע (test_human, test_aug) 57.08 71.36
VizWiz VQA (train+val) דיוק (שרת בדיקה – std) 73.7 75.52
TallyQA (רכבת) דיוק (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (train+val) דיוק (בדיקה) 72.32 74.61 74.93
TextVQA (רכבת+val) דיוק (שרת בדיקה – std) 55.47 73.15 76.48
DocVQA (train+val) ANLS (שרת בדיקה) 43.74 78.02 84.77
אינפוגרפיקה VQA (train+val) ANLS (שרת בדיקה) 28:46 40.47 71.75
SceneText VQA (train+val) ANLS (שרת בדיקה) 63.29 81.82 84.40
פילוח
RefCOCO (שילוב של refcoco, refcoco+ ו-refcocog לא כולל תמונות val ותמונות בדיקה) MIoU (אימות) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
משימות וידאו (כתוביות/בקרת איכות)
MSR-VTT (כתוביות) CIDEr (בדיקה) 70.54
MSR-VTT (QA) דיוק (בדיקה) 50.09
ActivityNet (כתוביות) CIDEr (בדיקה) 34.62
ActivityNet (בקרת איכות) דיוק (בדיקה) 50.78
VATEX (כתוביות) CIDEr (בדיקה) 79.73
MSVD (בקרת איכות) דיוק (בדיקה) 60.22

מודל מיקס (כוונון עדין של תערובת משימות העברה)

השוואה לשוק מדד (פיצול) mix-224 mix-448
MMVP דיוק מותאם 46.00 45.33
POPE דיוק (אקראי/פופולרי/תחרותי)
88.00
86.63
85.67
89.37
88.40
87.47

אתיקה ובטיחות

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקה פנימית של צוותים אדומים של מדיניות תוכן רלוונטית. צוותים אדומים התנהלו על ידי מספר צוותים שונים, שלכל אחד מהם יעדים שונים ומדדי הערכה אנושיים. המודלים האלה נבדקו מול מספר קטגוריות שונות שרלוונטיות לאתיקה ולבטיחות, כולל:

  • הערכה אנושית בקשר להנחיות בנושא בטיחות ילדים, בטיחות תוכן ונזקים ייצוגיים. בכרטיס של המודל Gemma תוכלו לקרוא פרטים נוספים על גישת ההערכה, אבל על הוספת כתוביות לתמונות והגדרות של מענה ויזואלי לשאלות.
  • הערכת התמחור של תמונה לטקסט: נקודת השוואה ביחס למערכי נתונים אקדמיים רלוונטיים כמו FairFace Dataset (Karkkainen et al., 2021).

תוצאות הבדיקה

  • תוצאות הבדיקה האנושית של הערכות אתיקה ובטיחות עומדות בערכי הסף המקובלים לעמידה במדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן ופגיעות בייצוג.
  • בנוסף להערכות פנימיות מתקדמות, אנחנו משתמשים גם ב-Perspective API (סף של 0.8) כדי למדוד רעילות, שפה גסה ובעיות פוטנציאליות אחרות בכתוביות שנוצרות עבור תמונות שמקורן במערך הנתונים של FairFace. אנחנו מדווחים על ערכים מקסימליים וחציוניים שמתועדים בכל תתי-הקבוצות, לגבי כל מאפיין מגדר, מוצא אתני וגיל.
המדד מגדר תפיס מוצא אתני קבוצת גיל
מקסימום חציון מקסימום חציון מקסימום חציון
רעילות 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
התקפת זהות 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
עלבון 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
איום 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
שפה גסה 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

שימוש ומגבלות

שימוש מיועד

למודלים של Open Vision Language Models (VLMs) יש מגוון רחב של אפליקציות בתחומים ובתחומים שונים. רשימת השימושים הפוטנציאליים הבאה אינה מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי לגבי תרחישי השימוש האפשריים שיוצרי המודל שקלו כחלק מאימון המודל והפיתוח שלו.

כוונון עדין של משימות בשפת ראייה ספציפית:

  • ניתן להתאים את המודלים שאומנו מראש למגוון רחב של משימות בשפות ראייה, כמו הוספת כיתוב לתמונה, כתוביות קצרות לסרטון, מענה ויזואלי לשאלות, קריאת טקסט, זיהוי אובייקטים ופילוח אובייקטים.
  • ניתן לכוונן את המודלים שאומנו מראש לדומיינים ספציפיים כמו מענה לשאלות בחישה מרחוק, שאלות ויזואליות מאנשים עיוורים, מענה על שאלות מדעיות ותיאור הפונקציונליות של רכיבי ממשק משתמש.
  • אפשר לבצע כוונון עדין של המודלים שאומנו מראש למשימות עם פלטים שאינם טקסטואליים, כמו תיבות תוחמות (bounding box) או מסכות של פילוח.

מחקר בשפת הראייה:

  • המודלים שעברו אימון מראש והמודלים המכווננים יכולים לשמש כבסיס לחוקרים להתנסות בשיטות VLM, לפיתוח אלגוריתמים ולתרומה לקידום התחום.

שיקולים וסיכונים אתיים

ההתפתחות של מודלים שמבוססים על ראייה ממוחשבת (VLM) עוררה מספר חששות אתיים. ביצירת מודל פתוח, שקלנו בקפידה את הנקודות הבאות:

  • הטיה והגינות
    • מכונות VLM שעובדות על נתונים של טקסטים של תמונות בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר ההדרכה. המודלים האלה עברו בדיקה קפדנית, תיאור של עיבוד הנתונים לפני עיבוד הנתונים וההערכות שנערכו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה ב-VLM כדי ליצור טקסט שקרי, מטעה או מזיק.
    • ההנחיות לשימוש אחראי עם המודל מפורטות במאמר בנושא ערכת הכלים של בינה מלאכותית גנרטיבית אחראית.
  • שקיפות ואחריות
    • כרטיס המודל הזה מסכם את הפרטים של הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מספק הזדמנות לשיתוף חדשנות, על ידי הפיכת טכנולוגיית VLM לנגישה למפתחים ולחוקרים בסביבה העסקית של AI.

זוהו סיכונים ומיטיגציות:

  • הטיית הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקירת שיטות לביטול הטיה במהלך אימון המודל, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: המנגנונים וההנחיות לשמירה על בטיחות התוכן הם חיוניים. מומלץ למפתחים לפעול בזהירות וליישם אמצעי הגנה הולמים לשמירה על בטיחות התוכן בהתאם למדיניות המוצרים הספציפית שלהם והתרחישים לדוגמה שבהם הם משתמשים באפליקציות.
  • שימוש לרעה למטרות זדוניות:מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור במניעת יישומים זדוניים של מודלים מסוג LLM. סופקו משאבים חינוכיים ומנגנוני דיווח למשתמשים כדי לדווח על שימוש לרעה: אפשר לעיין ב-Responsible Generative AI Toolkit. שימושים אסורים במודלים של Gemma מפורטים במדיניות לשימוש אסור ב-Gemma.
  • הפרות של מדיניות הפרטיות: המודלים אומנו על סמך נתונים שסוננו כדי להסיר פרטים אישיים מסוימים ומידע אישי רגיש. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.

הגבלות

  • רוב המגבלות שעברו בירושה ממודל Gemma הבסיסי עדיין חלות:
    • מודעות VLM טובות יותר במשימות שאפשר לשלב עם הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד יכולות להיות מאתגרות.
    • שפה טבעית היא שפה מורכבת מטבעה. יכול להיות שמערכות VLM יתקשו להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
    • מערכות VLM יוצרות תשובות על סמך מידע שהם למדו ממערכי הנתונים של ההדרכה, אבל הן לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
    • מודעות VLM מסתמכות על דפוסים סטטיסטיים בשפה ובתמונות. במצבים מסוימים הם לא יוכלו להשתמש בהיגיון בריא.
  • בראש ובראשונה, PaliGemma תוכנן לשמש כמודל כללי שעבר אימון מראש להתאמה מדויקת למשימות מיוחדות. לכן, הביצועים של "מחוץ לקופסה" או "zero-shot" עשויים להתעכב במודלים שתוכננו במיוחד למטרה זו.
  • PaliGemma אינו צ'אט בוט רב-כיווני. היא מיועדת לסבב אחד של תמונה וקלט טקסט.