כרטיס מודל PaliGemma

דף הדגם: PaliGemma

מקורות מידע ומסמכים טכניים:

תנאים והגבלות: תנאים

כותבים: Google

פרטי דגם

סיכום המודל

תיאור

PaliGemma הוא מודל שפת ראייה קל ורב-תכליתי (VLM) בהשראת PaLI-3 ועל סמך רכיבים פתוחים כמו את מודל הראייה של SigLIP ואת Gemma של מודל השפה הגדול. היא לוקחת גם תמונה וגם טקסט בתור קלט, ויוצר טקסט כפלט, תוך תמיכה בשפות מרובות. זה כן שמיועדת לשיפור הביצועים ברמה גבוהה של משימות שקשורות לראייה ממוחשבת, כמו תמונה וכיתוב של סרטון קצר, שאלה ויזואלית מענה, קריאת טקסט, זיהוי אובייקטים ופילוח אובייקטים.

ארכיטקטורת מודל

PaliGemma היא ההרכב של טרנספורמר מקודד-מפענח ותמונה של Vision Transformer מקודד, עם 3 מיליארד פרמטרים בסך הכול. מפענח הטקסט מאותחל מ- Gemma-2B. מקודד התמונות אותחל מ- SigLIP-So400m/14. PaliGemma אומנה לפי מתכונים של PaLI-3.

קלט ופלט

  • קלט: מחרוזת תמונה וטקסט, כמו הנחיה להוספת כיתוב לתמונה, או שאלה.
  • פלט: הטקסט שנוצר בתגובה לקלט, למשל כיתוב של התמונה, תשובה לשאלה, רשימת תיבה תוחמת של אובייקטים או מילות קוד לפילוח.

נתוני המודל

מערכי נתונים לפני אימון מקדים

PaliGemma אומן מראש על השילוב הבא של מערכי נתונים:

  • WebLI: WebLI (תמונה באינטרנט) הוא מערך נתונים רב-לשוני של תמונות וטקסטים מרחבי האינטרנט שנוצר מהאינטרנט הציבורי. א' אנחנו משתמשים במגוון רחב של פיצולי WebLI כדי להשיג יכולות מגוונות של מודלים, כמו הבנה סמנטית ויזואלית, לוקליזציה של אובייקטים, הבנה חזותית של טקסט, ריבוי שפות וכו'
  • CC3M-35L: שילובי תמונה-alt_text נבחרים באנגלית מדפי אינטרנט (Sharma ואחרים) al., 2018). השתמשנו ב-Google Cloud Translation API ל-34. בשפות נוספות.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: תת-קבוצה של VQ2A-CC3M (Changpinyo et al., 2022a), מתורגם ל אותן 34 שפות נוספות כמו CC3M-35L, באמצעות תוכנת Google Cloud Translation API.
  • OpenImages: שאלות ותשובות בנושא זיהוי ואובייקטים (Piergiovanni et al. 2022) שנוצר על ידי שנוצרו בעבודת יד במערך הנתונים OpenImages.
  • WIT: תמונות וטקסטים שנאספו מוויקיפדיה (Srinivasan et al., 2021).

סינון לאחריות על נתונים

המסננים הבאים חלים על WebLI, במטרה לאמן את PaliGemma ביחס לנתונים נקיים:

  • סינון תמונות פורנוגרפיות: המסנן הזה מסיר תמונות שנחשבות אופי פורנוגרפי.
  • סינון בטיחות הטקסט: אנחנו מזהים תמונות שהותאמו ומסננים אותן שמכיל טקסט לא בטוח. טקסט לא בטוח הוא טקסט שעשוי להכיל או קשור אליו תוכן CSAI, פורנוגרפיה, ניבולי פה או תוכן פוגעני אחר.
  • סינון רעילות של טקסט: אנחנו גם משתמשים בPerspective API לזיהוי ולסינון תמונות התאמה עם טקסט שנחשב למעליב, לגס, כולל שנאה או רעיל אחר.
  • סינון של מידע אישי בטקסט: סיננו פרטים אישיים מסוימים מידע ומידע אישי רגיש אחר באמצעות מניעת אובדן נתונים בענן (DLP) APIכדי להגן על של אנשים פרטיים. מזהים כמו מספרי תעודת זהות הוסרו סוגים אחרים של מידע רגיש.
  • שיטות נוספות: סינון לפי איכות התוכן ובטיחות התוכן תואמים למדיניות ולשיטות העבודה שלנו.

מידע על ההטמעה

חומרה

PaliGemma אומנה באמצעות הדור האחרון של יחידת עיבוד Tensor (TPU) חומרה (TPUv5e).

תוכנה

ההדרכה בוצעה באמצעות JAX, Flax, TFDS וגם big_vision.

JAX מאפשר לחוקרים לנצל את הדור החדש של החומרה, כולל מעבדי TPU, לאימון מהיר ויעיל יותר של מודלים גדולים.

ה-TFDS משמש לגישה למערכי נתונים, וה-Flaser משמש לארכיטקטורת המודלים. קוד הכוונון וקוד ההסקה של PaliGemma זמינים בbig_vision מאגר הנתונים של GitHub.

מידע על ההערכה

תוצאות ההשוואה לשוק

כדי לוודא את יכולת ההעברה של PaliGemma למגוון רחב של אנחנו משפרים את המודלים שעברו אימון מראש לכל משימה. בנוסף, אנחנו לאמן את מודל התמהיל עם שילוב של משימות ההעברה. אנחנו מדווחים על תוצאות בנושאים ליצור רזולוציות שונות כדי לראות אילו משימות מניבות ברזולוציה גבוהה יותר. חשוב לציין שאף אחת מהמשימות או מערכי הנתונים האלה לא חלק את תערובת הנתונים של האימון מראש, והתמונות שלהם מוסרות באופן מפורש נתונים של אימון מראש בקנה מידה נרחב.

משימה יחידה (כוונון עדין במשימה אחת)

נקודת השוואה (חלוקת רכבת) מדד (פיצול) pt-224 pt-448 pt-896
כתוביות
כתוביות של COCO (רכבת+חזרה) CIDEr (val) 141.92 144.60
NoCaps (ערך העברת הכתוביות של COCO) CIDEr (val) 121.72 123.58
COCO-35L (רכבת) CIDEr dev (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (הערכה של העברת COCO-35L) CIDEr dev (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (רכבת) CIDEr (val) 127.48 153.94
SciCap (משפט ראשון, ללא Subfigure) (train+val) CIDEr/BLEU-4 (בדיקה)
162.25
0.192
181.49
0.211
Screen2words (רכבת+מפתח) CIDEr (בדיקה) 117.57 119.59
כתוביות לווידג'ט (train+dev) CIDEr (בדיקה) 136.07 148.36
מענה לשאלות
VQAv2 (רכבת+אימות) דיוק (שרת בדיקה – std) 83.19 85.64
MMVP (הערכה של העברה ב-VQAv2) דיוק מותאם 47.33 45.33
POPE (הערכת ההעברה של VQAv2) דיוק (אקראי/פופולרי/יריב)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (רכבת) דיוק (ערך) 63.54 63.15
A-OKVQA (MC) (רכבת+ערך) דיוק (שרת בדיקה) 76.37 76.90
A-OKVQA (DA) (רכבת+ערך) דיוק (שרת בדיקה) 61.85 63.22
GQA (train_balanced+val_balanced) דיוק (מאוזן testdev) 65.61 67.03
xGQA (הערכה של העברה באמצעות GQA) רמת הדיוק הממוצעת (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (רכבת+מפתח) דיוק (בדיקה) 90.02 88.93
MaRVL (הערכה של העברה ב-NLVR2) הדיוק הממוצע (בדיקה) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (רכבת) דיוק (בדיקה) 72.12 73.28
ScienceQA (קבוצת משנה של IMG, ללא CoT) (רכבת+ערך) דיוק (בדיקה) 95.39 95.93
RSVQA-LR (לא מספרי) (רכבת+ערך) רמת הדיוק הממוצעת (בדיקה) 92.65 93.11
RSVQA-HR (לא מספרי) (רכבת+ערך) הדיוק הממוצע (test/test2)
92.61
90.58
92.79
90.54
ChartQA (אדם+אוגוסט)x(רכבת+ערך) רמת הדיוק הממוצעת (test_human, test_aug) 57.08 71.36
VizWiz VQA (רכבת+ערך) דיוק (שרת בדיקה – std) 73.7 75.52
TallyQA (רכבת) דיוק (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (רכבת+ערך) דיוק (בדיקה) 72.32 74.61 74.93
TextVQA (רכבת+ערך) דיוק (שרת בדיקה – std) 55.47 73.15 76.48
DocVQA (רכבת+ערך) ANLS (שרת בדיקה) 43.74 78.02 84.77
אינפוגרפיקה VQA (רכבת+ערך) ANLS (שרת בדיקה) 28.46 40.47 47.75
SceneText VQA (רכבת+ערך) ANLS (שרת בדיקה) 63.29 81.82 84.40
פילוח
RefCOCO (שילוב של refcoco, refcoco+, refcog לא כולל תמונות val ותמונות בדיקה) MIoU (אימות) refcoco/refcoco+/refcog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
משימות וידאו (כתוביות/בקרת איכות)
MSR-VTT (כתוביות) CIDEr (בדיקה) 70.54
MSR-VTT (בקרת איכות) דיוק (בדיקה) 50.09
ActivityNet (כתוביות) CIDEr (בדיקה) 34.62
ActivityNet (בקרת איכות) דיוק (בדיקה) 50.78
VATEX (כתוביות) CIDEr (בדיקה) 79.73
MSVD (בקרת איכות) דיוק (בדיקה) 60.22

מודל מיקס (כוונון עדין של שילוב משימות העברה)

השוואה לשוק מדד (פיצול) mix-224 mix-448
MMVP דיוק מותאם 46.00 45.33
POPE דיוק (אקראי/פופולרי/יריב)
88.00
86.63
85.67
89.37
88.40
87.47

אתיקה ובטיחות

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות וצוות אדום פנימי בדיקה של מדיניות תוכן רלוונטית. הצוות האדום נוהל על ידי צוותים שונים, ולכל אחד מהם יש יעדים שונים ומדדי הערכה אנושיים שונים. האלה בוצעה הערכה של המודלים לפי מספר קטגוריות שונות שרלוונטיות אתיקה ובטיחות, כולל:

  • הערכה אנושית של הנחיות שכוללות בטיחות ילדים, בטיחות תוכן נזקים ייצוגיים. לעיון במודל Gemma כרטיס עבור לקבל פרטים נוספים על גישת ההערכה, אבל כולל הוספת כיתוב לתמונות של מענה לשאלות.
  • הערכת ההשוואה מסוג תמונה לטקסט: נקודת השוואה לעומת אנשי אקדמיה רלוונטיים מערכי נתונים כמו FairFace Dataset (Karkkainen et al., 2021).

תוצאות הבדיקה

  • תוצאות ההערכה האנושית של הערכות אתיקה ובטיחות הן בתוך תנאי סף קבילים לעמידה בתנאים פנימי למדיניות שלה בקטגוריות כמו בטיחות ילדים, בטיחות תוכן וייצוג גורמת נזק.
  • בנוסף להערכה הפנימית המחמירה, אנחנו משתמשים גם ב-Perspective API (סף של 0.8) למדידת רעילות, שפה גסה ופוטנציאל אחר בעיות בכתוביות שנוצרו על תמונות שמקורם ב-FairFace של הכיתובים. אנחנו מדווחים על ערכי המקסימום והחציון שתועדו בכל קבוצות המשנה עבור כל אחד ממאפייני המגדר, המוצא האתני והגיל.
מדד המגדר נקבע מוצא אתני קבוצת גיל
מקסימום חציון מקסימום חציון מקסימום חציון
תוכן רעיל 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
מתקפת זהויות 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
העלבה 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
איום 0.06% 0.05% 0.14% 0.05% 0.17% 0.00%
שפה גסה 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

שימוש ומגבלות

שימוש מיועד

למודלים של שפת ראייה פתוחה (VLMs) יש מגוון רחב של אפליקציות בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודלים חשבו כחלק מהמודל במהלך האימון והפיתוח.

כוונון עדין של משימה בשפת ראייה ספציפית:

  • ניתן לכוונן את המודלים שעברו אימון מראש למגוון רחב של שפות ראייה משימות כמו: הוספת כיתוב לתמונה, כתוביות לסרטון קצר, שאלה ויזואלית, מענה, קריאת טקסט, זיהוי אובייקטים ופילוח אובייקטים.
  • את המודלים שעברו אימון מראש אפשר לבצע כוונון עדין לדומיינים ספציפיים כמו שלט רחוק מענה על שאלות של חישה, שאלות ויזואליות מאנשים עיוורים, מענה לשאלות מדעיות, לתאר פונקציות של אלמנטים בממשק המשתמש.
  • אפשר לבצע כוונון עדין של המודלים שעברו אימון למשימות עם פלטים שאינם טקסט כמו תיבות הפרדה או מסכות פילוח.

מחקר שפות עם ראייה:

  • המודלים שעברו אימון מקדים ומודלים שעברו כוונון עדין יכולים לשמש כבסיס ליצירת חוקרים להתנסות בטכניקות VLM, לפתח אלגוריתמים לתרום לקידום התחום.

שיקולים וסיכונים אתיים

הפיתוח של מודלים של שפת ראייה (VLMs) פותח לבעיות. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • דעות קדומות והוגנות
    • מערכי VLM המאומנים על סמך נתוני טקסט של תמונות בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר ההכשרה. המודלים האלה עברו בחינה קפדנית, לאחר שעיבוד נתוני קלט מתאר הערכות אחוריות מדווחות בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה ב-VLM כדי ליצור טקסט שקרי, מטעה או מזיקה.
    • אפשר לקבל הנחיות לשימוש אחראי במודל. אפשר לעיין ערכת כלים של בינה מלאכותית גנרטיבית ואחראית.
  • שקיפות ואחריות
    • כרטיס המודל הזה מסכם פרטים על המודלים של הארכיטקטורה, יכולות, מגבלות ותהליכי הערכה.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף באמצעות הפיכת טכנולוגיית VLM לנגישה למפתחים חוקרים בתחום הבינה המלאכותית (AI).

סיכונים שזוהו ומיטיגציות:

  • החזקת הטיות: מומלץ לבצע ניטור רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקר ההטיה במהלך אימון מודלים, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: מנגנונים והנחיות בנוגע לתוכן הבטיחות היא חיונית. אנחנו ממליצים למפתחים לנהוג בזהירות להטמיע אמצעי הגנה הולמים לשמירה על בטיחות תוכן מדיניות המוצר ותרחישים לדוגמה של אפליקציות.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות ומפתחים וגם הכשרה של משתמשי קצה יכולה לסייע בהתמודדות עם אפליקציות זדוניות של מודלי שפה גדולים. מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים לצורך סימון שימוש לרעה שסופק: ראו את 'ערכת הכלים האחראית על בינה מלאכותית גנרטיבית'. שימושים אסורים ב-Gemma המודלים מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות בנושא פרטיות: המודלים אומנו על נתונים שסוננו להסרה מידע אישי ונתונים רגישים מסוימים. אנחנו מעודדים מפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.

מגבלות

  • רוב המגבלות שעברו בירושה מהמודל הבסיסי של Gemma עדיין חלות:
    • VLM טוב יותר במשימות שניתן למסגר באמצעות הנחיות ברורות הוראות להתאמה אישית. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • שפה טבעית היא מטבעה מורכבת. מערכות VLM עשויות להתקשות להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
    • VLMs יוצרים תשובות על סמך מידע שהם למדו מהפעילות שלהם מערכי נתונים לאימון, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או מיושנות.
    • VLMs מסתמכים על דפוסים סטטיסטיים בשפה ובתמונות. ייתכן שהם חוסר יכולת להפעיל הסקת היגיון בריא במצבים מסוימים.
  • PaliGemma נועד בראש ובראשונה לשמש כצוות כדי לבצע כוונון עדין למשימות ספציפיות. לכן, התוצאה "מחוץ לקופסה" או אפס-צילום עשויים להיות עיכוב לפני מודלים שתוכננו במיוחד ש.
  • PaliGemma היא לא צ'אט בוט מרובה פניות. הוא מיועד לסבב אחד של קלט תמונה וטקסט.