כרטיס מודל של PaliGemma 2

דף המודל: PaliGemma

משאבים ותיעוד טכני:

התנאים וההגבלות: התנאים

מחברים: Google

פרטי דגם

סיכום המודל

PaliGemma 2 הוא עדכון של מודל ה-VLM (מודל שפה-ראייה) PaliGemma, שמשתלב עם היכולות של המודלים Gemma 2. משפחת המודלים של PaliGemma מבוססת על PaLI-3 ומושפעת ממנה, והיא מבוססת על רכיבים פתוחים כמו מודל הראייה SigLIP ומודל השפה Gemma 2. הכלי מקבל תמונה וטקסט כקלט ויוצר פלט של טקסט, ותומך בכמה שפות. הוא תוכנן לביצועים מובילים בתחום של כוונון עדין במגוון רחב של משימות שמשלבות בין ראייה לטקסט, כמו יצירת כיתוב לתמונות ולסרטוני Shorts, מענה לשאלות חזותיות, קריאת טקסט, זיהוי אובייקטים ופיצול אובייקטים.

ארכיטקטורת מודל

PaliGemma 2 הוא שילוב של מפענח טרנספורמר ומקודד תמונות של Vision Transformer. מפענח הטקסט מופעל מ-Gemma 2 בגדלי הפרמטרים 2B,‏ 9B ו-27B. מקודד התמונות מופעל מ-SigLIP-So400m/14. בדומה למודל PaliGemma המקורי, מודל PaliGemma 2 עובר אימון לפי המתכונים של PaLI-3.

קלט ופלט

  • קלט: תמונה ומחרוזת טקסט, כמו הנחיה להוספת כיתוב לתמונה או שאלה.
  • פלט: טקסט שנוצר בתגובה לקלט, כמו כותרת של תמונה, תשובה לשאלה, רשימה של קואורדינטות של תיבת גבולות של אובייקט או מילות קוד של פילוח.

ציטוט ביבליוגרפי

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

נתוני מודל

מערכי נתונים לאימון מראש

PaliGemma 2 עברה אימון מראש על התמהיל הבא של מערכי נתונים:

  • WebLI: WebLI‏ (Web Language Image) הוא מערך נתונים של תמונות וטקסט בכמה שפות ברמת האינטרנט, שנוצר מהאינטרנט הציבורי. אנחנו משתמשים במגוון רחב של חלוקות של WebLI כדי לקבל יכולות מודל מגוונות, כמו הבנה סמנטית חזותית, לוקליזציה של אובייקטים, הבנה של טקסט שמקושר לתמונה ויכולת לעבוד בכמה שפות.
  • CC3M-35L: צמדי תמונה-alt_text באנגלית שנאספו מדפי אינטרנט (Sharma et al., 2018). השתמשנו ב-Google Cloud Translation API כדי לתרגם ל-34 שפות נוספות.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: קבוצת משנה של VQ2A-CC3M (Changpinyo et al., 2022a), שתורגמו ל-34 השפות הנוספות שבהן זמין CC3M-35L, באמצעות Google Cloud Translation API.
  • OpenImages: זיהוי ושאלות ותשובות שמתבססות על אובייקטים (Piergiovanni et al. 2022) שנוצרו על ידי כללים שנוצרו באופן ידני במערך הנתונים OpenImages.
  • WIT: תמונות וטקסטים שנאספו מוויקיפדיה (Srinivasan et al., 2021).

PaliGemma 2 מבוסס על Gemma 2, ומידע על מערכי הנתונים של Gemma 2 שנוצרו לפני אימון זמין בכרטיס המודל של Gemma 2.

סינון לפי אחריות על נתונים

המסננים הבאים חלים על WebLI, במטרה לאמן את PaliGemma2 על נתונים בטוחים ואחראיים:

  • סינון תמונות פורנוגרפיות: המסנן הזה מסיר תמונות שנחשבות לפורנוגרפיות.
  • סינון טקסט לא בטוח: אנחנו מזהים תמונות שמשויכות לטקסט לא בטוח ומסננים אותן. טקסט לא בטוח הוא כל טקסט שנחשב לתוכן שמכיל תמונות של התעללות מינית בילדים (CSAI), פורנוגרפיה, ביטויים גסים או תוכן פוגעני אחר.
  • סינון תוכן רעיל: אנחנו משתמשים ב-Perspective API גם כדי לזהות תמונות שמשויכות לטקסט שאנחנו מגדירים כפוגעני, מגונה, מעורר שנאה או רעיל אחרת, ולסנן אותן.
  • סינון של מידע אישי בטקסט: סיננו מידע אישי מסוים ומידע אישי רגיש אחר באמצעות Cloud Data Loss Prevention API‏ (DLP) כדי להגן על הפרטיות של אנשים פרטיים. פרטים מזהים כמו מספרי תעודת זהות וסוגים אחרים של מידע רגיש הוסרו.
  • שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו, בהתאם למדיניות ולנוהלי העבודה שלנו.

מידע על ההטמעה

חומרה

PaliGemma 2 אומנה באמצעות החומרה מהדור האחרון של יחידת עיבוד נתונים טילר (TPU) (TPUv5e).

תוכנה

ההדרכה הושלמה באמצעות JAX,‏ Flax,‏ TFDS ו-big_vision.

JAX מאפשר לחוקרים לנצל את החומרה מהדור החדש, כולל TPU, כדי לאמן מודלים גדולים מהר יותר וביעילות רבה יותר.

TFDS משמש לגישה למערכי נתונים, ו-Flax משמש לארכיטקטורת המודל. הקוד של התאמת ה-PaliGemma 2 והקוד של ההסקה זמינים במאגר big_vision ב-GitHub.

פרטי ההערכה

תוצאות של בנצ'מרק

כדי לוודא שאפשר להעביר את PaliGemma 2 למגוון רחב של משימות אקדמיות, אנחנו מבצעים שיפורים ותיקונים במודלים שהותאמו מראש לכל משימה. אנחנו מדווחים על תוצאות ברזולוציות שונות כדי לספק מושג לגבי המשימות שמרוויחות מרזולוציה גבוהה יותר. חשוב לציין שאף אחת מהמשימות או מערכי הנתונים האלה לא נכללת בתערובת הנתונים של אימון מקדים, והתמונות שלהן הוסרו במפורש מנתוני האימון המקדים ברמת האינטרנט.

תוצאות של PaliGemma 2 לפי רזולוציה וגודל של הדגם

השוואה לשוק 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (ממוצע) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (אנושי) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (בדיקה) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (בדיקה) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (מורכב) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (פשוט) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (אנגלית) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (avg7) 58.6 61.4 61.1 60.4 62.6 62.1

נקודות השוואה נוספות

ICDAR 2015 Incidental

דגם דיוק זכירות F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

דגם דיוק זכירות F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

דגם S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

דגם S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

דגם CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B, התאמה מלאה: 94.8

DOCCI

דגם avg#char avg#sent NES %
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: מספר התווים הממוצע
  • avg#sent: מספר המשפטים הממוצע
  • NES: משפטים ללא סתירה לוגית

MIMIC-CXR

דגם CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

חשיבה מרחבית חזותית

דגם VSR zeroshot split (test) חלוקה אקראית של VSR (בדיקה)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

אתיקה ובטיחות

שיטת ההערכה

שיטות ההערכה שלנו כוללות בדיקות מוסדרות של אתיקה ובטיחות בהתאם לכללי המדיניות הרלוונטיים בנושא תוכן, כולל:

  • הערכה אנושית של הנחיות בנושאי בטיחות ילדים, בטיחות תוכן ונזקים שקשורים לייצוג. פרטים נוספים על הגישה להערכה מופיעים בכרטיס המודל של Gemma, אבל עם הגדרות של הוספת כיתוב לתמונות ותשובות לשאלות חזותיות.
  • הערכת נקודת השוואה של תמונה לטקסט: השוואה למערכי נתונים אקדמיים רלוונטיים, כמו FairFace Dataset‏ (Karkkainen et al., 2021).

תוצאות הבדיקה

  • תוצאות הבדיקות האנושיות של האתיקה והבטיחות נמצאות בתוך ערכי הסף הקבילים לצורך עמידה במדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן ונזקים שקשורים לייצוג.
  • בנוסף לבדיקות פנימיות חזקות, אנחנו משתמשים גם ב-Perspective API (סף של 0.8) כדי למדוד רעילות, שפה גסה ובעיות פוטנציאליות אחרות בכתוביות שנוצרות לתמונות שמקורן במערך הנתונים של FairFace. אנחנו מדווחים על הערכים המקסימליים והחציוניים שנצפו בקבוצות משנה לכל אחד מהמאפיינים של המגדר, האתניות והגיל שנתפסים.
מדד מגדר נתפס מוצא אתני קבוצת גיל
גודל הדגם 3B 10B 28B 3B 10B 28B 3B 10B 28B
מקסימום
תוכן רעיל 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
התקפת זהות 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
Insult 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
איום 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
שפה גסה 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
חציון
תוכן רעיל 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
התקפת זהות 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insult 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
איום 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
שפה גסה 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

שימוש ומגבלות

שימוש מיועד

למודלים גדולים של שפה מבוססת-ראייה (VLMs) יש מגוון רחב של יישומים בתחומים ובתחומים שונים. רשימת השימושים האפשריים הבאה היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע לפי הקשר לגבי תרחישים לדוגמה שאותם יוצרי המודל הגדירו כחלק מאימון ופיתוח המודל. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.

שיפור נוסף של משימה ספציפית של שילוב בין ראייה לשפה:

  • אפשר לשפר את המודלים שהוכשרו מראש במגוון רחב של משימות שמשלבות בין ראייה לטקסט, כמו יצירת כיתוב לתמונות, יצירת כיתוב לסרטונים קצרים, מענה על שאלות חזותיות, קריאת טקסט, זיהוי אובייקטים ופיצול אובייקטים.
  • אפשר לשפר את המודל המאומן מראש לדומיינים ספציפיים, כמו מענה על שאלות באמצעות חיישנים מרחוק, שאלות חזותיות מאנשים עיוורים, מענה על שאלות בנושאי מדע ותיאור של פונקציות של רכיבי ממשק משתמש.
  • אפשר לשפר את המודלים המאומנים מראש למשימות עם תוצאות פלט שאינן טקסט, כמו תיבות מלבניות או מסכות פילוח.

מחקר בתחום הראייה והשפה:

  • המודלים המאומנים מראש והמודלים שעברו כוונון יכולים לשמש כבסיס לחוקרים כדי להתנסות בשיטות VLM, לפתח אלגוריתמים ולתרום להתקדמות בתחום.

שיקולים אתיים וסיכונים

הפיתוח של מודלים של שפה-ראייה (VLM) מעורר כמה חששות אתיים. כשיצרנו מודל פתוח, התייחסנו בקפידה לגורמים הבאים:

  • הטיה והוגנות
    • מודלים של שפה חזותית (VLM) שמאומנים על נתונים גדולים של טקסט-תמונה בעולם האמיתי עשויים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בדיקה יסודית, תיארנו את העיבוד המקדים של נתוני הקלט והצגנו את ההערכות הבאות (posterior) בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה ב-VLM כדי ליצור טקסט שקרי, מטעה או מזיק.
    • יש הנחיות לשימוש אחראי במודל. אפשר לקרוא אותן במאמר Responsible Generative AI Toolkit.
  • שקיפות ואחריותיות
    • בכרטיס המודל הזה מפורטים פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף את החדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ומיטיגציות:

  • המשך ההטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקות אנושיות) ולבחון שיטות להסרת ההטיות במהלך אימון המודלים, השיפורים האחרונים והתרחישי שימוש אחרים.
  • יצירת תוכן מזיק: מנגנונים והנחיות לבטיחות התוכן חיוניים. אנחנו ממליצים למפתחים להפעיל שיקול דעת ולהטמיע אמצעי הגנה מתאימים לבטיחות התוכן, בהתאם למדיניות המוצר הספציפית ולתרחישים לדוגמה של שימוש באפליקציה.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור למנוע שימוש זדוני ב-LLM. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח כדי שמשתמשים יוכלו לדווח על שימוש לרעה. אפשר לקרוא על כך במאמר הערכה לשימוש אחראי ב-AI גנרטיבי. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.
  • הפרות פרטיות: המודלים הוכשרו על נתונים שסוננו כדי להסיר מידע אישי מסוים ונתונים רגישים. אנחנו ממליצים למפתחים לציית לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.

מגבלות

  • רוב המגבלות שעברו בירושה מהמודלים הבסיסיים של Gemma 2 עדיין חלות:
    • מודלים של VLM מתאימים יותר למשימות שאפשר להגדיר להן הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • שפה טבעית היא מורכבת מטבעה. יכול להיות ש-VLMs יתקשו להבין ניואנסים עדינים, סרקזם או שפה מטאפורית.
    • מודלים של VLM יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים שלהם לצורך אימון, אבל הם לא מסדי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
    • מודלים של VLM מסתמכים על דפוסים סטטיסטיים בשפה ובתמונות. יכול להיות שהם לא יוכלו להפעיל היגיון בריא במצבים מסוימים.
  • PaliGemma 2 תוכנן בראש ובראשונה לשמש כמודל כללי שעבר אימון מראש, לצורך כוונון מדויק למשימות מיוחדות. לכן, הביצועים שלו 'מחוץ לקופסה' או 'ללא אימון' עשויים להיות נמוכים יותר ממודלים שמיועדים במיוחד לשימוש כללי.
  • PaliGemma 2 הוא לא צ'אט בוט עם זיכרון. הוא מיועד לסבב אחד של קלט של תמונות וטקסט.