דף המודל: PaliGemma
משאבים ותיעוד טכני:
התנאים וההגבלות: התנאים
מחברים: Google
פרטי דגם
סיכום המודל
תיאור
PaliGemma הוא מודל שפה-ראייה (VLM) קל ומגוון, בהשראת PaLI-3 ומבוסס על רכיבים פתוחים כמו מודל הראייה SigLIP ומודל השפה Gemma. הכלי מקבל תמונה וטקסט כקלט, ויוצר פלט של טקסט. הוא תומך במספר שפות. הוא תוכנן לביצועים מובילים בתחום של כוונון עדין במגוון רחב של משימות שילוב בין ראייה לשפה, כמו יצירת כתוביות לתמונות ולסרטונים קצרים, מענה על שאלות חזותיות, קריאת טקסט, זיהוי אובייקטים ופיצול אובייקטים.
ארכיטקטורת מודל
PaliGemma הוא שילוב של מפענח Transformer ומקודד תמונות של Vision Transformer, עם סך של 3 מיליארד פרמטרים. המפענח של הטקסט מופעל מ-Gemma-2B. מקודד התמונות מאופשר על ידי SigLIP-So400m/14. PaliGemma עוברת אימון לפי המתכונים של PaLI-3.
קלט ופלט
- קלט: תמונה ומחרוזת טקסט, כמו הנחיה להוספת כיתוב לתמונה או שאלה.
- פלט: טקסט שנוצר בתגובה לקלט, כמו כותרת של תמונה, תשובה לשאלה, רשימה של קואורדינטות של תיבת גבולות של אובייקט או מילות קוד של פילוח.
ציטוט ביבליוגרפי
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
נתוני מודל
מערכי נתונים לאימון מראש
PaliGemma אומן מראש על התמהיל הבא של מערכי נתונים:
- WebLI: WebLI (Web Language Image) הוא מערך נתונים של תמונות וטקסט בכמה שפות ברמת האינטרנט, שנוצר מהאינטרנט הציבורי. אנחנו משתמשים במגוון רחב של חלוקות של WebLI כדי לקבל יכולות מודל מגוונות, כמו הבנה סמנטית חזותית, לוקליזציה של אובייקטים, הבנה של טקסט שמקושר לתמונה, תמיכה בכמה שפות ועוד.
- CC3M-35L: צמדי תמונה-טקסט חלופי באנגלית שנאספו מדפי אינטרנט (Sharma et al., 2018). השתמשנו ב-Google Cloud Translation API כדי לתרגם ל-34 שפות נוספות.
- VQ²A-CC3M-35L/VQG-CC3M-35L: קבוצת משנה של VQ2A-CC3M (Changpinyo et al., 2022a), שתורגמה ל-34 השפות הנוספות שבהן זמינה CC3M-35L, באמצעות Google Cloud Translation API.
- OpenImages: זיהוי ושאלות ותשובות שמתבססות על אובייקטים (Piergiovanni et al. 2022) שנוצרו על ידי כללים שנוצרו באופן ידני במערך הנתונים OpenImages.
- WIT: תמונות וטקסטים שנאספו מוויקיפדיה (Srinivasan et al., 2021).
סינון לפי אחריות על נתונים
המסננים הבאים חלים על WebLI, במטרה לאמן את PaliGemma על נתונים נקיים:
- סינון תמונות פורנוגרפיות: המסנן הזה מסיר תמונות שנחשבות לפורנוגרפיות.
- סינון טקסט לא בטוח: אנחנו מזהים תמונות שמשויכות לטקסט לא בטוח ומסננים אותן. טקסט לא בטוח הוא כל טקסט שנחשב לתוכן שמכיל תמונות של התעללות מינית בילדים (CSAI), פורנוגרפיה, ביטויים גסים או תוכן פוגעני אחר.
- סינון תוכן רעיל: אנחנו משתמשים ב-Perspective API גם כדי לזהות תמונות שמשויכות לטקסט שאנחנו מגדירים כפוגעני, מגונה, מעורר שנאה או רעיל אחרת, ולסנן אותן.
- סינון של מידע אישי בטקסט: סיננו מידע אישי מסוים ונתונים רגישים אחרים באמצעות Cloud Data Loss Prevention API (DLP) כדי להגן על הפרטיות של אנשים פרטיים. פרטים מזהים כמו מספרי תעודת זהות וסוגים אחרים של מידע רגיש הוסרו.
- שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו, בהתאם למדיניות ולשיטות שלנו.
מידע על ההטמעה
חומרה
PaliGemma אומנה באמצעות החומרה מהדור החדש ביותר של יחידות עיבוד נתונים טילר (TPU) (TPUv5e).
תוכנה
ההדרכה הושלמה באמצעות JAX, Flax, TFDS ו-big_vision
.
JAX מאפשר לחוקרים לנצל את החומרה מהדור החדש, כולל TPU, כדי לאמן מודלים גדולים מהר יותר וביעילות רבה יותר.
TFDS משמש לגישה למערכי נתונים, ו-Flax משמש לארכיטקטורת המודל. הקוד של התאמת ה-PaliGemma והקוד של ההסקה זמינים במאגר big_vision
ב-GitHub.
פרטי ההערכה
תוצאות של בנצ'מרק
כדי לוודא שאפשר להעביר את PaliGemma למגוון רחב של משימות אקדמיות, אנחנו משייפים את המודלים שהותאמו מראש לכל משימה. בנוסף, אנחנו מאומנים את מודל המיקס עם שילוב של משימות ההעברה. אנחנו מדווחים על תוצאות ברזולוציות שונות כדי לספק מושג לגבי המשימות שאפשר לשפר את הביצועים שלהן באמצעות רזולוציה גבוהה יותר. חשוב לדעת שאף אחת מהמשימות או מערכי הנתונים האלה לא נכללת בתערובת הנתונים של טרום האימון, והתמונות שלהן הוסרו במפורש מנתוני טרום האימון ברמת האינטרנט.
משימה אחת (שינוי מדויק של משימה אחת)
נקודת השוואה (חלוקה לאימון) | מדד (פיצול) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
כתוביות | ||||
כתוביות COCO (אימון+restval) | CIDEr (val) | 141.92 | 144.60 | |
NoCaps (בדיקה של העברת כתוביות COCO) | CIDEr (val) | 121.72 | 123.58 | |
COCO-35L (רכבת) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (בדיקה של העברה של COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (אימון) | CIDEr (val) | 127.48 | 153.94 | |
SciCap (המשפט הראשון, ללא תרשימים משניים) (אימון+אימות) | CIDEr/BLEU-4 (בדיקה) |
|
|
|
Screen2words (אימון+פיתוח) | CIDEr (בדיקה) | 117.57 | 119.59 | |
כתוביות בווידג'טים (אימון+פיתוח) | CIDEr (בדיקה) | 136.07 | 148.36 | |
מענה לשאלות | ||||
VQAv2 (אימון+אימות) | דיוק (שרת הבדיקה – std) | 83.19 | 85.64 | |
MMVP (בדיקה של העברת VQAv2) | דיוק במצב התאמה | 47.33 | 45.33 | |
POPE (בדיקה של העברת VQAv2) | דיוק (רנדומלי/פופולרי/תוקפני) |
|
|
|
OKVQA (אימון) | דיוק (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (train+val) | דיוק (שרת בדיקה) | 76.37 | 76.90 | |
A-OKVQA (DA) (train+val) | דיוק (שרת בדיקה) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | דיוק (testdev מאוזנת) | 65.61 | 67.03 | |
xGQA (בדיקה של העברת GQA) | דיוק ממוצע (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (train+dev) | דיוק (בדיקה) | 90.02 | 88.93 | |
MaRVL (הערכה של העברה של NLVR2) | דיוק ממוצע (בדיקה) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (אימון) | דיוק (בדיקה) | 72.12 | 73.28 | |
ScienceQA (קבוצת משנה של תמונות, ללא CoT) (אימון+אימות) | דיוק (בדיקה) | 95.39 | 95.93 | |
RSVQA-LR (לא מספרי) (אימון+אימות) | דיוק ממוצע (בדיקה) | 92.65 | 93.11 | |
RSVQA-HR (לא מספרי) (אימון+אימות) | דיוק ממוצע (test/test2) |
|
|
|
ChartQA (human+aug)x(train+val) | דיוק ממוצע בהתאמה מקלה (test_human, test_aug) | 57.08 | 71.36 | |
VizWiz VQA (אימון+אימות) | דיוק (שרת הבדיקה – std) | 73.7 | 75.52 | |
TallyQA (אימון) | דיוק (test_simple/test_complex) |
|
|
|
OCR-VQA (אימון+אימות) | דיוק (בדיקה) | 72.32 | 74.61 | 74.93 |
TextVQA (אימון+אימות) | דיוק (שרת הבדיקה – std) | 55.47 | 73.15 | 76.48 |
DocVQA (אימון+אימות) | ANLS (שרת בדיקה) | 43.74 | 78.02 | 84.77 |
אינפוגרפיקה VQA (אימון+אימות) | ANLS (שרת בדיקה) | 28.46 | 40.47 | 47.75 |
SceneText VQA (אימון+אימות) | ANLS (שרת בדיקה) | 63.29 | 81.82 | 84.40 |
פילוח | ||||
RefCOCO (שילוב של refcoco, refcoco+ ו-refcocog, לא כולל תמונות של בדיקת נכונות (val) ובדיקות (test)) | MIoU (validation) refcoco/refcoco+/refcocog |
|
|
|
משימות של סרטונים (כתוביות/בקרת איכות) | ||||
MSR-VTT (כתוביות) | CIDEr (בדיקה) | 70.54 | ||
MSR-VTT (QA) | דיוק (בדיקה) | 50.09 | ||
ActivityNet (כתוביות) | CIDEr (בדיקה) | 34.62 | ||
ActivityNet (QA) | דיוק (בדיקה) | 50.78 | ||
VATEX (כתוביות) | CIDEr (בדיקה) | 79.73 | ||
MSVD (QA) | דיוק (בדיקה) | 60.22 |
מודל משולב (שינוי מדויק של שילוב משימות ההעברה)
השוואה לשוק | מדד (פיצול) | mix-224 | mix-448 |
---|---|---|---|
MMVP | דיוק במצב התאמה | 46.00 | 45.33 |
POPE | דיוק (רנדומלי/פופולרי/תוקפני) |
|
|
אתיקה ובטיחות
שיטת ההערכה
שיטות ההערכה שלנו כוללות בדיקות מובנות ובדיקות פנימיות של צוות אדום (red team) של מדיניות התוכן הרלוונטית. צוות אדום ניהל מספר צוותים שונים, לכל אחד מהם מטרות שונות ומדדים שונים של הערכה אנושית. המודלים האלה נבדקו בהתאם למספר קטגוריות שונות שקשורות לאתיקה ולבטיחות, כולל:
- הערכה אנושית של הנחיות בנושאי בטיחות ילדים, בטיחות תוכן ונזקים שקשורים לייצוג. בכרטיס המודל של Gemma מפורטת גישה דומה להערכה, אבל עם הגדרות של הוספת כיתוב לתמונות ותשובות לשאלות חזותיות.
- הערכת נקודת השוואה של תמונה לטקסט: השוואה למערכי נתונים אקדמיים רלוונטיים, כמו FairFace Dataset (Karkkainen et al., 2021).
תוצאות הבדיקה
- תוצאות הבדיקות האנושיות של האתיקה והבטיחות נמצאות בתוך ערכי הסף הקבילים לצורך עמידה במדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן ונזקים שקשורים לייצוג.
- בנוסף לבדיקות פנימיות חזקות, אנחנו משתמשים גם ב-Perspective API (סף של 0.8) כדי למדוד רעילות, שפה גסה ובעיות פוטנציאליות אחרות בכתוביות שנוצרות לתמונות שמקורן במערך הנתונים של FairFace. אנחנו מדווחים על הערכים המקסימליים והחציוניים שנצפו בקבוצות משנה לכל אחד מהמאפיינים של המגדר, האתניות והגיל שנתפסו.
מדד | מגדר נתפס | מוצא אתני | קבוצת גיל | |||
---|---|---|---|---|---|---|
מקסימום | חציון | מקסימום | חציון | מקסימום | חציון | |
תוכן רעיל | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
התקפת זהות | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Insult | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
איום | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
שפה גסה | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
שימוש ומגבלות
שימוש מיועד
למודלים גדולים של שפה מבוססת-ראייה (VLMs) יש מגוון רחב של יישומים בתחומים ובתחומים שונים. רשימת השימושים האפשריים הבאה היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע לפי הקשר לגבי תרחישים לדוגמה שאותם יוצרי המודל הגדירו כחלק מתהליך הפיתוח והאימון של המודל. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.
שיפור נוסף של משימה ספציפית של שילוב בין ראייה לבין שפה:
- אפשר לשפר את המודלים שהוכשרו מראש במגוון רחב של משימות שמשלבות בין ראייה לטקסט, כמו יצירת כיתוב לתמונות, יצירת כיתוב לסרטונים קצרים, מענה על שאלות חזותיות, קריאת טקסט, זיהוי אובייקטים ופיצול אובייקטים.
- אפשר לשפר את המודל המאומן מראש לדומיינים ספציפיים, כמו מענה על שאלות באמצעות חיישנים מרחוק, שאלות חזותיות מאנשים עיוורים, מענה על שאלות בנושאי מדע ותיאור של פונקציות של רכיבי ממשק משתמש.
- אפשר לשפר את המודלים המאומנים מראש למשימות עם תוצאות פלט שאינן טקסט, כמו תיבות מלבניות או מסכות פילוח.
מחקר בתחום הראייה והשפה:
- המודלים המאומנים מראש והמודלים שעברו כוונון יכולים לשמש כבסיס לחוקרים כדי להתנסות בשיטות VLM, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
שיקולים אתיים וסיכונים
הפיתוח של מודלים של שפה-ראייה (VLM) מעורר כמה חששות אתיים. כשיצרנו מודל פתוח, התייחסנו בקפידה לגורמים הבאים:
- הטיה והוגנות
- מודלים חזותיים גדולים (VLM) שמאומנים על נתונים רחבי היקף של תמונות וטקסט מהעולם האמיתי עשויים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בדיקה יסודית, תיארנו את העיבוד המקדים של נתוני הקלט והצגנו את ההערכות הבאות (posterior) בכרטיס הזה.
- מידע מוטעה ושימוש לרעה
- אפשר להשתמש לרעה ב-VLM כדי ליצור טקסט שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל. אפשר לקרוא אותן בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
- שקיפות ואחריותיות
- בכרטיס המודל הזה מפורטים פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח באופן אחראי מאפשר לשתף את החדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.
סיכונים שזוהו ומיטיגציות:
- המשך ההטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקות אנושיות) ולבחון שיטות להסרת הטיות במהלך אימון המודלים, השיפורים האחרונים (fine-tuning) ותרחישי שימוש אחרים.
- יצירת תוכן מזיק: מנגנונים והנחיות לבטיחות התוכן חיוניים. אנחנו ממליצים למפתחים להפעיל שיקול דעת ולהטמיע אמצעי הגנה מתאימים לבטיחות התוכן, בהתאם למדיניות המוצר הספציפית ולתרחישים לדוגמה של שימוש באפליקציה.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור למנוע שימוש זדוני ב-LLM. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח כדי שמשתמשים יוכלו לדווח על שימוש לרעה. אפשר לקרוא על כך במאמר הערכה לשימוש אחראי ב-AI גנרטיבי. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.
- הפרות פרטיות: המודלים הוכשרו על נתונים שסוננו כדי להסיר מידע אישי מסוים ונתונים רגישים. אנחנו ממליצים למפתחים לציית לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.
מגבלות
- רוב המגבלות שעברו בירושה מהמודל הבסיסי של Gemma עדיין חלות:
- מודלים של VLM מתאימים יותר למשימות שאפשר להגדיר להן הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
- שפה טבעית היא מורכבת מטבעה. יכול להיות ש-VLMs יתקשו להבין ניואנסים עדינים, סרקזם או שפה מטאפורית.
- מודלים של VLM יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים שלהם לצורך אימון, אבל הם לא מסדי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
- מודלים של VLM מסתמכים על דפוסים סטטיסטיים בשפה ובתמונות. יכול להיות שהם לא יוכלו להפעיל היגיון בריא במצבים מסוימים.
- PaliGemma תוכנן בראש ובראשונה לשמש כמודל כללי שעבר אימון מראש, לצורך כוונון מדויק למשימות מיוחדות. לכן, הביצועים שלו 'מחוץ לקופסה' או 'ללא אימון' עשויים להיות נמוכים יותר ממודלים שמיועדים במיוחד לשימוש כללי.
- PaliGemma הוא לא צ'אט בוט עם זיכרון. הוא מיועד לסבב אחד של קלט תמונות וטקסט.