דף הדגם: Gemma
משאבים ומסמכים טכניים:
התנאים וההגבלות: התנאים
מחברים: Google
פרטי הדגם
תיאור סיכום והגדרה קצרה של מקורות הקלט והפלט.
תיאור
Gemma היא משפחה של מודלים פתוחים וקלים מבית Google, שנוצרו על סמך אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. אלה מודלים גדולים של שפה מסוג 'טקסט לטקסט', עם מקודדים בלבד, שזמינים באנגלית, עם משקלים פתוחים גם לוריאנטים שהוכשרו מראש וגם לוריאנטים שהותאמו להוראות. המודלים של Gemma מתאימים למגוון משימות של יצירת טקסט, כולל מענה לשאלות, סיכום וטיעון. בזכות הגודל היחסית הקטן שלהם, אפשר לפרוס אותם בסביבות עם משאבים מוגבלים, כמו מחשב נייד, מחשב שולחני או תשתית ענן משלכם. כך אפשר לאפשר גישה לכל אחד למודלים מתקדמים של AI ולעודד חדשנות לכולם.
קלט ופלט
- קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך שרוצים לסכם.
- פלט: טקסט שנוצר בשפה האנגלית בתגובה לקלט, כמו תשובה לשאלה או סיכום של מסמך.
ציטוט ביבליוגרפי
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
נתוני מודל
הנתונים ששימשו לאימון המודל ואופן העיבוד של הנתונים.
מערך נתונים לאימון
המודלים האלה הודרכו על סמך מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. המודל עם 27 מיליארד משתנים אומן באמצעות 13 טריליון אסימונים, המודל עם 9 מיליארד משתנים אומן באמצעות 8 טריליון אסימונים והמודל עם 2 מיליארד משתנים אומן באמצעות 2 טריליון אסימונים. אלה הרכיבים העיקריים:
- מסמכי אינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל נחשף למגוון רחב של סגנונות לשוניים, נושאים ומילון. תוכן בעיקר בשפה האנגלית.
- קוד: חשיפה של המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד או להבין שאלות שקשורות לקוד.
- מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד לחשוב באופן לוגי, לייצג סמלים ולענות על שאילתות מתמטיות.
השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון של מודל שפה חזק שיכול לטפל במגוון רחב של משימות פורמטים שונים של טקסט.
עיבוד נתונים מקדים
ריכזנו כאן את השיטות העיקריות לניקוי ולסינון נתונים שחלות על נתוני האימון:
- סינון תוכן שמתאר התעללות מינית בילדים: כדי להבטיח שלא ייכלל תוכן מזיק ולא חוקי, הוחל סינון קפדני של תוכן שמתאר התעללות מינית בילדים (CSAM) בכמה שלבים בתהליך הכנת הנתונים.
- סינון של מידע אישי רגיש: כדי שהמודלים המאומנים מראש של Gemma יהיו בטוחים ואמינים, השתמשו בשיטות אוטומטיות לסינון מידע אישי מסוים ומידע רגיש אחר מקבוצות אימון.
- שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.
פרטי ההטמעה
פרטים על הרכיבים הפנימיים של המודל.
חומרה
Gemma אומנה באמצעות ציוד מדור אחרון של יחידת עיבוד נתונים טילר (TPU) (TPUv5p).
אימון מודלים גדולים של שפה דורש כוח מחשוב משמעותי. TPUs, שנועדו במיוחד לפעולות מטריצות נפוצות בלמידת מכונה, מציעים כמה יתרונות בתחום הזה:
- ביצועים: יחידות ה-TPU תוכננו במיוחד כדי לטפל בחישובים המאסיביים שנדרשים לאימון מודלים גדולים של שפה (LLM). הם יכולים לזרז את האימון באופן משמעותי בהשוואה למעבדי CPU.
- זיכרון: ל-TPUs יש בדרך כלל כמויות גדולות של זיכרון עם רוחב פס גבוה, שמאפשר לטפל במודלים גדולים ובקבוצות גדולות במהלך האימון. כך אפשר לשפר את איכות המודל.
- יכולת התאמה לעומס: TPU Pods (אשכולות גדולים של TPU) מספקים פתרון שניתן להתאמה לעומס כדי להתמודד עם המורכבות ההולכת וגדלה של מודלים גדולים של תשתית. אפשר לחלק את האימון בין כמה מכשירי TPU כדי לקבל עיבוד מהיר ויעיל יותר.
- יעילות: בתרחישים רבים, TPUs יכולים לספק פתרון יעיל יותר לאימון מודלים גדולים בהשוואה לתשתית מבוססת-מעבד, במיוחד אם מביאים בחשבון את הזמן והמשאבים שאפשר לחסוך בגלל אימון מהיר יותר.
- היתרונות האלה תואמים למחויבויות של Google לפעול באופן בר-קיימא.
תוכנה
האימון בוצע באמצעות JAX ו-ML Pathways.
JAX מאפשר לחוקרים לנצל את החומרה מהדור החדש, כולל TPU, כדי לאמן מודלים גדולים מהר יותר וביעילות רבה יותר.
ML Pathways הוא המאמץ האחרון של Google לפתח מערכות בעלות אינטליגנציה מלאכותית שיכולות להכליל משימות רבות. האפשרות הזו מתאימה במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה כמו אלה.
משתמשים ב-JAX וב-ML Pathways ביחד כפי שמתואר במאמר על משפחת המודלים של Gemini: "מודל התכנות של 'בקר יחיד' ב-Jax וב-Pathways מאפשר לתהליך Python יחיד לתזמור את כל רצף האימון, וכך לפשט באופן משמעותי את תהליך הפיתוח".
הערכה
מדדים ותוצאות של הערכת מודל.
תוצאות של בנצ'מרק
המודלים האלה נבדקו על סמך אוסף גדול של מדדים וקבוצות נתונים שונות, כדי לכסות היבטים שונים של יצירת טקסט:
השוואה לשוק | מדד | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5-shot, top-1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 צילומים | 73.0 | 81.9 | 86.4 |
PIQA | 0-shot | 77.8 | 81.7 | 83.2 |
SocialIQA | 0-shot | 51.9 | 53.4 | 53.7 |
BoolQ | 0-shot | 72.5 | 84.2 | 84.8 |
WinoGrande | ציון חלקי | 70.9 | 80.6 | 83.7 |
ARC-e | 0-shot | 80.1 | 88.0 | 88.6 |
ARC-c | 25 תמונות | 55.4 | 68.4 | 71.4 |
TriviaQA | 5-shot | 59.4 | 76.6 | 83.7 |
שאלות טבעיות | 5-shot | 16.7 | 29.2 | 34.5 |
HumanEval | pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 שוטים | 29.6 | 52.4 | 62.6 |
GSM8K | 5-shot, maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4-shot | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-shot | 30.6 | 52.8 | 55.1 |
DROP | 3 צילומים, F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3-shot, CoT | 41.9 | 68.2 | 74.9 |
אתיקה ובטיחות
הגישה והתוצאות של הערכת האתיקה והבטיחות.
הגישה להערכה
שיטות ההערכה שלנו כוללות בדיקות מובנות ובדיקות פנימיות של צוות אדום (red team) של מדיניות התוכן הרלוונטית. צוות אדום ניהל מספר צוותים שונים, לכל אחד מהם מטרות שונות ומדדים שונים של הערכה אנושית. המודלים האלה נבדקו בהתאם למספר קטגוריות שונות שקשורות לאתיקה ולבטיחות, כולל:
- בדיקת תוכן מ-Text-to-Text לבטיחות: הערכה אנושית של הנחיות שמכסות את כללי מדיניות הבטיחות, כולל התעללות מינית בילדים וניצול מיני של ילדים, הטרדה, אלימות ושפיכות דמים ודברי שטנה.
- נזק שעלול להיגרם מהצגה של טקסט כטקסט: השוואה למערכי נתונים אקדמיים רלוונטיים, כמו WinoBias ו-BBQ Dataset.
- שמירה בזיכרון: הערכה אוטומטית של שמירת נתוני אימון בזיכרון, כולל הסיכון לחשיפת פרטים אישיים מזהים.
- נזק בהיקף נרחב: בדיקות של 'יכולות מסוכנות', כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN).
תוצאות הבדיקה
התוצאות של הבדיקות האתיות והבטיחותיות נמצאות בגבולות הסף הקבילים למדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן, נזקים שקשורים לייצוג, שינון בעל פה, נזקים בקנה מידה רחב. בנוסף לבדיקות הפנימיות המקיפות, מוצגות כאן תוצאות של מדדי בטיחות ידועים כמו BBQ, BOLD, Winogender, Winobias, RealToxicity ו-TruthfulQA.
Gemma 2.0
השוואה לשוק | מדד | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | ממוצע | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1-shot, top-1 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
הערכות של יכולות מסוכנות
הגישה להערכה
בדקנו מגוון יכולות מסוכנות:
- אבטחת סייבר תוקפנית: כדי להעריך את הפוטנציאל של המודל לשימוש לרעה בהקשרים של אבטחת סייבר, השתמשנו בפלטפורמות CTF (Capture-the-Flag) שזמינות לכולם, כמו InterCode-CTF ו-Hack the Box, וגם באתגרי CTF שפותחו באופן פנימי. הבדיקות האלה מודדות את היכולת של המודל לנצל נקודות חולשה ולקבל גישה לא מורשית בסביבות סימולטיביות.
- התפשטות עצמית: כדי לבדוק את היכולת של המודל להתרבות בעצמו, תכננו משימות שכוללות צירוף משאבים, הפעלת קוד ואינטראקציה עם מערכות מרוחקות. ההערכות האלה בודקות את היכולת של המודל לשכפל ולהתפשט באופן עצמאי.
- שכנוע: כדי להעריך את היכולת של המודל לשכנע ולהטעות, ביצענו מחקרים על שכנוע אנושי. במחקרים האלה נבחנו תרחישים שמודדים את היכולת של המודל ליצור אמון, להשפיע על אמונות ולעודד פעולות ספציפיות בקרב משתתפים אנושיים.
תוצאות הבדיקה
כל הבדיקות מתוארות בפירוט במאמר Evaluating Frontier Models for Dangerous Capabilities ובקיצור בדוח הטכני של Gemma 2.
הערכה | פונקציה | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | אבטחת סייבר התקפית | 34 מתוך 76 אתגרים |
CTF פנימי | אבטחת סייבר התקפית | 1/13 אתגרים |
Hack the Box | אבטחת סייבר התקפית | 0 מתוך 13 אתגרים |
אזהרה מוקדמת על התרבות עצמית | התפשטות עצמית | אתגרים ב-1/10 |
התקפת צ'ארם | שכנוע | אחוז המשתתפים שהסכימו: 81% מעניין, 75% ידברו שוב, 80% יצרו חיבור אישי |
לחיצה על קישורים | שכנוע | 34% מהמשתתפים |
חיפוש מידע | שכנוע | 9% מהמשתתפים |
הרצת קוד | שכנוע | 11% מהמשתתפים |
כסף מדבר | שכנוע | תרומה ממוצעת בסך 3.72£ |
רשת של שקרים | שכנוע | 18% מעבר ממוצע לדעה נכונה, 1% מעבר ממוצע לדעה שגויה |
שימוש ומגבלות
למודלים האלה יש מגבלות מסוימות שחשוב שהמשתמשים יהיו מודעים אליהן.
שימוש מיועד
למודלים גדולים של שפה (LLM) פתוחים יש מגוון רחב של יישומים במגוון תחומים ותחומים. רשימת השימושים האפשריים הבאה היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע לפי הקשר לגבי תרחישים לדוגמה שאותם יוצרי המודל הגדירו כחלק מתהליך הפיתוח והאימון של המודל.
- יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט יצירתי, כמו שירים, סקריפטים, קוד, תוכן שיווקי וטיוטות של אימיילים.
- צ'אט בוטים ו-AI בממשק שיחה: ממשקי שיחה לשירות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסט, מאמרים מחקריים או דוחות.
- מחקר וחינוך
- מחקר בתחום עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כבסיס לחוקרים כדי להתנסות בשיטות NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
- כלים ללימוד שפות: תמיכה בחוויות למידה אינטראקטיביות של שפות, תיקון דקדוק או תרגול כתיבה.
- ניתוח ידע: יצירת סיכומים או מענה על שאלות בנושאים ספציפיים כדי לעזור לחוקרים לבחון כמויות גדולות של טקסט.
מגבלות
- נתונים לאימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- היקף מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם בצורה יעילה.
- הקשר ומורכבות המשימה
- מודלים של שפה גדולה מתאימים יותר למשימות שאפשר להגדיר באמצעות הנחיות והנחיות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
- הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופק (בדרך כלל, הקשר ארוך יותר מוביל לפלט טוב יותר, עד לנקודה מסוימת).
- ניואנס ודו-משמעות בשפה
- שפה טבעית היא מורכבת מטבעה. יכול להיות ש-LLMs יתקשו להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
- דיוק עובדתי
- מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים שלהם לצורך אימון, אבל הם לא מסדי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
- שיקול דעת בריא
- מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להפעיל היגיון בריא במצבים מסוימים.
שיקולים אתיים וסיכונים
הפיתוח של מודלים גדולים של שפה (LLM) מעלה כמה חששות אתיים. כשיצרנו מודל פתוח, התייחסנו בקפידה לגורמים הבאים:
- הטיה והוגנות
- מודלים גדולים של שפה (LLMs) שמתאנים על נתוני טקסט רחבי היקף מהעולם האמיתי עשויים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בדיקה קפדנית, עיבוד מקדים של נתוני הקלט שמתואר בכרטיס הזה והערכות פוסט-פרדיקטיביות שדווחו בכרטיס הזה.
- מידע מוטעה ושימוש לרעה
- אפשר להשתמש לרעה ב-LLM כדי ליצור טקסט שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל. אפשר לקרוא אותן בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
- שקיפות ואחריותיות:
- בכרטיס המודל הזה מפורטים פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח בצורה אחראית מאפשר לשתף את החדשנות על ידי הנגשת טכנולוגיית ה-LLM למפתחים ולחוקרים בסביבת ה-AI.
סיכונים שזוהו ומיטיגציות:
- המשך ההטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקות אנושיות) ולבחון שיטות להסרת הטיות במהלך אימון המודלים, השיפורים האחרונים (fine-tuning) ותרחישי שימוש אחרים.
- יצירת תוכן מזיק: מנגנונים והנחיות לשמירה על בטיחות התוכן חיוניים. מומלץ למפתחים להפעיל שיקול דעת ולהטמיע אמצעי הגנה מתאימים לשמירה על בטיחות התוכן, בהתאם למדיניות המוצר הספציפית ולתרחישים לדוגמה של שימוש באפליקציה.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור למנוע שימוש זדוני ב-LLM. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח כדי שהמשתמשים יוכלו לדווח על שימוש לרעה. המדיניות בנושא שימוש אסור ב-Gemma מפרטת את השימושים האסורים במודלים של Gemma.
- הפרות של פרטיות: המודלים הוכשרו על נתונים שסוננו להסרת פרטים אישיים מזהים (PII). אנחנו ממליצים למפתחים לציית לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.
יתרונות
נכון למועד הפרסום, משפחת המודלים הזו מספקת הטמעות פתוחות של מודלים גדולים של שפה עם ביצועים גבוהים, שתוכננו מלכתחילה לפיתוח AI אחראי, בהשוואה למודלים בגודל דומה.
לפי מדדי ההערכה של נקודות השוואה שמפורטים במסמך הזה, נראה שהמודלים האלה מספקים ביצועים טובים יותר ממודלים חלופיים פתוחים אחרים בגודל דומה.