דף המודל: Gemma
מקורות מידע ומסמכי תיעוד טכניים:
תנאים והגבלות: תנאים
מחברים: Google
פרטי הדגם
תיאור סיכום והגדרה קצרה של קלט ופלט.
תיאור
Gemma היא משפחה של מודלים פתוחים וחדשניים מבית Google, שמבוסס על אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. הם מודלים גדולים של שפה (LLM) של טקסט לטקסט ומפענחים בלבד, שזמינים באנגלית בלבד, עם משקולות פתוחות, וריאנטים שעברו אימון מראש וגרסאות מותאמות לפי הוראה. Gemma מאוד מתאימים למגוון משימות של יצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. הגודל שלהן קטן יחסית מאפשרת לפרוס אותם בסביבות עם משאבים מוגבלים כמו מחשב נייד, מחשב שולחני או תשתית ענן משלכם, וכך מעניקה גישה דמוקרטית במודלים המתקדמים של AI, ועוזרים לטפח חדשנות עבור כולם.
קלט ופלט
- קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך. הוא תקציר.
- פלט: הטקסט נוצר באנגלית בתגובה לקלט, למשל כתשובה לשאלה או כסיכום של מסמך.
ציטוט ביבליוגרפי
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
נתוני המודל
נתונים ששימשו לאימון מודלים ואופן העיבוד שלהם.
מערך נתונים לאימון
המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב מקורות, בסך 6 טריליון אסימונים. אלו הם הרכיבים העיקריים:
- מסמכי אינטרנט: איסוף מגוון של טקסט באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. בעיקר תוכן באנגלית.
- קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים שפות תכנות, שמשפרות את היכולת ליצור להבין שאלות שקשורות לקוד.
- מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד לוגיות הסקת מסקנות, ייצוג סימבולי ומענה לשאילתות מתמטיות.
השילוב של מקורות הנתונים המגוונים האלה הוא חיוני לאימון שיכול לטפל במגוון רחב של משימות וטקסטים שונים פורמטים.
עיבוד מראש של נתונים
אלה השיטות העיקריות לניקוי ולסינון של נתונים שמוחלים בהדרכה נתונים:
- סינון CSAM: סינון CSAM (תוכן ויזואלי של התעללות מינית בילדים) היה מחמיר מיושמת במספר שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
- סינון מידע אישי רגיש: כחלק מהפיכת המודלים שעברו אימון מראש ל-Gemma לבטוחים נעשה שימוש בשיטות אוטומטיות ואמינות כדי לסנן החוצה מידע אישי רגיש אחר מערכות אימון.
- שיטות נוספות: סינון לפי איכות ובטיחות של התוכן, בהתאם המדיניות שלנו.
מידע על ההטמעה
פרטים על מידע פנימי של המודל.
חומרה
Gemma אומנה באמצעות הדור האחרון של חומרת Tensor Processing Unit (TPU) (TPUv5e).
אימון מודלים גדולים של שפה דורש כוח חישוב משמעותי. יחידות TPU, שמיועדות ספציפית לפעולות מטריצות שנפוצות בלמידת מכונה, לתחום זה יש מספר יתרונות:
- ביצועים: מעבדי TPU תוכננו במיוחד לטפל בחישובים מסיביים באימון של מודלים גדולים של שפה. הם יכולים לזרז משמעותית את האימון, מעבדים (CPUs).
- זיכרון: בדרך כלל, מעבדי TPU כוללים כמויות גדולות של זיכרון ברוחב פס גבוה, לטיפול במודלים גדולים ובגדלים מרובים של אצווה במהלך אימון. מי יכול יובילו לשיפור באיכות המודל.
- מדרגיות: TPU Pods (אשכולות גדולים של מעבדי TPU) מספקים פתרון ניתן להתאמה עבור להתמודד עם המורכבות ההולכת וגדלה של מודלים גדולים של בסיס. אפשר להפיץ אימון במכשירי TPU מרובים, לעיבוד מהיר ויעיל יותר.
- יעילות כלכלית: בתרחישים רבים, מעבדי TPU יכולים לספק לאימון מודלים גדולים בהשוואה לתשתית שמבוססת על מעבדים (CPU), במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכו באמצעות באימון.
- יתרונות אלה מותאמים המחויבות של Google לפעול באופן בר קיימא.
תוכנה
ההדרכה בוצעה באמצעות JAX ו-ML Pathways.
JAX מאפשר לחוקרים לנצל את הדור החדש של החומרה, כולל מעבדי TPU, לאימון מהיר ויעיל יותר של מודלים גדולים.
מסלולי למידת מכונה הם המאמצים האחרונים של Google לפתח מערכות אינטליגנטיות באופן מלאכותי יכולת לכלול במשימות מרובות. מתאים במיוחד עבור מודלים בסיסיים, כולל מודלים גדולים של שפה כמו האלה.
אנחנו משתמשים ביחד במסלולי JAX ו-ML כמתואר מאמר על משפחת המודלים של Gemini; "היחיד בקר את מודל התכנות Jax ו-Pathways כדי לתזמר את כל הרצת האימון, ולהפוך אותו לפשוט יותר של Google."
הערכה
המדדים והתוצאות של הערכת המודל.
תוצאות השוואה לשוק
המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים שונים כדי למדוד היבטים שונים של יצירת טקסט:
השוואה לשוק | מדד | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 תמונות, ה-1-1 | 42.3 | 64.3 |
HellaSwag | אפס בעיטות | 71.4 | 81.2 |
PIQA | אפס בעיטות | 77.3 | 81.2 |
SocialIQA | אפס בעיטות | 49.7 | 51.8 |
BoolQ | אפס בעיטות | 69.4 | 83.2 |
WinoGrande | ציון חלקי | 65.4 | 72.3 |
CommonsenseQA | 7 שוטים | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5 שוטים | 53.2 | 63.4 |
שאלות טבעיות | 5 שוטים | 12.5 | 23.0 |
HumanEval | Pass@1 | 22.0 | 32.3 |
MBPP | שלשות | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4 שוטים | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
ממוצעת | 44.9 | 56.4 |
אתיקה ובטיחות
הגישה והתוצאות של הערכת אתיקה ובטיחות.
גישת ההערכה
שיטות ההערכה שלנו כוללות הערכות מובנות וצוות אדום פנימי בדיקה של מדיניות תוכן רלוונטית. הצוות האדום נוהל על ידי צוותים שונים, ולכל אחד מהם יש יעדים שונים ומדדי הערכה אנושיים שונים. האלה בוצעה הערכה של המודלים לפי מספר קטגוריות שונות שרלוונטיות אתיקה ובטיחות, כולל:
- בטיחות תוכן של טקסט לטקסט: הערכה אנושית לפי הנחיות שמכסות את הבטיחות כללי מדיניות שונים, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות מראות קשים, ודברי שטנה.
- פגיעה ייצוגית בטקסט לטקסט: נקודת השוואה לעומת אנשי אקדמיה רלוונטיים מערכי נתונים כמו WinoBias ו-BBQ Dataset.
- זכרון: הערכה אוטומטית של שינון נתוני אימון, כולל את הסיכון לחשיפת פרטים אישיים מזהים.
- נזק בקנה מידה גדול: בדיקות ל"יכולות מסוכנות", כמו כימיקלים, ביולוגיה, רדיולוגית וגרעינית (CBRN).
תוצאות הבדיקה
התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף המקובלות לעמידה בכללי המדיניות הפנימיים של קטגוריות כמו קטגוריית צאצא בטיחות, בטיחות תוכן, פגיעות ייצוגיות, שינון, פגיעות בקנה מידה גדול. בנוסף להערכות פנימיות מחמירות, התוצאות של בטיחות ידועה נקודות השוואה כמו ברביקיו, BOLD, Winogender, Winobias, RealToxicity ו-TruthfulQA מוצגות כאן.
Gemma 1.0
השוואה לשוק | מדד | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | ממוצע | 6.86 | 30.90 ש"ח |
BOLD | 45.57 | 49.08 | |
זוגות עורבים | top-1 | 45.82 | 51.33 |
BBQ Ambig | תמונה אחת, ראשון | 62.58 | 92.54 |
מנגל שונה | top-1 | 54.62 | 71.99 |
ווינוג'נדר | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
השוואה לשוק | מדד | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | ממוצע | 7.03 | 8.04 |
BOLD | 47.76 | ||
זוגות עורבים | top-1 | 45.89 | 49.67 |
BBQ Ambig | תמונה אחת, ראשון | 58.97 | 86.06 |
מנגל שונה | top-1 | 53.90 | 85.08 |
ווינוג'נדר | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
שימוש ומגבלות
למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.
שימוש מיועד
למודלים גדולים של שפה (LLMs) יש מגוון רחב של אפליקציות בכל בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודלים חשבו כחלק מהמודל במהלך האימון והפיתוח.
- יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט קריאייטיב. כמו שירים, סקריפטים, קודים, תוכן שיווקי וטיוטות אימייל.
- צ'אט בוטים ו-AI בממשק שיחה: ממשקים מתקדמים לשיחה ללקוחות שירות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של מאגר הטקסט, מחקר מאמרים קשורים, או דוחות.
- מחקר וחינוך
- מחקר של עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כדי שחוקרים יוכלו להתנסות בטכניקות NLP, לפתח ותורמים לקידום התחום.
- כלים ללמידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה סיוע בתיקון דקדוק או תרגול כתיבה.
- חקירה: סיוע לחוקרים לחקור גופי טקסט גדולים באמצעות יצירת סיכומים או מענה על שאלות לגבי נושאים ספציפיים.
מגבלות
- נתוני אימון
- האיכות והמגוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים מגבלות בתגובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושא שהמודל יכול לטפל ביעילות.
- הקשר ומורכבות המשימות
- מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות ברורות הוראות להתאמה אישית. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
- כמות ההקשרים יכולה להשפיע על הביצועים של מודל (הקשר ארוך יותר בדרך כלל מוביל לפלט טוב יותר, עד לנקודה מסוימת).
- חוסר בהירות וניואנסים של השפה
- שפה טבעית היא מטבעה מורכבת. מודלים גדולים של שפה יכולים להתקשות להבין את הנתונים ניואנסים, סרקזם או שפה פיגורטיבית.
- דיוק עובדתי
- מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו מהמודלים מערכי נתונים לאימון, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או מיושנות.
- היגיון בריא
- מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. ייתכן שאין להם אפשרות להפעיל הסקת היגיון בריאה במצבים מסוימים.
שיקולים וסיכונים אתיים
הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:
- דעות קדומות והוגנות
- מודלים גדולים של שפה (LLM) שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף היבטים חברתיים-תרבותיים הטיות שמוטמעות בחומר האימון. המודלים האלה עברו בחינה מדוקדקת, תיאור לפני עיבוד של נתוני קלט והערכות לאחור דווחו בכרטיס הזה.
- מידע מוטעה ושימוש לרעה
- אפשר להשתמש לרעה במודלים גדולים של שפה (LLM) כדי ליצור טקסט שקרי, מטעה או מזיק.
- אפשר לקבל הנחיות לשימוש אחראי במודל. אפשר לעיין ערכת כלים אחראית של בינה מלאכותית גנרטיבית.
- שקיפות ואחריות:
- כרטיס המודל הזה מסכם פרטים על המודלים של הארכיטקטורה, יכולות, מגבלות ותהליכי הערכה.
- מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשניות באמצעות הפיכת טכנולוגיית LLM לנגישה למפתחים ולחוקרים בסביבה העסקית של הבינה המלאכותית.
סיכונים שזוהו ומיטיגציות:
- הכחשת הטיות: מומלץ לבצע ניטור רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקר ההטיה במהלך אימון מודלים, כוונון עדין ותרחישים לדוגמה אחרים.
- יצירת תוכן פוגעני: מנגנונים והנחיות לשמירה על בטיחות התוכן חיוניות. אנחנו ממליצים למפתחים לנהוג בזהירות ולהטמיע אמצעי הגנה הולמים לשמירה על בטיחות תוכן בהתאם למדיניות המוצר הספציפית שלהם ותרחישים לדוגמה של אפליקציות.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות ומפתחים, וגם הכשרה של משתמשי קצה יכולה לסייע בהתמודדות עם אפליקציות זדוניות של מודלי שפה גדולים. מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים לצורך סימון שימוש לרעה שניתנו. השימושים האסורים במודלים של Gemma מפורטים המדיניות בנושא שימוש אסור ב-Gemma.
- הפרות פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרת פרטים אישיים מזהים (פרטים אישיים מזהים). אנחנו ממליצים למפתחים לפעול בהתאם להנחיות תקנות בנושא פרטיות עם טכניקות לשמירה על הפרטיות.
יתרונות
במועד ההשקה, משפחת הדגמים הזו מספקת ביצועים גבוהים במצב פתוח של מודלים גדולים של שפה, שתוכננו מהבסיס, כדי של בינה מלאכותית גנרטיבית בהשוואה למודלים בגודל דומה.
המודלים הבאים מתבססים על מדדי ההערכה של המקובל בשוק שמתוארים במסמך הזה הוכיחו את הביצועים הטובים ביותר של מודל פתוח אחר, בגודל דומה חלופות.