כרטיס מודל Gemma

דף מודל: Gemma

מקורות מידע ותיעוד טכני:

תנאים והגבלות: תנאים

מחברים: Google

פרטי הדגם

תיאור סיכום והגדרה קצרה של מקורות קלט ופלט.

תיאור

Gemma היא משפחה של מודלים קלי משקל וחדשניים מבית Google, שנבנו על סמך אותם מחקר וטכנולוגיה ששימשו ליצירת הדגמים של Gemini. זהו מודל שפה גדול (LLM) של טקסט לטקסט, של מפענח בלבד, שזמין באנגלית, עם משקל פתוח, וריאנטים שעברו אימון מראש והווריאנטים שמכווננים לפי הוראות. המודלים של Gemma מתאימים למגוון משימות של יצירת טקסט, כולל מענה על שאלות, תמצות והסקת מסקנות. הגודל הקטן יחסית שלהם מאפשר לפרוס אותן בסביבות עם משאבים מוגבלים כמו מחשב נייד, מחשב או תשתית ענן משלך, מתן גישה לדמוקרטית למודלים החדשניים של AI ועידוד חדשנות לכולם.

קלט ופלט

  • קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך לסיכום.
  • פלט: טקסט שנוצר באנגלית בתגובה לקלט, כמו תשובה לשאלה או סיכום של מסמך.

ציטוט ביבליוגרפי

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

נתוני המודל

הנתונים ששימשו לאימון המודלים ואופן עיבוד הנתונים.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות, סה"כ 6 טריליון אסימונים. אלה הרכיבים המרכזיים:

  • מסמכי אינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות, נושאים ואוצר מילים. בעיקר תוכן באנגלית.
  • קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות התכנות, וכך לשפר את היכולת ליצור קוד ולהבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון של טקסט מתמטי עוזר למודל ללמוד סיבה לוגית, ייצוג סימבולי ולטפל בשאילתות מתמטיות.

השילוב של מקורות הנתונים המגוונים האלה הוא חיוני כדי לאמן מודל שפה חזק שיכול לטפל במגוון רחב של משימות ופורמטים שונים של טקסט.

עיבוד מראש של נתונים

אלה השיטות העיקריות לניקוי וסינון נתונים שחלות על נתוני האימון:

  • סינון CSAM: סינון תוכן שמתאר התעללות מינית בילדים (CSAM, תוכן שמתאר התעללות מינית בילדים) מיושם במספר שלבים בתהליך הכנת הנתונים, כדי להבטיח אי-הכללה של תוכן מזיק ולא חוקי.
  • סינון מידע אישי רגיש: כחלק מהפיכת המודלים שעברו אימון מראש של Gemma לבטוחים ומהימנים, נעשה שימוש בשיטות אוטומטיות לסינון פרטים אישיים מסוימים ונתונים רגישים אחרים מערכות אימון.
  • שיטות נוספות: סינון לפי איכות התוכן והבטיחות בהתאם לכללי המדיניות שלנו.

מידע על ההטמעה

פרטים על החלקים הפנימיים של המודל.

חומרה

Gemma הוכשרה באמצעות הדור החדש של חומרת Tensor Processing Unit (TPU) (TPUv5e).

אימון מודלים גדולים של שפה דורש כוח חישוב משמעותי. לספקי TPU, שמיועדים במיוחד לפעולות מטריצות נפוצות בלמידת מכונה, יש כמה יתרונות בתחום:

  • ביצועים: יחידות TPU תוכננו במיוחד לטיפול בחישובים המסיביים הכרוכים באימון מודלים גדולים של שפה (LLM). הם יכולים לזרז את האימון במידה משמעותית בהשוואה למעבדים (CPU).
  • זיכרון: לרוב, יחידות TPU כוללות כמויות גדולות של זיכרון ברוחב פס גבוה, מה שמאפשר טיפול בדגמים גדולים ובגדלי אצווה במהלך אימון. כך תוכלו לשפר את איכות המודל.
  • מדרגיות: TPU Pods (אשכולות גדולים של TPU) מספקים פתרון שניתן להתאמה לטיפול במורכבות ההולכת וגדלה של מודלים גדולים של בסיס. אפשר לפזר את ההדרכה בין מספר מכשירי TPU כדי לעבד אותם במהירות וביעילות רבה יותר.
  • חיסכון בעלויות: בתרחישים רבים, יחידות ה-TPU יכולות לספק פתרון משתלם יותר לאימון מודלים גדולים בהשוואה לתשתית מבוססת-מעבד (CPU), במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכו כתוצאה מאימון מהיר יותר.
  • היתרונות האלה תואמים למחויבות של Google לפעול באופן בר קיימא.

תוכנות

ההדרכה נעשתה באמצעות JAX ו-ML Pathways.

JAX מאפשרת לחוקרים לנצל את הדור החדש של החומרה, כולל TPU, כדי לבצע אימון מהיר ויעיל יותר של דגמים גדולים.

ML Pathways הוא המאמץ האחרון של Google לבניית מערכות חכמות מלאכותיות שמסוגלות ליצור הכללה למשימות מרובות. המודל הזה מתאים במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה (LLM) כמו אלה.

ביחד, נעשה שימוש ב-JAX וב-ML Pathways כפי שמתואר בסקירה על משפחת המודלים של Gemini. "מודל התכנות 'בקר יחיד' ב-Jax ו-Pathways מאפשר תהליך אחד ב-Python לתזמר את כל הרצת האימון, ובכך לפשט באופן דרמטי את תהליך הפיתוח."

הערכה

התוצאות והמדדים של הערכת המודל.

תוצאות השוואה לשוק

המודלים האלה הוערכו מול אוסף גדול של מערכי נתונים ומדדים שונים כדי לכסות היבטים שונים של יצירת טקסט:

השוואה לשוק המדד Gemma PT 2B Gemma PT 7B
MMLU חבטות 5, 1+ 42.3 64.3
HellaSwag ניסיון ראשון 71.4 81.2
PIQA ניסיון ראשון 77.3 81.2
SocialIQA ניסיון ראשון 49.7 51.8
BoolQ ניסיון ראשון 69.4 83.2
WinoGrande ניקוד חלקי 65.4 72.3
CommonsenseQA חבטות 7 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA חבטה 53.2 63.4
שאלות טבעיות חבטה 12.5 23.0
HumanEval Pass@1 22.0 32.3
MBPP 3 חבטות 29.2 44.4
GSM8K Maj@1 17.7 46.4
MATH חבטה 4 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 137.1
ממוצעת 44.9 56.4

אתיקה ובטיחות

הגישה והתוצאות של הערכת אתיקה ובטיחות.

תהליך ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקה פנימית של צוותים אדומים של מדיניות תוכן רלוונטית. צוותים אדומים התנהלו על ידי מספר צוותים שונים, שלכל אחד מהם יעדים שונים ומדדי הערכה אנושיים. המודלים האלה נבדקו מול מספר קטגוריות שונות שרלוונטיות לאתיקה ולבטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית של הנחיות העוסקות בכללי מדיניות הבטיחות, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות ומראות קשים ודברי שטנה.
  • פגיעה בייצוג של טקסט לטקסט: נקודת השוואה ביחס למערכי נתונים אקדמיים רלוונטיים כמו WinoBias ומערך נתונים של ברביקיו.
  • שינון: הערכה אוטומטית של שינון נתוני אימון, כולל הסיכון לחשיפה של פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות לזיהוי 'יכולות מסוכנות', כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN).

תוצאות ההערכה

התוצאות של הערכות אתיקה ובטיחות עומדות בערכי הסף המקובלים לעמידה במדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן, נזק בייצוגים, שינון ונזקים בקנה מידה גדול. בנוסף להערכות פנימיות מהימנות, מוצגות כאן התוצאות של נקודות השוואה ידועות בנושאי בטיחות, כמו גריל, הדגשה, Winogender, Winobias, RealToxicity ו-TruthfulQA.

Gemma 1.0

השוואה לשוק המדד Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity ממוצע 38.44 7.90
מודגש 45.57 49.08
CrowS-Pairs top-1 45.82 51.33
BBQ Ambig חבטה אחת, למעלה מ-1 62.58 92.54
דיסמביג' (BBQ) top-1 54.62
Winogender top-1 51.25 54.17
TruthfulQA 44.84 31.81
Winobia 1_2 56.12 59.09
Winobia 2_2 91.10 92.23
רעלים 29:77 39.59

Gemma 1.1

השוואה לשוק המדד Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity ממוצע 7.03 8.04
מודגש 71.74
CrowS-Pairs top-1 49:67
BBQ Ambig חבטה אחת, למעלה מ-1 58.97 86.06
דיסמביג' (BBQ) top-1 53.90 85.08
Winogender top-1 50.14 57.64
TruthfulQA 44.24 187.36
Winobia 1_2 55.93 59.22
Winobia 2_2 89.46 89.2
רעלים 29:64 38.75

שימוש והגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים אליהן.

שימוש מיועד

למודלים פתוחים של שפה (LLM) יש מגוון רחב של אפליקציות בתחומים ובדומיינים שונים. רשימת השימושים הפוטנציאליים הבאה אינה מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי לגבי תרחישי השימוש האפשריים שיוצרי המודל שקלו כחלק מאימון המודל והפיתוח שלו.

  • יצירת תוכן ותקשורת איתו
    • Text Generation: אפשר להשתמש במודלים האלה כדי ליצור פורמטים יצירתיים של טקסט, כמו שירים, סקריפטים, קוד, תוכן שיווקי וטיוטות אימיילים.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקי שיחה מתקדמים לשירות לקוחות, עוזרים דיגיטליים וירטואליים או אפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסט, מחקרים או דוחות.
  • מחקר וחינוך
    • מחקר של עיבוד שפה טבעית (NLP): מודלים אלה יכולים לשמש כבסיס לחוקרים, במטרה לאפשר לחוקרים להתנסות בטכניקות NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
    • כלי למידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה, סיוע בתיקון דקדוק או תרגול כתיבה.
    • חקר ידע: אפשר לסייע לחוקרים לחקור גופי טקסט גדולים על ידי יצירת סיכומים או מענה על שאלות בנושאים ספציפיים.

הגבלות

  • נתוני אימון
    • האיכות והגיוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתגובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע באילו נושאים המודל יכול לטפל ביעילות.
  • הקשר ומורכבות המשימות
    • מודלים גדולים יותר טובים יותר במשימות שאפשר לשלב בעזרת הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד יכולות להיות מאתגרות.
    • הביצועים של המודל יכולים להיות מושפעים מכמות ההקשר שניתן לספק (הקשר ארוך יותר מוביל בדרך כלל לפלטים טובים יותר, עד לנקודה מסוימת).
  • עמימות וניואנסים בשפה
    • שפה טבעית היא שפה מורכבת מטבעה. יכול להיות שמודלים מסוג LLM מתקשים להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים גדולים של שפה יוצרים תשובות שמבוססות על מידע שהם למדו ממערכי הנתונים שלהם, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
  • השכל ישר
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. במצבים מסוימים, הם לא יוכלו להשתמש בהיגיון בריא.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה מספר חששות אתיים. ביצירת מודל פתוח, שקלנו בקפידה את הנקודות הבאות:

  • הטיה והגינות
    • מודלי שפה גדולים שהוכשרו לפי נתוני טקסט גדולים מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר ההדרכה. המודלים האלה עברו בדיקה קפדנית, תיאור של עיבוד הנתונים לפני עיבוד הנתונים והערכות נוספות שדווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר לעשות שימוש לרעה במודלי שפה גדולים כדי ליצור טקסט שקרי, מטעה או מזיק.
    • ההנחיות לשימוש אחראי במודל מפורטות במאמר Responsible Generative AI Toolkit.
  • שקיפות ואחריות:
    • כרטיס המודל הזה מסכם את הפרטים של הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מספק הזדמנות לשיתוף חדשנות על ידי הפיכת טכנולוגיית LLM לנגישה למפתחים ולחוקרים בסביבה העסקית של AI.

זוהו סיכונים ומיטיגציות:

  • שימור הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקירת שיטות לביטול הטיה במהלך אימון המודל, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: המנגנונים וההנחיות לשמירה על בטיחות התוכן הם חיוניים. מומלץ למפתחים לנהוג בזהירות וליישם אמצעי הגנה הולמים לשמירה על בטיחות התוכן בהתאם למדיניות המוצר הספציפית שלהם ולתרחישים לדוגמה שבהם הם משתמשים.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור במניעת יישומים זדוניים של מודלים מסוג LLM. יש באתר מקורות מידע ומנגנוני דיווח שמאפשרים למשתמשים לדווח על שימוש לרעה. שימושים אסורים במודלים של Gemma מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות בנושא פרטיות: המודלים אומנו על סמך נתונים שסוננו כדי להסיר פרטים אישיים מזהים (פרטים אישיים מזהים). מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.

יתרונות

נכון למועד ההשקה, משפחת המודלים הזו מספקת הטמעות איכותיות של מודלים פתוחים של מודל שפה גדול (LLM) בעלי ביצועים גבוהים, שתוכננו מהיסוד לפיתוח בינה מלאכותית אחראית, בהשוואה למודלים בגדלים דומים.

בעזרת מדדי ההשוואה לשוק שמתוארים במסמך הזה, המודלים האלה הוכיחו שהם מספקים ביצועים טובים יותר מחלופות אחרות של מודלים פתוחים בגודל דומה.