כרטיס של מודל Gemma 2

דף המודל: Gemma

מקורות מידע ומסמכי תיעוד טכניים:

תנאים והגבלות: תנאים

מחברים: Google

פרטי הדגם

תיאור סיכום והגדרה קצרה של קלט ופלט.

תיאור

Gemma היא משפחה של מודלים פתוחים מתקדמים וקלים מבית Google, שמבוססים על אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. הם מודלים גדולים של שפה (LLM) של טקסט לטקסט ומפענח בלבד, והם זמינים באנגלית, עם משקולות פתוחות גם לווריאציות שעברו אימון מראש וגם לווריאציות שמותאמות להוראה. מודלים של Gemma מתאימים למגוון משימות ליצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. הגודל שלהן קטן יחסית מאפשר לפרוס אותן בסביבות עם משאבים מוגבלים, כמו מחשב נייד, מחשב או תשתית ענן משלכם, וכך לאפשר גישה למודלים המתקדמים ביותר של AI ולעודד חדשנות בשביל כולם.

קלט ופלט

  • קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך לסיכום.
  • פלט: טקסט שנוצר בשפה האנגלית בתגובה לקלט, כמו תשובה לשאלה או סיכום של מסמך.

ציטוט ביבליוגרפי

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

נתוני המודל

נתונים ששימשו לאימון מודלים ואופן העיבוד שלהם.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. מודל 27B אומן עם 13 טריליוני אסימונים ומודל 9B אומן עם 8 טריליון אסימונים. אלו הם הרכיבים העיקריים:

  • מסמכי אינטרנט: אוסף מגוון של טקסטים מהאינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות, נושאים ואוצרות לשוניים. בעיקר תוכן באנגלית.
  • קוד: חשיפת המודל לקוד עוזרת ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד או להבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון לטקסט מתמטי עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ומענה לשאילתות מתמטיות.

השילוב של מקורות הנתונים המגוונים האלה הוא חיוני לאימון של מודל שפה עוצמתי שיכול להתמודד עם מגוון רחב של משימות ופורמטים שונים של טקסט.

עיבוד מראש של נתונים

ריכזנו כאן את השיטות העיקריות לניקוי ולסינון של נתוני האימון:

  • סינון CSAM: סינון מחמיר של CSAM (תוכן שמתאר התעללות מינית בילדים) הוחל במספר שלבים בתהליך הכנת הנתונים כדי להבטיח אי-הכללה של תוכן מזיק ולא חוקי.
  • סינון מידע אישי רגיש: כחלק מהפיכת המודלים שעברו אימון מראש ל-Gemma כבטוחים ואמינים, השתמשנו בטכניקות אוטומטיות כדי לסנן מידע אישי מסוים ומידע אישי רגיש אחר מערכות האימון.
  • שיטות נוספות: סינון לפי איכות ובטיחות של התוכן בהתאם לכללי המדיניות שלנו.

מידע על ההטמעה

פרטים על מידע פנימי של המודל.

חומרה

Gemma אומנה באמצעות הדור האחרון של חומרת Tensor Processing Unit (TPU) (TPUv5p).

אימון מודלים גדולים של שפה דורש כוח חישוב משמעותי. למעבדי TPU, שמיועדים במיוחד לפעולות מטריצות נפוצות בלמידת מכונה, יש כמה יתרונות בתחום הזה:

  • ביצועים: יחידות TPU תוכננו באופן ספציפי לטפל בחישובים העצומים שקשורים לאימון של מודלים גדולים של שפה (LLM). הם יכולים לזרז משמעותית את האימון בהשוואה למעבדים.
  • זיכרון: לרוב, מעבדי TPU כוללים כמויות גדולות של זיכרון ברוחב פס גבוה, מה שמאפשר להם להתמודד עם מודלים גדולים וגדלים מרובים של אצווה במהלך אימון. כך תוכלו לשפר את איכות המודל.
  • מדרגיות: TPU Pods (אשכולות גדולים של מעבדי TPU) מספקים פתרון ניתן להתאמה לטיפול במורכבות ההולכת וגדלה של מודלים גדולים של בסיס. אתם יכולים לחלק את האימון בין מכשירי TPU שונים כדי לעבד אותם מהר יותר וביעילות רבה יותר.
  • יחס עלות-תועלת: בהרבה תרחישים, מעבדי TPU יכולים לספק פתרון חסכוני יותר לאימון מודלים גדולים בהשוואה לתשתית שמבוססת על המעבד (CPU), במיוחד כשמביאים בחשבון את הזמן והמשאבים שחוסכים בזכות אימון מהיר יותר.
  • היתרונות האלה תואמים למחויבות של Google לפעול באופן בר קיימא.

תוכנות

ההדרכה בוצעה באמצעות JAX ו-ML Pathways.

JAX מאפשר לחוקרים לנצל את הדור החדש של החומרה, כולל מעבדי TPU, כדי לבצע אימון מהיר ויעיל יותר של מודלים גדולים.

ML Pathways הוא התהליך האחרון של Google לפתח מערכות בינה מלאכותית (AI) שיכולות לכלול הכללות של משימות מרובות. הוא מתאים במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה (LLM) כמו אלה.

אפשר להשתמש ב-JAX וב-ML Pathways כפי שמתואר במאמר על משפחת המודלים של Gemini. 'מודל התכנות 'בקר יחיד' של Jax ו-Pathways מאפשר תהליך אחד ב-Python, שמפשט את כל הרצת האימון, ומפשט באופן דרמטי את תהליך הפיתוח."

הערכה

המדדים והתוצאות של הערכת המודל.

תוצאות השוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת הטקסט:

השוואה לשוק המדד Gemma PT 9B Gemma PT 27B
MMLU 5 תמונות, ה-1-1 71.3 75.2
HellaSwag 10 שוטים 81.9 86.4
PIQA אפס בעיטות 81.7 83.2
SocialIQA אפס בעיטות 53.4 53.7
BoolQ אפס בעיטות 84.2 84.8
WinoGrande ציון חלקי 80.6 83.7
ARC-e אפס בעיטות 88.0 88.6
ARC-c 25 שוטים 68.4 71.4
TriviaQA 5 שוטים 76.6 83.7
שאלות טבעיות 5 שוטים 29.2 34.5
HumanEval Pass@1 40.2 51.8
MBPP שלשות 52.4 62.6
GSM8K 5-shot, maj@1 68.6 74.0
MATH 4 שוטים 36.6 42.3
AGIEval 3-5 שוטים 52.8 55.1
BIG-Bench 3 שוטים, קוטל 68.2 74.9

אתיקה ובטיחות

הגישה והתוצאות של הערכת אתיקה ובטיחות.

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקה פנימית של צוות אדום לגבי כללי מדיניות התוכן הרלוונטיים. הצוות האדום נוהל על ידי כמה צוותים שונים, ולכל אחד מהם היו יעדים שונים ומדדי הערכה שונים. המודלים האלה נבדקו ביחס למספר קטגוריות שונות שרלוונטיות לאתיקה ובטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית לגבי הנחיות שכוללות מדיניות בטיחות, כולל התעללות מינית בילדים וניצול של ילדים, הטרדה, אלימות, מראות קשים ודברי שטנה.
  • פגיעה ייצוגית של טקסט לטקסט: נקודת השוואה מול מערכי נתונים אקדמיים רלוונטיים כמו WinoBias ו-BBQ Dataset.
  • זיכרון: הערכה אוטומטית של שינון נתוני אימון, כולל סיכון לחשיפת פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות ל'יכולות מסוכנות', כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN).

תוצאות הבדיקה

התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף הקבילות לעמידה בכללי המדיניות הפנימיים של קטגוריות כמו בטיחות ילדים, בטיחות תוכן, פגיעה ייצוגית, שינון ופגיעות בקנה מידה גדול. בנוסף להערכות פנימיות מחמירות, מוצגות כאן התוצאות של נקודות השוואה בטיחות ידועות כמו ברביקיו, BOLD, Winogender, Winobias, RealToxicity ו-TruthfulQA.

Gemma 2.0

השוואה לשוק המדד Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity ממוצע 8.25 8.84
זוגות עורבים top-1 37.47 36.67
BBQ Ambig תמונה אחת, ראשון 88.58 85.99
מנגל שונה top-1 82.67 86.94
ווינוג'נדר top-1 79.17 77.22
TruthfulQA 50.27 51.60
Winobias 1_2 78.09 81.94
Winobias 2_2 95.32 97.22
רעיגן 39.30 38.42

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים גדולים של שפה (LLM) יש מגוון רחב של אפליקציות בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי לגבי תרחישי השימוש האפשריים שיוצרי המודלים התייחסו אליהם כחלק מאימון המודל ופיתוחו.

  • יצירת תוכן ותקשורת בין משתמשים
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט יצירתי כמו שירים, סקריפטים, קודים, טקסטים שיווקיים וטיוטות אימייל.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקים מתקדמים לשיחות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר הטקסט, מאמרי מחקר או דוחות.
  • מחקר וחינוך
    • מחקר של עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כבסיס לחוקרים המיועדים להתנסות בטכניקות NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
    • כלים ללמידת שפה: תומכים בחוויות אינטראקטיביות של למידת שפה, ועוזרים לתקן דקדוק או לתרגל כתיבה.
    • חקר ידע: הם עוזרים לחוקרים לחקור גופי טקסט גדולים על ידי יצירת סיכומים או מענה על שאלות בנושאים ספציפיים.

מגבלות

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע באילו תחומי נושא המודל יכול לטפל ביעילות.
  • הקשר ומורכבות המשימות
    • מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • כמות ההקשרים יכולה להשפיע על הביצועים של המודל (הקשר ארוך יותר בדרך כלל מוביל לפלט טוב יותר, עד לנקודה מסוימת).
  • חוסר בהירות וניואנסים של השפה
    • שפה טבעית היא מטבעה מורכבת. מודלי שפה גדולים עשויים להתקשות להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים מסוג LLM יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים לאימון, אבל הם לא מאגרי ידע. הם עלולים ליצור הצהרות עובדתיות שגויות או מיושנות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יכולים להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • דעות קדומות והוגנות
    • מודלים מסוג LLM שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בחינה מדוקדקת, שתוארו לפני עיבוד נתוני הקלט וההערכות הבאות שדווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריות:
    • כרטיס המודל הזה מסכם פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשנות ולהנגיש את טכנולוגיית ה-LLM למפתחים ולחוקרים בסביבה העסקית של ה-AI.

סיכונים שזוהו ומיטיגציות:

  • הכחשת הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקירה של שיטות להסרת הטיות במהלך אימון המודל, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: חייבים להשתמש במנגנונים ובהנחיות לשמירה על בטיחות התוכן. אנחנו ממליצים למפתחים לנהוג בזהירות וליישם אמצעי הגנה הולמים לשמירה על בטיחות התוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציות שלהם.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה של מפתחים ומשתמשי קצה יכולים לסייע בהתמודדות עם אפליקציות זדוניות של מודלים מסוג LLM. סופקו מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים כדי לדווח על שימוש לרעה. השימושים האסורים במודלים של Gemma מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרת פרטים אישיים מזהים (PII). מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות תוך שימוש בשיטות לשמירה על הפרטיות.

יתרונות

במועד ההשקה, משפחת המודלים הזו מספקת ביצועים גבוהים של הטמעות של מודל שפה גדול (LLM) עם ביצועים גבוהים, שתוכננו מהיסוד לפיתוח אחראי של בינה מלאכותית (AI), בהשוואה למודלים בגודל דומה.

בעזרת מדדי ההערכה של נקודות ההשוואה שמתוארים במסמך הזה, המודלים האלה משפרים את הביצועים ביחס לחלופות אחרות של מודל פתוח בגודל דומה.