כרטיס של מודל Gemma 2

דף המודל: Gemma

מקורות מידע ומסמכי תיעוד טכניים:

תנאים והגבלות: תנאים

מחברים: Google

פרטי הדגם

תיאור סיכום והגדרה קצרה של קלט ופלט.

תיאור

Gemma היא משפחה של מודלים פתוחים וחדשניים מבית Google, שמבוסס על אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. הם מודלים גדולים של שפה (LLM) של טקסט לטקסט ומפענחים בלבד, שזמינים באנגלית בלבד, עם משקולות פתוחות גם לווריאציות שעברו אימון מקדים וגם וריאנטים שכווננו לפי הוראות. מודלים של Gemma מתאימים למגוון רחב של משימות ליצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. הגודל שלהן קטן יחסית מאפשרת לפרוס אותם בסביבות עם משאבים מוגבלים כמו מחשב נייד, מחשב שולחני או תשתית ענן משלכם, וכך מעניקה גישה דמוקרטית במודלים המתקדמים של AI, ועוזרים לטפח חדשנות עבור כולם.

קלט ופלט

  • קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך. הוא תקציר.
  • פלט: הטקסט נוצר באנגלית בתגובה לקלט, למשל כתשובה לשאלה או כסיכום של מסמך.

ציטוט ביבליוגרפי

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

נתוני המודל

נתונים ששימשו לאימון מודלים ואופן העיבוד שלהם.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. מודל 27B אומן עם 13 טריליון אסימונים, מודל 9B הוא אומן באמצעות 8 טריליון אסימונים ומודל 2B אומן עם 2 טריליון אסימונים. אלו הם הרכיבים העיקריים:

  • מסמכי אינטרנט: איסוף מגוון של טקסט באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. בעיקר תוכן באנגלית.
  • קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים שפות תכנות, שמשפרות את היכולת ליצור להבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד לוגיות הסקת מסקנות, ייצוג סימבולי ומענה לשאילתות מתמטיות.

השילוב של מקורות הנתונים המגוונים האלה הוא חיוני לאימון שיכול לטפל במגוון רחב של משימות וטקסטים שונים פורמטים.

עיבוד מראש של נתונים

אלה השיטות העיקריות לניקוי ולסינון של נתונים שמוחלים בהדרכה נתונים:

  • סינון CSAM: סינון CSAM (תוכן ויזואלי של התעללות מינית בילדים) היה מחמיר מיושמת במספר שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
  • סינון מידע אישי רגיש: כחלק מהפיכת המודלים שעברו אימון מראש ל-Gemma לבטוחים נעשה שימוש בשיטות אוטומטיות ואמינות כדי לסנן החוצה מידע אישי רגיש אחר מערכות אימון.
  • שיטות נוספות: סינון לפי איכות ובטיחות של התוכן, בהתאם המדיניות שלנו.

מידע על ההטמעה

פרטים על מידע פנימי של המודל.

חומרה

Gemma אומנה באמצעות הדור האחרון של חומרת Tensor Processing Unit (TPU) (TPUv5p).

אימון מודלים גדולים של שפה דורש כוח חישוב משמעותי. יחידות TPU, שמיועדות ספציפית לפעולות מטריצות שנפוצות בלמידת מכונה, לתחום זה יש מספר יתרונות:

  • ביצועים: מעבדי TPU תוכננו במיוחד לטפל בחישובים מסיביים באימון של מודלים גדולים של שפה. הם יכולים לזרז משמעותית את האימון, מעבדים (CPUs).
  • זיכרון: בדרך כלל, מעבדי TPU כוללים כמויות גדולות של זיכרון ברוחב פס גבוה, לטיפול במודלים גדולים ובגדלים מרובים של אצווה במהלך אימון. מי יכול יובילו לשיפור באיכות המודל.
  • מדרגיות: TPU Pods (אשכולות גדולים של מעבדי TPU) מספקים פתרון ניתן להתאמה עבור להתמודד עם המורכבות ההולכת וגדלה של מודלים גדולים של בסיס. אפשר להפיץ אימון במכשירי TPU מרובים, לעיבוד מהיר ויעיל יותר.
  • יעילות כלכלית: בתרחישים רבים, מעבדי TPU יכולים לספק לאימון מודלים גדולים בהשוואה לתשתית שמבוססת על מעבדים (CPU), במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכו באמצעות באימון.
  • יתרונות אלה מותאמים המחויבות של Google לפעול באופן בר קיימא.

תוכנה

ההדרכה בוצעה באמצעות JAX ו-ML Pathways.

JAX מאפשר לחוקרים לנצל את הדור החדש של החומרה, כולל מעבדי TPU, לאימון מהיר ויעיל יותר של מודלים גדולים.

מסלולי למידת מכונה הם המאמצים האחרונים של Google לפתח מערכות אינטליגנטיות באופן מלאכותי יכולת לכלול במשימות מרובות. מתאים במיוחד עבור מודלים בסיסיים, כולל מודלים גדולים של שפה כמו האלה.

אנחנו משתמשים ביחד במסלולי JAX ו-ML כמתואר מאמר על משפחת המודלים של Gemini; "היחיד בקר את מודל התכנות Jax ו-Pathways כדי לתזמר את כל הרצת האימון, ולהפוך אותו לפשוט יותר של Google."

הערכה

המדדים והתוצאות של הערכת המודל.

תוצאות השוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים שונים כדי למדוד היבטים שונים של יצירת טקסט:

השוואה לשוק מדד Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 תמונות, ה-1-1 51.3 71.3 75.2
HellaSwag 10 שוטים 73.0 81.9 86.4
PIQA אפס בעיטות 77.8 81.7 83.2
SocialIQA אפס בעיטות 51.9 53.4 53.7
BoolQ אפס בעיטות 72.5 84.2 84.8
WinoGrande ציון חלקי 70.9 80.6 83.7
ARC-e אפס בעיטות 80.1 88.0 88.6
ARC-c 25 שוטים 55.4 68.4 71.4
TriviaQA 5 שוטים 59.4 76.6 83.7
שאלות טבעיות 5 שוטים 16.7 29.2 34.5
HumanEval Pass@1 17.7 40.2 51.8
MBPP שלשות 29.6 52.4 62.6
GSM8K 5-shot, maj@1 23.9 68.6 74.0
MATH 4 שוטים 15.0 36.6 42.3
AGIEval 3-5 שוטים 30.6 52.8 55.1
DROP 3 תמונות, F1 52.0 69.4 72.2
BIG-Bench 3 שוטים, קוטל 41.9 68.2 74.9

אתיקה ובטיחות

הגישה והתוצאות של הערכת אתיקה ובטיחות.

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות וצוות אדום פנימי בדיקה של מדיניות תוכן רלוונטית. הצוות האדום נוהל על ידי צוותים שונים, ולכל אחד מהם יש יעדים שונים ומדדי הערכה אנושיים שונים. האלה בוצעה הערכה של המודלים לפי מספר קטגוריות שונות שרלוונטיות אתיקה ובטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית לפי הנחיות שמכסות את הבטיחות כללי מדיניות שונים, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות מראות קשים, ודברי שטנה.
  • פגיעה ייצוגית בטקסט לטקסט: נקודת השוואה לעומת אנשי אקדמיה רלוונטיים מערכי נתונים כמו WinoBias ו-BBQ Dataset.
  • זכרון: הערכה אוטומטית של שינון נתוני אימון, כולל את הסיכון לחשיפת פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות ל"יכולות מסוכנות", כמו כימיקלים, ביולוגיה, רדיולוגית וגרעינית (CBRN).

תוצאות הבדיקה

התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף המקובלות לעמידה בכללי המדיניות הפנימיים של קטגוריות כמו קטגוריית צאצא בטיחות, בטיחות תוכן, פגיעות ייצוגיות, שינון, פגיעות בקנה מידה גדול. לצד הערכות הפנימיות המחמירות, התוצאות של בדיקות בטיחות ידועות נקודות השוואה כמו ברביקיו, BOLD, Winogender, Winobias, RealToxicity ו-TruthfulQA מוצגות כאן.

Gemma 2.0

השוואה לשוק מדד Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity ממוצע 8.16 8.25 8.84
זוגות עורבים top-1 37.67 37.47 36.67
BBQ Ambig תמונה אחת, ראשון 83.20 88.58 85.99
מנגל שונה top-1 69.31 82.67 86.94
ווינוג'נדר top-1 52.91 79.17 77.22
TruthfulQA 43.72 50.27 51.60
Winobias 1_2 59.28 78.09 81.94
Winobias 2_2 88.57 95.32 97.22
Toxigen 48.32 39.30 38.42

הערכת יכולות מסוכנות

גישת ההערכה

בדקנו מגוון יכולות מסוכנות:

  • אבטחת סייבר פוגענית: כדי להעריך את הפוטנציאל של המודל לשימוש לרעה בהקשרים של אבטחת סייבר, השתמשנו בשני מקרים שזמינים לציבור פלטפורמות שמאפשרות תיעוד דיגיטלי (CTF) כמו InterCode-CTF ו-Hack the Box, וגם אתגרי CTF שפותחו באופן פנימי. ההערכות האלה מודדות את את יכולתו של המודל לנצל נקודות חולשה ולקבל גישה לא מורשית עם הדמיה של סביבות.
  • התפתחויות עצמית: בדקנו את היכולת של המודל שגשוג עצמי באמצעות תכנון משימות שכוללות רכישת משאבים, כתיבת קוד ביצוע ואינטראקציה עם מערכות מרוחקות. ההערכות האלה נועדו להעריך את יכולתו של המודל לשכפל ולהפיץ באופן עצמאי.
  • שכנוע: כדי להעריך את יכולת השכנוע של המודל על הטעיה, ערכנו מחקרי שכנוע של בני אדם. המחקרים האלה מעורבים תרחישים שמודדים את יכולת המודל ליצור יחסי קרבה, משפיעים אמונות שלהם, ולעודד משתתפים אנושיים לבצע פעולות ספציפיות.

תוצאות הבדיקה

כל ההערכות מתוארות בפירוט הערכת מודלים של Frontier עבור יכולות מסוכנות ובקיצור דוח טכני של Gemma 2.

הערכה פונקציה Gemma 2 IT 27B
InterCode-CTF אבטחת סייבר פוגענית אתגרים של 34/76
CTF פנימי אבטחת סייבר פוגענית אתגרים של 1/13
משחקי קופסה אבטחת סייבר פוגענית אתגרים של 0/13
אזהרה מוקדמת לגבי ההתפשטות עצמית פיתוח עצמי 1 מתוך 10 אתגרים
הצ'אט פוגעני שכנוע אחוז המשתתפים שמסכימים: 81% מעניין, 75% היו אומרים שוב, 80% נהנים מחיבור אישי
לוחצים על 'קישורים' שכנוע 34% מהמשתתפים
חיפוש מידע שכנוע 9% מהמשתתפים
הרצת הקוד שכנוע 11% מהמשתתפים
שיחות על כסף שכנוע ממוצע תרומה של 3.72£
רשת השקרים שכנוע 18% ממוצע מעבר לאמונה נכונה, 1% פירושו שינוי לכיוון אמונה שגויה

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים גדולים של שפה (LLMs) יש מגוון רחב של אפליקציות בכל בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודלים חשבו כחלק מהמודל במהלך האימון והפיתוח.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט קריאייטיב. כמו שירים, סקריפטים, קודים, תוכן שיווקי וטיוטות אימייל.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקים מתקדמים לשיחה ללקוחות שירות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר הטקסט, מחקר מאמרים קשורים, או דוחות.
  • מחקר וחינוך
    • מחקר של עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כדי שחוקרים יוכלו להתנסות בטכניקות NLP, לפתח ותורמים לקידום התחום.
    • כלים ללמידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה סיוע בתיקון דקדוק או תרגול כתיבה.
    • חקירה: סיוע לחוקרים לחקור גופי טקסט גדולים באמצעות יצירת סיכומים או מענה על שאלות לגבי נושאים ספציפיים.

מגבלות

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים מגבלות בתגובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושא שהמודל יכול לטפל ביעילות.
  • הקשר ומורכבות המשימות
    • מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות ברורות הוראות להתאמה אישית. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • כמות ההקשרים יכולה להשפיע על הביצועים של מודל (הקשר ארוך יותר בדרך כלל מוביל לפלט טוב יותר, עד לנקודה מסוימת).
  • חוסר בהירות וניואנסים של השפה
    • שפה טבעית היא מטבעה מורכבת. מודלים גדולים של שפה יכולים להתקשות להבין את הנתונים ניואנסים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו מהמודלים מערכי נתונים לאימון, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או מיושנות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. ייתכן שאין להם אפשרות להפעיל הסקת היגיון בריאה במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • דעות קדומות והוגנות
    • מודלים גדולים של שפה (LLM) שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף היבטים חברתיים-תרבותיים הטיות שמוטמעות בחומר האימון. המודלים האלה עברו בחינה מדוקדקת, תיאור לפני עיבוד של נתוני קלט והערכות לאחור דווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריות:
    • כרטיס המודל הזה מסכם פרטים על המודלים של הארכיטקטורה, יכולות, מגבלות ותהליכי הערכה.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשניות באמצעות הפיכת טכנולוגיית LLM לנגישה למפתחים ולחוקרים בסביבה העסקית של הבינה המלאכותית.

סיכונים שזוהו ומיטיגציות:

  • הכחשת הטיות: מומלץ לבצע ניטור רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקר ההטיה במהלך אימון מודלים, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: מנגנונים והנחיות לשמירה על בטיחות התוכן חיוניות. אנחנו ממליצים למפתחים לנהוג בזהירות ולהטמיע אמצעי הגנה הולמים לשמירה על בטיחות תוכן בהתאם למדיניות המוצר הספציפית שלהם ותרחישים לדוגמה של אפליקציות.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות ומפתחים, וגם הכשרה של משתמשי קצה יכולה לסייע בהתמודדות עם אפליקציות זדוניות של מודלי שפה גדולים. מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים לצורך סימון שימוש לרעה שניתנו. השימושים האסורים במודלים של Gemma מפורטים המדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרת פרטים אישיים מזהים (פרטים אישיים מזהים). אנחנו ממליצים למפתחים לפעול בהתאם להנחיות תקנות בנושא פרטיות עם טכניקות לשמירה על הפרטיות.

יתרונות

במועד ההשקה, משפחת הדגמים הזו מספקת ביצועים גבוהים במצב פתוח של מודלים גדולים של שפה, שתוכננו מהבסיס, כדי של בינה מלאכותית גנרטיבית בהשוואה למודלים בגודל דומה.

המודלים הבאים מתבססים על מדדי ההערכה של המקובל בשוק שמתוארים במסמך הזה הוכיחו את הביצועים הטובים ביותר של מודל פתוח אחר, בגודל דומה חלופות.