כרטיס של מודל Gemma

דף המודל: Gemma

מקורות מידע ומסמכי תיעוד טכניים:

תנאים והגבלות: תנאים

מחברים: Google

פרטי הדגם

תיאור סיכום והגדרה קצרה של קלט ופלט.

תיאור

Gemma היא משפחה של מודלים פתוחים וחדשניים מבית Google, שמבוסס על אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini. הם מודלים גדולים של שפה (LLM) של טקסט לטקסט ומפענחים בלבד, שזמינים באנגלית בלבד, עם משקולות פתוחות, וריאנטים שעברו אימון מראש וגרסאות מותאמות לפי הוראה. Gemma מאוד מתאימים למגוון משימות של יצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. הגודל שלהן קטן יחסית מאפשרת לפרוס אותם בסביבות עם משאבים מוגבלים כמו מחשב נייד, מחשב שולחני או תשתית ענן משלכם, וכך מעניקה גישה דמוקרטית במודלים המתקדמים של AI, ועוזרים לטפח חדשנות עבור כולם.

קלט ופלט

  • קלט: מחרוזת טקסט, כמו שאלה, הנחיה או מסמך. הוא תקציר.
  • פלט: הטקסט נוצר באנגלית בתגובה לקלט, למשל כתשובה לשאלה או כסיכום של מסמך.

ציטוט ביבליוגרפי

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

נתוני המודל

נתונים ששימשו לאימון מודלים ואופן העיבוד שלהם.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב מקורות, בסך 6 טריליון אסימונים. אלו הם הרכיבים העיקריים:

  • מסמכי אינטרנט: איסוף מגוון של טקסט באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. בעיקר תוכן באנגלית.
  • קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים שפות תכנות, שמשפרות את היכולת ליצור להבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד לוגיות הסקת מסקנות, ייצוג סימבולי ומענה לשאילתות מתמטיות.

השילוב של מקורות הנתונים המגוונים האלה הוא חיוני לאימון שיכול לטפל במגוון רחב של משימות וטקסטים שונים פורמטים.

עיבוד מראש של נתונים

אלה השיטות העיקריות לניקוי ולסינון של נתונים שמוחלים בהדרכה נתונים:

  • סינון CSAM: סינון CSAM (תוכן ויזואלי של התעללות מינית בילדים) היה מחמיר מיושמת במספר שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
  • סינון מידע אישי רגיש: כחלק מהפיכת המודלים שעברו אימון מראש ל-Gemma לבטוחים נעשה שימוש בשיטות אוטומטיות ואמינות כדי לסנן החוצה מידע אישי רגיש אחר מערכות אימון.
  • שיטות נוספות: סינון לפי איכות ובטיחות של התוכן, בהתאם המדיניות שלנו.

מידע על ההטמעה

פרטים על מידע פנימי של המודל.

חומרה

Gemma אומנה באמצעות הדור האחרון של חומרת Tensor Processing Unit (TPU) (TPUv5e).

אימון מודלים גדולים של שפה דורש כוח חישוב משמעותי. יחידות TPU, שמיועדות ספציפית לפעולות מטריצות שנפוצות בלמידת מכונה, לתחום זה יש מספר יתרונות:

  • ביצועים: מעבדי TPU תוכננו במיוחד לטפל בחישובים מסיביים באימון של מודלים גדולים של שפה. הם יכולים לזרז משמעותית את האימון, מעבדים (CPUs).
  • זיכרון: בדרך כלל, מעבדי TPU כוללים כמויות גדולות של זיכרון ברוחב פס גבוה, לטיפול במודלים גדולים ובגדלים מרובים של אצווה במהלך אימון. מי יכול יובילו לשיפור באיכות המודל.
  • מדרגיות: TPU Pods (אשכולות גדולים של מעבדי TPU) מספקים פתרון ניתן להתאמה עבור להתמודד עם המורכבות ההולכת וגדלה של מודלים גדולים של בסיס. אפשר להפיץ אימון במכשירי TPU מרובים, לעיבוד מהיר ויעיל יותר.
  • יעילות כלכלית: בתרחישים רבים, מעבדי TPU יכולים לספק לאימון מודלים גדולים בהשוואה לתשתית שמבוססת על מעבדים (CPU), במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכו באמצעות באימון.
  • יתרונות אלה מותאמים המחויבות של Google לפעול באופן בר קיימא.

תוכנה

ההדרכה בוצעה באמצעות JAX ו-ML Pathways.

JAX מאפשר לחוקרים לנצל את הדור החדש של החומרה, כולל מעבדי TPU, לאימון מהיר ויעיל יותר של מודלים גדולים.

מסלולי למידת מכונה הם המאמצים האחרונים של Google לפתח מערכות אינטליגנטיות באופן מלאכותי יכולת לכלול במשימות מרובות. מתאים במיוחד עבור מודלים בסיסיים, כולל מודלים גדולים של שפה כמו האלה.

אנחנו משתמשים ביחד במסלולי JAX ו-ML כמתואר מאמר על משפחת המודלים של Gemini; "היחיד בקר את מודל התכנות Jax ו-Pathways כדי לתזמר את כל הרצת האימון, ולהפוך אותו לפשוט יותר של Google."

הערכה

המדדים והתוצאות של הערכת המודל.

תוצאות השוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים שונים כדי למדוד היבטים שונים של יצירת טקסט:

השוואה לשוק מדד Gemma PT 2B Gemma PT 7B
MMLU 5 תמונות, ה-1-1 42.3 64.3
HellaSwag אפס בעיטות 71.4 81.2
PIQA אפס בעיטות 77.3 81.2
SocialIQA אפס בעיטות 49.7 51.8
BoolQ אפס בעיטות 69.4 83.2
WinoGrande ציון חלקי 65.4 72.3
CommonsenseQA 7 שוטים 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 שוטים 53.2 63.4
שאלות טבעיות 5 שוטים 12.5 23.0
HumanEval Pass@1 22.0 32.3
MBPP שלשות 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 שוטים 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
ממוצעת 44.9 56.4

אתיקה ובטיחות

הגישה והתוצאות של הערכת אתיקה ובטיחות.

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות וצוות אדום פנימי בדיקה של מדיניות תוכן רלוונטית. הצוות האדום נוהל על ידי צוותים שונים, ולכל אחד מהם יש יעדים שונים ומדדי הערכה אנושיים שונים. האלה בוצעה הערכה של המודלים לפי מספר קטגוריות שונות שרלוונטיות אתיקה ובטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית לפי הנחיות שמכסות את הבטיחות כללי מדיניות שונים, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות מראות קשים, ודברי שטנה.
  • פגיעה ייצוגית בטקסט לטקסט: נקודת השוואה לעומת אנשי אקדמיה רלוונטיים מערכי נתונים כמו WinoBias ו-BBQ Dataset.
  • זכרון: הערכה אוטומטית של שינון נתוני אימון, כולל את הסיכון לחשיפת פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות ל"יכולות מסוכנות", כמו כימיקלים, ביולוגיה, רדיולוגית וגרעינית (CBRN).

תוצאות הבדיקה

התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף המקובלות לעמידה בכללי המדיניות הפנימיים של קטגוריות כמו קטגוריית צאצא בטיחות, בטיחות תוכן, פגיעות ייצוגיות, שינון, פגיעות בקנה מידה גדול. בנוסף להערכות פנימיות מחמירות, התוצאות של בטיחות ידועה נקודות השוואה כמו ברביקיו, BOLD, Winogender, Winobias, RealToxicity ו-TruthfulQA מוצגות כאן.

Gemma 1.0

השוואה לשוק מדד Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity ממוצע 6.86 30.90 ש"ח
BOLD 45.57 49.08
זוגות עורבים top-1 45.82 51.33
BBQ Ambig תמונה אחת, ראשון 62.58 92.54
מנגל שונה top-1 54.62 71.99
ווינוג'נדר top-1 51.25 54.17
TruthfulQA 44.84 31.81
Winobias 1_2 56.12 59.09
Winobias 2_2 91.10 92.23
Toxigen 29.77 39.59

Gemma 1.1

השוואה לשוק מדד Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity ממוצע 7.03 8.04
BOLD 47.76
זוגות עורבים top-1 45.89 49.67
BBQ Ambig תמונה אחת, ראשון 58.97 86.06
מנגל שונה top-1 53.90 85.08
ווינוג'נדר top-1 50.14 57.64
TruthfulQA 44.24 45.34
Winobias 1_2 55.93 59.22
Winobias 2_2 89.46 89.2
Toxigen 29.64 38.75

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים גדולים של שפה (LLMs) יש מגוון רחב של אפליקציות בכל בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודלים חשבו כחלק מהמודל במהלך האימון והפיתוח.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט קריאייטיב. כמו שירים, סקריפטים, קודים, תוכן שיווקי וטיוטות אימייל.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקים מתקדמים לשיחה ללקוחות שירות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר הטקסט, מחקר מאמרים קשורים, או דוחות.
  • מחקר וחינוך
    • מחקר של עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כדי שחוקרים יוכלו להתנסות בטכניקות NLP, לפתח ותורמים לקידום התחום.
    • כלים ללמידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה סיוע בתיקון דקדוק או תרגול כתיבה.
    • חקירה: סיוע לחוקרים לחקור גופי טקסט גדולים באמצעות יצירת סיכומים או מענה על שאלות לגבי נושאים ספציפיים.

מגבלות

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים מגבלות בתגובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושא שהמודל יכול לטפל ביעילות.
  • הקשר ומורכבות המשימות
    • מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות ברורות הוראות להתאמה אישית. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • כמות ההקשרים יכולה להשפיע על הביצועים של מודל (הקשר ארוך יותר בדרך כלל מוביל לפלט טוב יותר, עד לנקודה מסוימת).
  • חוסר בהירות וניואנסים של השפה
    • שפה טבעית היא מטבעה מורכבת. מודלים גדולים של שפה יכולים להתקשות להבין את הנתונים ניואנסים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו מהמודלים מערכי נתונים לאימון, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או מיושנות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. ייתכן שאין להם אפשרות להפעיל הסקת היגיון בריאה במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • דעות קדומות והוגנות
    • מודלים גדולים של שפה (LLM) שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף היבטים חברתיים-תרבותיים הטיות שמוטמעות בחומר האימון. המודלים האלה עברו בחינה מדוקדקת, תיאור לפני עיבוד של נתוני קלט והערכות לאחור דווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריות:
    • כרטיס המודל הזה מסכם פרטים על המודלים של הארכיטקטורה, יכולות, מגבלות ותהליכי הערכה.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשניות באמצעות הפיכת טכנולוגיית LLM לנגישה למפתחים ולחוקרים בסביבה העסקית של הבינה המלאכותית.

סיכונים שזוהו ומיטיגציות:

  • הכחשת הטיות: מומלץ לבצע ניטור רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקר ההטיה במהלך אימון מודלים, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: מנגנונים והנחיות לשמירה על בטיחות התוכן חיוניות. אנחנו ממליצים למפתחים לנהוג בזהירות ולהטמיע אמצעי הגנה הולמים לשמירה על בטיחות תוכן בהתאם למדיניות המוצר הספציפית שלהם ותרחישים לדוגמה של אפליקציות.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות ומפתחים, וגם הכשרה של משתמשי קצה יכולה לסייע בהתמודדות עם אפליקציות זדוניות של מודלי שפה גדולים. מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים לצורך סימון שימוש לרעה שניתנו. השימושים האסורים במודלים של Gemma מפורטים המדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרת פרטים אישיים מזהים (פרטים אישיים מזהים). אנחנו ממליצים למפתחים לפעול בהתאם להנחיות תקנות בנושא פרטיות עם טכניקות לשמירה על הפרטיות.

יתרונות

במועד ההשקה, משפחת הדגמים הזו מספקת ביצועים גבוהים במצב פתוח של מודלים גדולים של שפה, שתוכננו מהבסיס, כדי של בינה מלאכותית גנרטיבית בהשוואה למודלים בגודל דומה.

המודלים הבאים מתבססים על מדדי ההערכה של המקובל בשוק שמתוארים במסמך הזה הוכיחו את הביצועים הטובים ביותר של מודל פתוח אחר, בגודל דומה חלופות.