כרטיס מודל RecurrentGemma

דף המודל: RecurrentGemma

מקורות מידע ומסמכים טכניים:

תנאים והגבלות: תנאים

כותבים: Google

פרטי דגם

סיכום המודל

תיאור

RecurrentGemma היא קבוצה של מודלים של שפה פתוחה שמבוססת על ארכיטקטורה חדשה וחוזרת שפותחה ב-Google. גם הגרסאות שעברו אימון מראש וגם גרסה שמכווננת הוראות זמינות באנגלית.

בדומה ל-Gemma, המודלים של RecurrentGemma מתאימים למגוון משימות ליצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. בזכות הארכיטקטורה החדשנית שלה, RecurrentGemma דורש פחות זיכרון מ-Gemma, ומשיגה הסקת מסקנות מהירה יותר כשיוצרים רצפים ארוכים.

קלט ופלט

  • קלט: מחרוזת טקסט (למשל, שאלה, הנחיה או מסמך לסיכום).
  • פלט: טקסט שנוצר בשפה האנגלית בתגובה לקלט (למשל, תשובה לשאלה, סיכום של המסמך).

ציטוט ביבליוגרפי

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

נתוני המודל

מערך נתונים לאימון ועיבוד נתונים

RecurrentGemma משתמשת באותם נתוני אימון ועיבוד נתונים שמשמשים את משפחת המודלים של Gemma. תיאור מלא מופיע בכרטיס המודל Gemma.

מידע על ההטמעה

החומרה וה-frameworks במהלך האימון

בדומה ל-Gemma, גם RecurrentGemma אומן ב-TPUv5e, באמצעות JAX ו-ML Pathways.

מידע על ההערכה

תוצאות ההשוואה לשוק

גישת ההערכה

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת הטקסט:

תוצאות הבדיקה

השוואה לשוק המדד RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 תמונות, ה-1-1 38.4 60.5
HellaSwag אפס בעיטות 71.0 80.4
PIQA אפס בעיטות 78.5 81.3
SocialIQA אפס בעיטות 51.8 52.3
BoolQ אפס בעיטות 71.3 80.3
WinoGrande ציון חלקי 67.8 73.6
CommonsenseQA 7 שוטים 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 שוטים 52.5 70.5
שאלות טבעיות 5 שוטים 11.5 21.7
HumanEval Pass@1 21.3 31.1
MBPP שלשות 28.8. 42.0
GSM8K maj@1 13.4 42.6
MATH 4 שוטים 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
ממוצעת 44.6 56.1

אתיקה ובטיחות

הערכות אתיקה ובטיחות

גישת ההערכות

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקה פנימית של צוות אדום לגבי כללי מדיניות התוכן הרלוונטיים. הצוות האדום נוהל על ידי כמה צוותים שונים, ולכל אחד מהם היו יעדים שונים ומדדי הערכה שונים. המודלים האלה נבדקו ביחס למספר קטגוריות שונות שרלוונטיות לאתיקה ובטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית של הנחיות המתייחסות למדיניות בטיחות, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות, מראות קשים ודברי שטנה.
  • פגיעה בייצוג של טקסט לטקסט: נקודת השוואה מול מערכי נתונים אקדמיים רלוונטיים כמו WinoBias ו-BigQuery Dataset.
  • זיכרון: הערכה אוטומטית של שינון נתוני אימון, כולל סיכון לחשיפת פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות ל'יכולות מסוכנות', כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN), ובדיקות שכנוע והונאה, אבטחת סייבר ורפליקציה אוטונומית.

תוצאות הבדיקה

התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף הקבילות לעמידה במדיניות הפנימית של קטגוריות כמו בטיחות ילדים, בטיחות תוכן, פגיעה ייצוגית, זיכרון ופגיעות בקנה מידה גדול. מעבר להערכות הפנימיות המחמירות, מוצגות כאן התוצאות של נקודות השוואה ידועות לשמירה על הבטיחות כמו גריל, Winogender, WinoBias, RealToxicity ו-TruthfulQA.

השוואה לשוק המדד RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity ממוצע 9.8 7.60 10.3 8.8
מודגש 39.3 52.3 39.8 47.9
זוגות עורבים top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
מנגל שונה top-1 58.4 50.8 78.6 78.9
ווינוג'נדר top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
רעיגן 56.7 50.0 58.8 64.5

השימוש במודל ומגבלות

מגבלות ידועות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים אליהן:

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים משמעותית על יכולות המודל. הטיות או פערים בנתוני האימון יכולות להוביל למגבלות בתשובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע באילו תחומי נושא המודל יכול לטפל ביעילות.
  • הקשר ומורכבות משימה
    • מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • מידת ההשפעה של ההקשר יכולה להיות מושפעת על הביצועים של המודל (הקשר ארוך יותר בדרך כלל מוביל לפלט טוב יותר, עד לנקודה מסוימת).
  • בהירות וניואנסים של השפה
    • שפה טבעית היא מטבעה מורכבת. מודלי שפה גדולים עלולים להתקשות להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים מסוג LLM יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים לאימון, אבל הם לא מאגרי ידע. הם עלולים ליצור הצהרות עובדתיות שגויות או מיושנות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יכולים להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • הטיה והגינות
    • מודלים גדולים של שפה שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בחינה מדוקדקת, שתוארו לפני עיבוד נתוני הקלט וההערכות הבאות שדווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה במודלים גדולים של שפה (LLM) כדי ליצור טקסט שקרי, מטעה או מזיק.
    • למידע נוסף על שימוש אחראי במודל, ראו כלי Responsible AI גנרטיבי.
  • שקיפות ואחריות
    • כרטיס המודל הזה מסכם פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשנות ולהנגיש את טכנולוגיית ה-LLM למפתחים ולחוקרים בסביבה העסקית של ה-AI.

סיכונים מזוהים ומיטיגציות:

  • השימור של הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקירה של שיטות להסרת הטיות במהלך אימון המודל, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: חשוב להשתמש במנגנונים ובהנחיות לשמירה על בטיחות התוכן. אנחנו ממליצים למפתחים לנהוג בזהירות ולהטמיע אמצעי הגנה הולמים לשמירה על בטיחות התוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציות שלהם.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה של מפתחים ומשתמשי קצה יכולים לסייע בהתמודדות עם אפליקציות זדוניות של מודלים מסוג LLM. סופקו מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים כדי לדווח על שימוש לרעה. השימושים האסורים במודלים של Gemma מפורטים בתנאים ובהגבלות שלנו.
  • הפרות בנושא פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרה של פרטים אישיים מזהים (PII). מומלץ למפתחים לציית לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.

שימוש מיועד

בקשת הצטרפות

למודלים גדולים של שפה (LLM) יש מגוון רחב של אפליקציות בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי לגבי תרחישי השימוש האפשריים שיוצרי המודלים התייחסו אליהם כחלק מאימון המודל ופיתוחו.

  • יצירת תוכן ותקשורת בין משתמשים
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט יצירתי כמו שירים, סקריפטים, קודים, תוכן שיווקי, טיוטות אימייל וכו'.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקים מתקדמים לשיחות לקוח, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של קורפוס טקסט, מסמכי מחקר או דוחות.
  • מחקר וחינוך
    • מחקר בנושא עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כבסיס לחוקרים להתנסות בשיטות NLP, לפיתוח אלגוריתמים ולקידום התחום.
    • כלים ללמידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה, סיוע בתיקון דקדוק או תרגול כתיבה.
    • חקר ידע: יוצרים סיכומים או עונים על שאלות בנושאים ספציפיים, ובעזרתם חוקרים חוקרים גופי טקסט.

יתרונות

במועד ההשקה, משפחת המודלים הזו מספקת ביצועים גבוהים של הטמעות של מודל שפה גדול (LLM) עם ביצועים גבוהים, שתוכננו מהיסוד לפיתוח אחראי של בינה מלאכותית (AI), בהשוואה למודלים בגודל דומה.

בעזרת מדדי ההערכה של נקודות ההשוואה שמתוארים במסמך הזה, המודלים האלה משפרים את הביצועים ביחס לחלופות אחרות של מודל פתוח בגודל דומה.

באופן ספציפי, מודלים של RecurrentGemma משיגים ביצועים דומים לאלה של מודלים של Gemma, אבל הם מהירים יותר בתהליך ההסקה ודורשים פחות זיכרון, במיוחד ברצפים ארוכים.