כרטיס מודל RecurrentGemma

דף מודל: RecurrentGemma

מקורות מידע ומסמכים טכניים:

תנאים והגבלות: תנאים

מחברים: Google

פרטי דגם

סיכום המודל

תיאור

RecurrentGemma היא משפחה של מודלים פתוחים של שפה, שמבוססת על ארכיטקטורה חדשנית של חזרות שפותחה ב-Google. גם הגרסה שעברה אימון מראש וגם גרסה מותאמת להוראה זמינות באנגלית.

כמו גמה, מודלים של RecurrentGemma מתאימים למגוון משימות של יצירת טקסט, כולל מענה לשאלות, סיכום והסקת מסקנות. בזכות הארכיטקטורה החדשנית שלה, RecurrentGemma דורש פחות זיכרון מאשר Gemma ויש בה הסקת מסקנות מהירה יותר כשיוצרים רצפים ארוכים.

קלט ופלט

  • קלט: מחרוזת טקסט (למשל, שאלה, הנחיה או מסמך לסיכום).
  • פלט: טקסט שנוצר באנגלית בתגובה לקלט (למשל, תשובה לשאלה, סיכום של המסמך).

ציטוט ביבליוגרפי

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

נתוני המודל

מערך נתונים לאימון ועיבוד נתונים

ב-RecurrentGemma משתמשים בנתוני אימון ובעיבוד נתונים זהה לזה של משפחת המודלים של Gemma. תוכלו למצוא תיאור מלא בכרטיס המודל של Gemma.

מידע על ההטמעה

החומרה וה-frameworks שבהן נעשה שימוש במהלך האימון

בדומה ל-Gemma, RecurrentGemma אומנו ב-TPUv5e, באמצעות JAX ו-ML Pathways.

פרטי ההערכה

תוצאות ההשוואה לשוק

גישת ההערכה

המודלים האלה הוערכו מול אוסף גדול של מערכי נתונים ומדדים שונים כדי לכסות היבטים שונים של יצירת טקסט:

תוצאות ההערכה

השוואה לשוק המדד RecurrentGemma 2B
MMLU חבטות 5, 1+ 38.4
HellaSwag ניסיון ראשון 71.0
PIQA ניסיון ראשון 78.5
SocialIQA ניסיון ראשון 51.8
BoolQ ניסיון ראשון 71.3
WinoGrande ניקוד חלקי 67.8
CommonsenseQA חבטות 7 63.7
OpenBookQA 47.2
ARC-e 72.9
ARC-c 42.3
TriviaQA חבטה 132.5
שאלות טבעיות חבטה 11.5
HumanEval Pass@1 21.3
MBPP 3 חבטות 28.8
GSM8K Maj@1 13.4
MATH חבטה 4 11.0
AGIEval 23.8
BIG-Bench 35.3
ממוצעת 44.6

אתיקה ובטיחות

הערכות אתיקה ובטיחות

גישת ההערכות

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקה פנימית של צוותים אדומים של מדיניות תוכן רלוונטית. צוותים אדומים התנהלו על ידי מספר צוותים שונים, שלכל אחד מהם יעדים שונים ומדדי הערכה אנושיים. המודלים האלה נבדקו מול מספר קטגוריות שונות שרלוונטיות לאתיקה ולבטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית של הנחיות העוסקות בכללי מדיניות הבטיחות, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות ומראות קשים ודברי שטנה.
  • נזקים בייצוג של טקסט לטקסט: נקודת השוואה לעומת מערכי נתונים אקדמיים רלוונטיים כמו WinoBias ומערך נתונים של ברביקיו.
  • זכירה: הערכה אוטומטית של שינון נתוני אימון, כולל הסיכון לחשיפה של פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות ל"יכולות מסוכנות" כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN), וגם בדיקות לשכנוע והונאה, אבטחת סייבר ורפליקות אוטונומיות.

תוצאות ההערכה

התוצאות של בדיקות האתיקה והבטיחות עומדות בערכי הסף המקובלים לעמידה בכללי המדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן, נזק ייצוגי, לזכור ונזקים בקנה מידה גדול. בנוסף להערכות פנימיות מהימנות, מוצגות כאן התוצאות של נקודות השוואה ידועות בנושאי בטיחות כמו ברביקיו, Winogender, Winobias, RealToxicity ו-TruthfulQA.

השוואה לשוק המדד RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity ממוצע 9.8 7.6
מודגש 39.3 52.4
CrowS-Pairs top-1 41.1 43.4
BBQ Ambig top-1 62.6 71.1
דיסמביג' (BBQ) top-1 58.4 50.8
Winogender top-1 137.1 54.7
TruthfulQA 35.1 42.7
Winobia 1_2 58.4 56.4
Winobia 2_2 90.0 75.4
רעלים 56.7 200.0

שימוש במודלים ומגבלות

מגבלות ידועות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן:

  • נתוני אימון
    • האיכות והגיוון של נתוני האימון משפיעים משמעותית על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתגובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את התחומים שהמודל יכול לטפל בהם ביעילות.
  • הקשר ומורכבות המשימה
    • מודלים גדולים יותר טובים יותר במשימות שאפשר לשלב בעזרת הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד יכולות להיות מאתגרות.
    • הביצועים של המודל מושפעים מכמות ההקשר שניתן לספק (הקשר ארוך יותר מוביל בדרך כלל לפלטים טובים יותר, עד לנקודה מסוימת).
  • עמימות וניואנסים של שפות
    • שפה טבעית היא שפה מורכבת מטבעה. יכול להיות שמודלים מסוג LLM מתקשים להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים גדולים של שפה יוצרים תשובות שמבוססות על מידע שהם למדו ממערכי הנתונים שלהם, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה מספר חששות אתיים. ביצירת מודל פתוח, שקלנו בקפידה את הנקודות הבאות:

  • הטיה והגינות
    • מודלי שפה גדולים שהוכשרו לפי נתוני טקסט מהעולם האמיתי בקנה מידה גדול יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר ההדרכה. המודלים האלה עברו בדיקה קפדנית, תיאור של עיבוד הנתונים לפני עיבוד הנתונים וההערכות שנערכו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה במודלי שפה גדולים כדי ליצור טקסט שקרי, מטעה או מזיק.
    • ההנחיות לשימוש אחראי במודל מפורטות במאמר Responsible Generative AI Toolkit.
  • שקיפות ואחריות
    • כרטיס המודל הזה מסכם את הפרטים של הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מספק הזדמנות לשתף חידושים, תוך הפיכת טכנולוגיית LLM לנגישה למפתחים ולחוקרים בסביבה העסקית של AI.

זיהוי סיכונים ומיטיגציות:

  • הטיית הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקירת שיטות לביטול הטיה במהלך אימון המודל, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: המנגנונים וההנחיות לשמירה על בטיחות התוכן הם חיוניים. מומלץ למפתחים לפעול בזהירות וליישם אמצעי הגנה הולמים לשמירה על בטיחות התוכן בהתאם למדיניות המוצרים הספציפית שלהם והתרחישים לדוגמה שבהם הם משתמשים באפליקציות.
  • שימוש לרעה למטרות זדוניות:מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור במניעת יישומים זדוניים של מודלים מסוג LLM. יש באתר מקורות מידע ומנגנוני דיווח שמאפשרים למשתמשים לדווח על שימוש לרעה. שימושים אסורים במודלים של Gemma מפורטים בתנאים ובהגבלות שלנו.
  • הפרות של מדיניות הפרטיות: מודלים אומנו על סמך נתונים שסוננו כדי להסיר פרטים אישיים מזהים (PII). מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.

שימוש מיועד

בקשת הצטרפות

למודלים פתוחים של שפה (LLM) יש מגוון רחב של אפליקציות בתחומים ובדומיינים שונים. רשימת השימושים הפוטנציאליים הבאה אינה מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי לגבי תרחישי השימוש האפשריים שיוצרי המודל שקלו כחלק מאימון המודל והפיתוח שלו.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים של טקסט יצירתי, כמו שירים, סקריפטים, קוד, תוכן שיווקי, טיוטות אימייל וכו'.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקי שיחה מתקדמים לשירות לקוחות, לעוזרים דיגיטליים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסט, מאמרי מחקר או דוחות.
  • מחקר וחינוך
    • מחקר של עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כבסיס לחוקרים להתנסות בשיטות NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
    • כלים ללמידת שפה: תמיכה בחוויות אינטראקטיביות של למידת שפה, שתומכות בתיקון דקדוק או בתרגול כתיבה.
    • חקירת ידע: אפשר להיעזר בסיכומים או לענות על שאלות לגבי נושאים ספציפיים כדי לעזור לחוקרים לחקור גופים גדולים של טקסט.

יתרונות

נכון למועד ההשקה, משפחת המודלים הזו מספקת הטמעות איכותיות של מודלים פתוחים של מודל שפה גדול (LLM) בעלי ביצועים גבוהים, שתוכננו מהיסוד לפיתוח בינה מלאכותית אחראית, בהשוואה למודלים בגדלים דומים.

בעזרת מדדי ההשוואה לשוק שמתוארים במסמך הזה, המודלים האלה הוכיחו שהם מספקים ביצועים טובים יותר מחלופות אחרות של מודלים פתוחים בגודל דומה.

באופן ספציפי, מודלים של RecurrentGemma משיגים ביצועים דומים למודלים של Gemma, אבל הם מהירים יותר במהלך הסקת מידע ודורשים פחות זיכרון, במיוחד ברצפים ארוכים.