דף המודל: RecurrentGemma
משאבים ותיעוד טכני:
התנאים וההגבלות: התנאים
מחברים: Google
פרטי דגם
סיכום המודל
תיאור
RecurrentGemma היא משפחה של מודלים פתוחים של שפה שמבוססים על ארכיטקטורה חוזרת חדשנית שפותחה ב-Google. הגרסאות הזמינות באנגלית הן גרסאות שהודרכו מראש וגרסאות שהותאמו להוראות.
בדומה ל-Gemma, המודלים של RecurrentGemma מתאימים למגוון משימות של יצירת טקסט, כולל מענה לשאלות, סיכום ושיוך. בזכות הארכיטקטורה החדשנית שלו, נדרש פחות זיכרון ל-RecurrentGemma מאשר ל-Gemma, והוא מגיע להסקה מהירה יותר כשיוצרים רצפים ארוכים.
קלט ופלט
- קלט: מחרוזת טקסט (למשל, שאלה, הנחיה או מסמך שרוצים לסכם).
- פלט: טקסט שנוצר בשפה האנגלית בתגובה לקלט (למשל, תשובה לשאלה, סיכום של המסמך).
ציטוט ביבליוגרפי
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
נתוני מודל
מערך נתונים לאימון ועיבוד נתונים
ב-RecurrentGemma נעשה שימוש באותם נתוני אימון ובאותו עיבוד נתונים שבהם נעשה שימוש במשפחת המודלים של Gemma. תיאור מלא זמין בכרטיס הדגם של Gemma.
מידע על ההטמעה
החומרה והמסגרות שבהן נעשה שימוש במהלך האימון
בדומה ל-Gemma, הכשרת RecurrentGemma בוצעה על TPUv5e באמצעות JAX ו-ML Pathways.
פרטי ההערכה
תוצאות של בנצ'מרק
שיטת ההערכה
המודלים האלה נבדקו על סמך אוסף גדול של מדדים וקבוצות נתונים שונות, כדי לכסות היבטים שונים של יצירת טקסט:
תוצאות הבדיקה
השוואה לשוק | מדד | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-shot, top-1 | 38.4 | 60.5 |
HellaSwag | 0-shot | 71.0 | 80.4 |
PIQA | 0-shot | 78.5 | 81.3 |
SocialIQA | 0-shot | 51.8 | 52.3 |
BoolQ | 0-shot | 71.3 | 80.3 |
WinoGrande | ציון חלקי | 67.8 | 73.6 |
CommonsenseQA | 7 שניות | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5-shot | 52.5 | 70.5 |
שאלות טבעיות | 5-shot | 11.5 | 21.7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 שוטים | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4-shot | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
ממוצע | 44.6 | 56.1 |
אתיקה ובטיחות
בדיקות אתיקה ובטיחות
הגישה למבדקים
שיטות ההערכה שלנו כוללות בדיקות מובנות ובדיקות פנימיות של צוות אדום (red team) של מדיניות התוכן הרלוונטית. צוות אדום ניהל מספר צוותים שונים, לכל אחד מהם מטרות שונות ומדדים שונים של הערכה אנושית. המודלים האלה נבדקו בהתאם למספר קטגוריות שונות שקשורות לאתיקה ולבטיחות, כולל:
- בטיחות תוכן מסוג טקסט לטקסט: הערכה אנושית של הנחיות שמכסות את כללי מדיניות הבטיחות, כולל התעללות מינית בילדים וניצול מיני של ילדים, הטרדה, אלימות ותכנים גרפיים חזקים, ודברי שטנה.
- נזק מייצוג של טקסט לטקסט: השוואה למערכי נתונים אקדמיים רלוונטיים, כמו WinoBias ו-BBQ Dataset.
- זיכרון: הערכה אוטומטית של זיכרון נתוני האימון, כולל הסיכון לחשיפת פרטים אישיים מזהים.
- פגיעה בהיקף נרחב: בדיקות של 'יכולות מסוכנות', כמו סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN), וגם בדיקות של שכנוע והטעיה, אבטחת סייבר ושכפול אוטונומי.
תוצאות הבדיקה
התוצאות של הבדיקות האתיות והבטיחותיות נמצאות בגבולות הסף הקבילים למדיניות הפנימית בקטגוריות כמו בטיחות ילדים, בטיחות תוכן, נזקים שקשורים לייצוג, שמירה בזיכרון ונזקים בקנה מידה רחב. בנוסף לבדיקות פנימיות מקיפות, מוצגים כאן גם התוצאות של מדדי בטיחות ידועים כמו BBQ, Winogender, WinoBias, RealToxicity ו-TruthfulQA.
השוואה לשוק | מדד | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | ממוצע | 9.8 | 7.60 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
שימוש במודלים והגבלות
מגבלות ידועות
למודלים האלה יש מגבלות מסוימות שחשוב שהמשתמשים יהיו מודעים להן:
- נתונים לאימון
- איכות ומגוון נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- היקף מערך הנתונים של האימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם בצורה יעילה.
- הקשר ומורכבות המשימה
- מודלים של שפה גדולה מתאימים יותר למשימות שאפשר להגדיר באמצעות הנחיות והנחיות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
- הביצועים של המודל עשויים להיות מושפעים מכמות ההקשר שסופק (בדרך כלל, הקשר ארוך יותר מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
- ערפול וניואנסים בשפה
- שפה טבעית היא מורכבת מטבעה. יכול להיות ש-LLM יתקשו להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
- דיוק עובדתי
- מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים שלהם לצורך אימון, אבל הם לא מסדי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
- שיקול דעת
- מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להפעיל היגיון בריא במצבים מסוימים.
שיקולים אתיים וסיכונים
הפיתוח של מודלים גדולים של שפה (LLM) מעלה כמה חששות אתיים. כשיצרנו מודל פתוח, התייחסנו בקפידה לגורמים הבאים:
- הטיה והוגנות
- מודלים גדולים של שפה (LLMs) שמאומנים על נתוני טקסט רחבי היקף מהעולם האמיתי יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודלים האלה עברו בדיקה יסודית, תיארנו את העיבוד המקדים של נתוני הקלט והצגנו את ההערכות הבאות (posterior) בכרטיס הזה.
- מידע מוטעה ושימוש לרעה
- אפשר להשתמש לרעה ב-LLM כדי ליצור טקסט שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל. אפשר לקרוא אותן בערכת הכלים ל-AI גנרטיבי אחראי.
- שקיפות ואחריותיות
- בכרטיס המודל הזה מפורטים פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח באופן אחראי מאפשר לשתף את החדשנות על ידי הנגשת טכנולוגיית ה-LLM למפתחים ולחוקרים בסביבת ה-AI.
סיכונים שזוהו ומיטיגציות:
- המשך ההטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקות אנושיות) ולבחון שיטות להסרת הטיות במהלך אימון המודלים, השיפורים האחרונים (fine-tuning) ותרחישי שימוש אחרים.
- יצירת תוכן מזיק: מנגנונים והנחיות לבטיחות התוכן חיוניים. אנחנו ממליצים למפתחים להפעיל שיקול דעת ולהטמיע אמצעי הגנה מתאימים לבטיחות התוכן, בהתאם למדיניות המוצר הספציפית ולתרחישים לדוגמה של שימוש באפליקציה.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולות לעזור למנוע שימוש זדוני ב-LLM. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח כדי שהמשתמשים יוכלו לדווח על שימוש לרעה. התנאים וההגבלות שלנו מפרטים את השימושים האסורים במודלים של Gemma.
- הפרות פרטיות: המודלים הוכשרו על נתונים שסוננו להסרת פרטים אישיים מזהים (PII). אנחנו ממליצים למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות שיטות לשמירה על הפרטיות.
שימוש מיועד
אפליקציה
למודלים גדולים של שפה (LLM) פתוחים יש מגוון רחב של יישומים במגוון תחומים ותחומים. רשימת השימושים האפשריים הבאה היא לא מקיפה. מטרת הרשימה הזו היא לספק מידע לפי הקשר לגבי תרחישים לדוגמה שאותם יוצרי המודל הגדירו כחלק מתהליך הפיתוח והאימון של המודל.
- יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור סוגים שונים של טקסטים יצירתיים, כמו שירים, סקריפטים, קוד, תוכן שיווקי, טיוטות של אימיילים וכו'.
- צ'אט בוטים ו-AI בממשק שיחה: מאפשרים ליצור ממשקי שיחה לשירות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסט, עבודות מחקר או דוחות.
- מחקר וחינוך
- מחקר בתחום עיבוד שפה טבעית (NLP): המודלים האלה יכולים לשמש כבסיס למחקרים של חוקרים, שיאפשרו להם להתנסות בשיטות NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
- כלים ללימוד שפות: תמיכה בחוויית למידה אינטראקטיבית של שפות, תיקון שגיאות דקדוק או תרגול כתיבה.
- ניתוח ידע: יצירת סיכומים או מענה על שאלות בנושאים ספציפיים כדי לעזור לחוקרים לבחון כמויות גדולות של טקסט.
יתרונות
נכון למועד הפרסום, משפחת המודלים הזו מספקת הטמעות פתוחות של מודלים גדולים של שפה עם ביצועים גבוהים, שתוכננו מלכתחילה לפיתוח AI אחראי, בהשוואה למודלים בגודל דומה.
לפי מדדי ההערכה של נקודות השוואה שמפורטים במסמך הזה, נראה שהמודלים האלה מספקים ביצועים טובים יותר ממודלים אחרים בגודל דומה של קוד פתוח.
באופן ספציפי, מודלים של RecurrentGemma מניבים ביצועים דומים לאלה של מודלים של Gemma, אבל הם מהירים יותר במהלך היסק ודורשים פחות זיכרון, במיוחד בסדרות ארוכות.