כרטיס מודל RecurrentGemma

דף המודל: RecurrentGemma

מקורות מידע ומסמכים טכניים:

תנאים והגבלות: תנאים

כותבים: Google

פרטי דגם

סיכום המודל

תיאור

RecurrentGemma היא משפחה של מודלים של שפה פתוחה שמבוססת על מודל חזרה חדשני של הארכיטקטורה שפותחה ב-Google. שתי השיטות גרסאות שעברו אימון מראש ומכווננות להוראה זמינות באנגלית.

בדומה ל-Gemma, המודלים של RecurrentGemma מתאימים למגוון רחב של טקסטים ליצירת משימות, כולל מענה לשאלות, סיכום והסקת מסקנות. בזכות הארכיטקטורה החדשנית שלה, RecurrentGemma דורש פחות זיכרון Gemma ומשיגה הסקת מסקנות מהירה יותר כשיוצרים רצפים ארוכים.

קלט ופלט

  • קלט: מחרוזת טקסט (למשל: שאלה, הנחיה או מסמך ).
  • פלט: טקסט שנוצר בשפה האנגלית בתגובה לקלט (למשל, תשובה לשאלה, סיכום של המסמך).

ציטוט ביבליוגרפי

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

נתוני המודל

מערך נתונים לאימון ועיבוד נתונים

RecurrentGemma משתמשת באותם נתוני אימון ועיבוד נתונים כמו אלה שבהם משתמשים משפחת המודלים של Gemma. תיאור מלא מוצג במודל Gemma .

מידע על ההטמעה

החומרה וה-frameworks במהלך האימון

מוצא חן בעיניי Gemma, האימון של RecurrentGemma נעשה לפי TPUv5e, באמצעות JAX ו-ML נתיבים.

מידע על ההערכה

תוצאות ההשוואה לשוק

גישת ההערכה

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים שונים כדי למדוד היבטים שונים של יצירת טקסט:

תוצאות הבדיקה

השוואה לשוק מדד RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 תמונות, ה-1-1 38.4 60.5
HellaSwag אפס בעיטות 71.0 80.4
PIQA אפס בעיטות 78.5 81.3
SocialIQA אפס בעיטות 51.8 52.3
BoolQ אפס בעיטות 71.3 80.3
WinoGrande ציון חלקי 67.8 73.6
CommonsenseQA 7 שוטים 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 שוטים 52.5 70.5
שאלות טבעיות 5 שוטים 11.5 21.7
HumanEval Pass@1 21.3 31.1
MBPP שלשות 28.8. 42.0
GSM8K maj@1 13.4 42.6
MATH 4 שוטים 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
ממוצעת 44.6 56.1

אתיקה ובטיחות

הערכות אתיקה ובטיחות

גישת ההערכות

שיטות ההערכה שלנו כוללות הערכות מובנות וצוות אדום פנימי בדיקה של מדיניות תוכן רלוונטית. הצוות האדום נוהל על ידי צוותים שונים, ולכל אחד מהם יש יעדים שונים ומדדי הערכה אנושיים שונים. האלה בוצעה הערכה של המודלים לפי מספר קטגוריות שונות שרלוונטיות אתיקה ובטיחות, כולל:

  • בטיחות תוכן של טקסט לטקסט: הערכה אנושית לפי הנחיות שמכסות את הבטיחות כללי מדיניות שונים, כולל התעללות מינית בילדים וניצולם, הטרדה, אלימות מראות קשים, ודברי שטנה.
  • פגיעה בייצוג של טקסט לטקסט: נקודת השוואה לעומת אנשי אקדמיה רלוונטיים מערכי נתונים כמו WinoBias ו-BigQuery Dataset.
  • זיכרון: הערכה אוטומטית של שינון נתוני אימון, כולל הסיכון לחשיפת פרטים אישיים מזהים.
  • נזק בקנה מידה גדול: בדיקות לזיהוי "יכולות מסוכנות", כמו כימיות, סיכונים ביולוגיים, רדיולוגיים וגרעיניים (CBRN); וגם בדיקות עבור שכנוע והונאה, אבטחת סייבר ורפליקציה אוטונומית.

תוצאות הבדיקה

התוצאות של הערכות הבטיחות והאתיקה עומדות בדרישות הסף המקובלות לפגישה פנימית למדיניות שלה בקטגוריות כמו בטיחות ילדים, בטיחות תוכן, פגיעה ייצוגית שינון, נזקים בקנה מידה גדול. בנוסף להערכות פנימיות חמורות, תוצאות של נקודות השוואה ידועות לשמירה על הבטיחות כמו ברביקיו, Winogender, WinoBias RealToxicity ו-TruthfulQA מוצגים כאן.

השוואה לשוק מדד RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity ממוצע 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
זוגות עורבים top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
מנגל שונה top-1 58.4 50.8 78.6 78.9
ווינוג'נדר top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

השימוש במודל ומגבלות

מגבלות ידועות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים אליהן:

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים משמעותית ליכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתגובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושא של המודל שאפשר לטפל בהן בצורה יעילה.
  • הקשר ומורכבות משימה
    • מודלי שפה גדולים יותר טובים יותר במשימות שאפשר לקבוע בעזרת הנחיות ברורות הוראות להתאמה אישית. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
    • ביצועי המודל יכולים להיות מושפעים מכמות ההקשר (הקשר ארוך יותר בדרך כלל מוביל לתפוקה טובה יותר, עד לנקודה מסוימת).
  • בהירות וניואנסים של שפה
    • שפה טבעית היא מטבעה מורכבת. יכול להיות שמודלים גדולים של שפה (LLM) מתקשים להבין ניואנסים עדינים, סרקזם או שפה פיגורטיבית.
  • דיוק עובדתי
    • מודלים גדולים של שפה יוצרים תשובות על סמך מידע שהם למדו מהמודלים מערכי נתונים לאימון, אבל הם לא מאגרי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או מיושנות.
  • היגיון בריא
    • מודלים גדולים של שפה מסתמכים על דפוסים סטטיסטיים בשפה. ייתכן שהם לא מספקים יכולת להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים וסיכונים אתיים

הפיתוח של מודלים גדולים של שפה (LLMs) מעלה חששות מסוימים לגבי אתיקה. כשיצרנו מודל פתוח, בחנו בקפידה את הנושאים הבאים:

  • הטיה והגינות
    • מודלים גדולים של שפה שמאומנים על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיות סוציו-תרבותיות שמוטמעות בחומר ההכשרה. המודלים האלה עברו בחינה קפדנית, לאחר שעיבוד נתוני קלט מתאר הערכות אחוריות מדווחות בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
    • אפשר להשתמש לרעה במודלים גדולים של שפה (LLM) כדי ליצור טקסט שקרי, מטעה או מזיקה.
    • אפשר לקבל הנחיות לשימוש אחראי במודל. אפשר לעיין בינה מלאכותית גנרטיבית אחראית .
  • שקיפות ואחריותיות
    • כרטיס המודל הזה מסכם פרטים על המודלים של הארכיטקטורה, יכולות, מגבלות ותהליכי הערכה.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף באמצעות הפיכת טכנולוגיית LLM לנגישה למפתחים חוקרים בתחום הבינה המלאכותית (AI).

סיכונים מזוהים ומיטיגציות:

  • החזקת הטיות: מומלץ לבצע ניטור רציף (באמצעות מדדי הערכה, בדיקה אנושית) וחקר ההטיה במהלך אימון מודלים, כוונון עדין ותרחישים לדוגמה אחרים.
  • יצירת תוכן פוגעני: מנגנונים והנחיות בנוגע לתוכן הבטיחות היא חיונית. אנחנו ממליצים למפתחים לנהוג בזהירות להטמיע אמצעי הגנה הולמים לשמירה על בטיחות תוכן מדיניות המוצר ותרחישים לדוגמה של אפליקציות.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות ומפתחים וגם הכשרה של משתמשי קצה יכולה לסייע בהתמודדות עם אפליקציות זדוניות של מודלי שפה גדולים. מקורות מידע חינוכיים ומנגנוני דיווח למשתמשים לצורך סימון שימוש לרעה שניתנו. השימושים האסורים במודלים של Gemma מפורטים בתנאים של .
  • הפרות בנושא פרטיות: המודלים אומנו על נתונים שסוננו לצורך הסרה של פרטים אישיים מזהים (PII). אנחנו ממליצים למפתחים לציית לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.

שימוש מיועד

בקשת הצטרפות

למודלים גדולים של שפה (LLMs) יש מגוון רחב של אפליקציות בכל בתחומים שונים ובדומיינים שונים. הרשימה הבאה של שימושים אפשריים מקיפה. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודלים חשבו כחלק מהמודל במהלך האימון והפיתוח.

  • יצירת תוכן ותקשורת בין משתמשים
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור טקסט של קריאייטיב פורמטים כמו שירים, סקריפטים, קודים, תוכן שיווקי, טיוטות אימייל וכו'.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקים משופרים לשיחות שירות לקוחות, עוזרים דיגיטליים וירטואליים או אפליקציות אינטראקטיביות.
    • סיכום טקסט: ליצור סיכומים תמציתיים של מאגר הטקסט, מאמרי מחקר או דוחות.
  • מחקר וחינוך
    • מחקר בנושא עיבוד שפה טבעית (NLP): המודלים האלה יכולים כבסיס לחוקרים להתנסות בטכניקות NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
    • כלים ללמידת שפה: תמיכה בלמידת שפה אינטראקטיבית מקצועיות, סיוע בתיקון דקדוק או תרגול כתיבה.
    • חקר ידע: סיוע לחוקרים לחקור גופים גדולים של הטקסט על ידי יצירת סיכומים או מענה על שאלות לגבי נושאים.

יתרונות

במועד ההשקה, משפחת הדגמים הזו מספקת ביצועים גבוהים במצב פתוח של מודלים גדולים של שפה, שתוכננו מהבסיס, כדי של בינה מלאכותית גנרטיבית בהשוואה למודלים בגודל דומה.

המודלים הבאים מתבססים על מדדי ההערכה של המקובל בשוק שמתוארים במסמך הזה הוכיחו את הביצועים הטובים ביותר של מודל פתוח אחר, בגודל דומה חלופות.

באופן ספציפי, מודלים של RecurrentGemma משיגים ביצועים דומים לאלה של Gemma אבל הם מהירים יותר בתהליך ההסקה ודורשים פחות זיכרון, במיוחד רצפים ארוכים.