כרטיס מודל של ShieldGemma

דף המודל: ShieldGemma

משאבים ומסמכים טכניים:

התנאים וההגבלות: התנאים

מחברים: Google

פרטי הדגם

ShieldGemma 2 הוא מודל שאומן בנקודת הבקרה של Gemma 3 ב-IT‏ 4B לצורך סיווג של תמונות לפי רמת הבטיחות בקטגוריות מפתח. המודל מקבל תמונות ומפיק תוויות בטיחות בהתאם למדיניות.

תיאור

ShieldGemma 2, שמבוסס על Gemma 3, הוא מודל עם 4 מיליארד (4 מיליארד) פרמטרים, שבודק את הבטיחות של תמונות סינתטיות ושל תמונות טבעיות בהשוואה לקטגוריות מפתח, כדי לעזור לכם ליצור מערכי נתונים ומודלים חזקים. בעזרת התוספת הזו למשפחת המודלים של Gemma, חוקרים ומפתחים יכולים עכשיו לצמצם את הסיכון לכך שתוכן מזיק ישפיע על האפליקציות שלהם שמבוססות על AI גנרטיבי בסוגי הנזק העיקריים.

מומלץ להשתמש ב-ShieldGemma 2 כמסנן קלט למודלים של שפת חזות או כמסנן פלט במערכות ליצירת תמונות. כדי לאמן מודל איתן לבטיחות תמונות, אספנו מערכי נתונים לאימון של תמונות טבעיות ותמונות סינתטיות, והתאמנו את ההוראות של Gemma 3 כדי להפגין ביצועים טובים. השווינו את כללי הבטיחות שלנו לנקודות השוואה שונות, ואנחנו מפרסמים דוח טכני שכולל נקודות השוואה של צד שלישי.

קלט ופלט

  • קלט: תמונה והנחיה עם הגדרת המדיניות.
  • פלט: ההסתברות של אסימונים מסוג 'כן' או 'לא'. ציון גבוה יותר של האסימון 'כן' מציין שהמודל בטוח שהתוכן מפר את המדיניות הכלולה. ההפך נכון לטוקן 'לא'. שני הציונים נועדו לאפשר שימוש במדדי סיווג ובכיול.

הנחיות לשימוש בהנחיות

זוהי ההוראה שלנו להנחיה [Prompt Instruction]:

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

תרחיש לדוגמה: סיווג תמונות

סוג הנזק הנחיה
תוכן מיני בוטה "אין תוכן מיני בוטה": התמונה לא תכיל תוכן שמציג אקטים מיניים בוטים או גרפיים (למשל, פורנוגרפיה, עירום ארוטי, הצגה של אונס או תקיפה מינית).
תוכן מסוכן "אין תוכן מסוכן": התמונה לא תכיל תוכן שעוזר לבצע פעילויות שעלולות לגרום לנזק בעולם האמיתי או מעודד אותן (למשל, בניית כלי נשק ומכשירים מ爆発יים, קידום טרור, הוראות להתאבדות).
תוכן בעל אופי אלים "ללא תוכן אלים או קשה לצפייה": התמונה לא תכיל תוכן שמציג אלימות מזעזעת, אלימות שמטרתה ריגושים או אלימות מיותרת (למשל, דם ופציעות קשות בצורה מוגזמת, אלימות מיותרת כלפי בעלי חיים, פציעה קיצונית או רגע המוות).

ציטוט ביבליוגרפי

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

נתוני מודל

הנתונים ששימשו לאימון המודל ואופן העיבוד של הנתונים.

מערך נתונים לאימון

מערך נתוני האימון שלנו מורכב גם מתמונות טבעיות וגם מתמונות סינתטיות. בתמונות טבעיות, אנחנו בוחרים דגימה של תמונות מתוך מערך הנתונים WebLI‏ (Web Language and Image) שרלוונטיות למשימות הבטיחות. בתמונות סינתטיות, אנחנו משתמשים בצינור פנימי ליצירת נתונים כדי לאפשר יצירת הנחיות ותמונות תואמות באופן מבוקר, תוך איזון בין המגוון לבין חומרת התמונות. במסגרת המחקר הזה, סוגי הנזק הוגבלו לתוכן מסוכן, מיני בוטה ותכנים אלימים, באנגלית בלבד. נושאים נוספים ונושאי משנה של פעילות זדונית תוארו באמצעות מערכת קטגוריות שתואמת לכללי המדיניות הרלוונטיים, ומגוון של מאפיינים דמוגרפיים, הקשרים ואספקטים אזוריים.

עיבוד נתונים מקדים

ריכזנו כאן את שיטות הניקוי והסינון העיקריות של הנתונים שהוחלו על נתוני האימון: סינון תוכן שמתאר התעללות מינית בילדים (CSAM): סינון תוכן שמתאר התעללות מינית בילדים (CSAM) הוחל בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן לא חוקי.

פרטי ההטמעה

חומרה

ShieldGemma 2 אומן באמצעות החומרה מהדור החדש ביותר של יחידת עיבוד נתונים טילריים (TPU) (TPUv5e). פרטים נוספים זמינים בכרטיס המודל של Gemma 3.

תוכנה

האימון בוצע באמצעות JAX ו-ML Pathways. פרטים נוספים זמינים בכרטיס הדגם של Gemma 3.

הערכה

תוצאות של בנצ'מרק

ShieldGemma 2 4B נבדק באמצעות מערכי נתונים פנימיים וחיצוניים. מערך הנתונים הפנימי שלנו נוצר באופן סינתטי באמצעות צינור עיבוד הנתונים הפנימי שלנו לבחירת תמונות. צינור עיבוד הנתונים הזה כולל שלבים חשובים כמו הגדרת הבעיה, יצירת קטגוריות בטיחות, יצירת שאילתות תמונה, יצירת תמונות, ניתוח מאפיינים, אימות איכות התווית ועוד. יש לנו כ-500 דוגמאות לכל מדיניות בנושא נזק. היחסים החיוביים הם 39%, 67% ו-32% לתכנים מיניים, מסוכנים ואלימים, בהתאמה. נשיק גם דוח טכני שכולל הערכות מול מערכי נתונים חיצוניים.

תוצאות ההערכה של מדדי השוואה פנימיים

דגם תוכן מיני בוטה תוכן מסוכן אלימות ופציעות קשות
LlavaGuard 7B 47.6/93.1/63.0 67.8/47.2/55.7 36.8/100.0/53.8
GPT-4o mini 68.3/97.7/80.3 84.4/99.0/91.0 40.2/100.0/57.3
Gemma-3-4B-IT 77.7/87.9/82.5 75.9/94.5/84.2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87.6/89.7/88.6 95.6/91.9/93.7 80.3/90.4/85.0

אתיקה ובטיחות

הגישה להערכה

מודלים של ShieldGemma הם מודלים גנרטיביים, אבל הם מיועדים להפעלה במצב ניקוד כדי לחזות את הסבירות שהאסימון הבא יהיה Yes או No. לכן, הערכת הבטיחות התמקדה בעיקר בהפקת תוויות בטיחות יעילות לתמונות.

תוצאות הבדיקה

המודלים האלה נבדקו מבחינת שיקולים אתיים, בטיחותיים והוגנים, והם עמדו בהנחיות הפנימיות. בהשוואה לנקודות השוואה, מערכי הנתונים של הבדיקות עברו כמה סבבים של שיפורים והתאמות לצורך איזון בין קטגוריות שונות. גם תוויות הבטיחות של התמונות סומנו על ידי בני אדם ונבדקו לזיהוי תרחישים לדוגמה שהמודל לא הצליח לזהות, וכך אפשר היה לשפר את מחזורי הבדיקה.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שחשוב שהמשתמשים יהיו מודעים להן.

שימוש מיועד

ShieldGemma 2 מיועד לשימוש ככלי לניהול תוכן בטיחותי, לצורך בקרה על קלט של משתמשים אנושיים, על פלט של מודלים או על שניהם. המודלים האלה הם חלק מResponsible Generative AI Toolkit, קבוצה של המלצות, כלים, מערכי נתונים ומודלים שמטרתם לשפר את הבטיחות של אפליקציות AI כחלק מסביבת Gemma.

מגבלות

חלות כל המגבלות הרגילות של מודלים גדולים של שפה. פרטים נוספים זמינים בכרטיס המודל של Gemma 3. בנוסף, יש רק מספר מצומצם של נקודות מידוד שאפשר להשתמש בהן כדי להעריך את ניהול התוכן, ולכן יכול להיות שנתוני האימון וההערכה לא מייצגים תרחישים מהעולם האמיתי.

בנוסף, ShieldGemma 2 רגיש מאוד לתיאור הספציפי של עקרונות הבטיחות שמשתמשים מספקים, ויכול להיות שהביצועים שלו יהיו בלתי צפויים בתנאים שדורשים הבנה טובה של ניואנסים ודו-משמעות בשפה.

בדומה לדגמים אחרים שנכללים בסביבת Gemma, ShieldGemma כפוף למדיניות Google בנושא שימוש אסור.

שיקולים אתיים וסיכונים

הפיתוח של מודלים גדולים של שפה (LLM) מעלה כמה חששות אתיים. במהלך הפיתוח של המודלים האלה, התייחסנו בקפידה למספר היבטים.

פרטים נוספים זמינים בכרטיס הדגם של Gemma 3.

יתרונות

נכון למועד הפרסום, משפחת המודלים הזו מספקת הטמעות פתוחות של מודלים גדולים של שפה עם ביצועים גבוהים, שתוכננו מלכתחילה לפיתוח AI אחראי, בהשוואה למודלים בגודל דומה.

לפי מדדי ההערכה של נקודות השוואה שמתוארים במסמך הזה, נמצא שהמודלים האלה מספקים ביצועים טובים יותר ממודלים פתוחים אחרים בגודל דומה.