הגנה על המודלים שלכם

מוצרי בינה מלאכותית (AI) גנרטיבית הם חדשים יחסית ההתנהגות שלהם עשויה להשתנות ביותר מצורות תוכנה קודמות. אמצעי ההגנה ששומרים על המוצר מפני שימוש לרעה ביכולות של AI גנרטיבי צריכים להתאים את עצמם. במדריך הזה מוסבר איך להשתמש בכלים לבדיקת תאימות למדיניות התוכן ובכלים להוספת סימני מים כדי להגן על המוצרים שלכם עם AI גנרטיבי.

תאימות למדיניות התוכן

גם אחרי התאמה מראש לשמירה על בטיחות ותבנית הנחיה מעוצבת היטב, יכול להיות שמוצר ה-AI הגנרטיבי שלכם יפיק תוכן שעלול לגרום נזק לא מכוון. מוצרים של AI גנרטיבי מסתמכים לעיתים קרובות על סינון קלט ופלט כדי להבטיח התנהגות אחראית של המודלים. האלה בוחנות את הנתונים שנכנסים למודל או יוצאים ממנו, המדיניות שלכם, ולעיתים קרובות על ידי הוספת הדרכה בנושא בטיחות כדי ליצור מודל לסיווג תוכן.

סיווגים של קלט משמשים לסינון תוכן שמפר ישירות את כללי המדיניות שלכם בנושא תוכן, או תוכן שעלול לגרום לכך שהמודל ייצור תוכן שמפר את כללי המדיניות שלכם בנושא תוכן. קלט מסננים בדרך כלל מטרגטים מתקפות זדוניות שמנסות להערים על התוכן שלך .

סיווג הפלט מסנן את הפלט של המודל, ומזהה תוכן שנוצר שמפר את כללי מדיניות הבטיחות שלכם. מעקב מדוקדק אחרי התנהגויות הדחייה של התוכן יכול להוביל ליצירת סוגים חדשים של הנחיות שאפשר להשתמש בהן כדי להרחיב או לשפר את מסנני הקלט.

מומלץ להשתמש במסווגים שמכסים את כל כללי מדיניות התוכן. ייתכן שתוכלו לעשות זאת באמצעות מסווגים מוכנים מראש, או ייתכן שתצטרכו ליצור מסווגים מותאמים אישית שתומכים ב- למדיניות הספציפית שלכם.

גם איזון הוא חשוב. סינון יתר עלול לגרום לנזק לא מכוון או לצמצם את התועלת של האפליקציה. חשוב לבדוק את המקרים שבהם יכול להתרחש סינון יתר. מידע נוסף זמין במדריך להערכת בטיחות.

סיווגים מוכנים מראש של מדיניות תוכן

סיווגים מוכנים מראש של תוכן מוסיפים שכבת הגנה נוספת לאימון הבטיחות המובנה של המודל, ומפחיתים עוד יותר את הסיכון להפרות מדיניות מסוגים מסוימים. בדרך כלל יש שני סוגים של מודעות כאלה:

  1. מסווגים באירוח עצמי, כמו ShieldGemma, יורדים ומתארחים במגוון ארכיטקטורות, כולל ענן פלטפורמות כמו Google Cloud, חומרה בבעלות פרטית וחלק ממסווגים יכול אפילו לפעול במכשיר של אפליקציות לנייד.
  2. סיווגים מבוססי-API מוצעים כשירותים שמספקים סיווג בנפח גבוה ובזמן אחזור קצר, בהתאם למגוון מדיניות. Google מספקת שלושה שירותים שעשויים לעניין אותך:
    • בעזרת Checks AI Safety אפשר לקבל הערכות תאימות וגם מרכזי בקרה שתומכים בהערכה ובמעקב של מודלים. מידע על בטיחות באמצעות AI הכלי נמצא בגרסת בטא פתוחה, נרשמים לחדשות, גישה והדגמות.
    • שירות ניהול הטקסט הוא ממשק Google Cloud API שמנתח טקסט כדי לזהות הפרות של תקנות הבטיחות, כולל קטגוריות מזיקות ונושאים רגישים, בכפוף לשיעורי השימוש.
    • Perspective API הוא API חינמי שמשתמש במכונה של למידת מכונה כדי לדרג את ההשפעה הנתפסת שעשויה להיות לתגובה שיחה. הוא מספק ציונים שמשקפים את הסבירות לכך שתגובה מסוימת היא רעילה, מאיימת, פוגעת או לא קשורה לנושא.

חשוב להעריך עד כמה מסווגים מוכנים מראש עומדים בדרישות המדיניות ולהעריך באופן איכותי את המקרים של כשלים.

סיווגים מותאמים אישית של מדיניות תוכן

סיווגים מוכנים מראש של מדיניות תוכן הם התחלה מצוינת, אבל יש להם מגבלות, כולל:

  • טקסונומיה קבועה של המדיניות, שייתכן שלא תמפה את כל התוכן שלכם או תכסה אותו .
  • ייתכן שדרישות החומרה והקישוריות לא יתאימו שבה תתבצע פריסה של האפליקציה מבוססת ה-AI הגנרטיבי.
  • תמחור והגבלות שימוש אחרות.

סיווגים מותאמים אישית של מדיניות תוכן יכולים להיות אחת מהדרכים להתמודדות עם המגבלות האלה, והשיטה של סיווגים גמישים מספקת מסגרת יעילה וגמישה ליצירתם. השיטה הזו מתאימה את המודל למטרות בטיחות, לכן חשוב לעיין ביסודות של התאמת מודל.

זיהוי תוכן שנוצר על ידי AI באמצעות סימני מים של טקסט ב-SynthID

בינה מלאכותית גנרטיבית יכולה ליצור מגוון רחב יותר של תוכן מגוון רחב בקנה מידה נרחב בלתי אפשרית. למרות שרוב השימוש הזה הוא למטרות לגיטימיות, יש חשש שהוא עלול לגרום לבעיות של מידע מוטעה ושיוך שגוי. הוספת סימן מים היא שיטה אחת לצמצום ההשפעות הפוטנציאליות האלה. סימני מים שאפשר ליישם אותם על תוכן שנוצר על ידי AI, שבני אדם לא יכולים להבחין בהם, מודלים לזיהוי יכולים לתת ציון לתוכן שרירותי, כדי לציין את הסבירות סומן כסימן מים.

SynthID היא טכנולוגיית DeepMind של Google שיוצרת סימני מים מזהה תוכן שנוצר על ידי AI על ידי הטמעת סימני מים דיגיטליים ישירות תמונות, אודיו, טקסט או סרטונים שנוצרו על ידי AI. SynthID Text זמין בסביבת הייצור ב-Hugging Face Transformers. במאמר המחקר ובמסמכים מוסבר איך להשתמש ב-SynthID באפליקציה.

לקוחות Vertex AI ב-Google Cloud יכולים להשתמש ביכולות של SynthID להוספת סימני מים למדיומים אחרים, כמו תמונות שנוצרו על ידי Imagen.

שיטות מומלצות להגדרת אמצעי הגנה

מומלץ מאוד להשתמש במסווגי בטיחות בתור אמצעי הגנה. אבל, לפעמים שכבות הגנה עלולות לגרום לכך שהמודל הגנרטיבי לא יפיק דבר משתמש, אם התוכן חסום. האפליקציות צריכות להיות מסוגלות להתמודד עם מותאמת אישית. רוב צ'אטבוטים פופולריים מטפלים בבעיה הזו על ידי מתן תשובות מוגדרות מראש ('צר לי, אני מודל שפה ואין לי אפשרות לעזור לך בבקשה הזו').

איך מוצאים את האיזון הנכון בין עזרה לבין פגיעה: כשמשתמשים במסווגי בטיחות, חשוב להבין שהם יעשו טעויות, כולל תוצאות חיוביות שגויות (למשל, הצהרה על כך שהפלט לא בטוח כשהוא אכן בטוח) ותוצאות שליליות שגויות (כישלון לתייג פלט כבלתי בטוח כשהוא אכן לא בטוח). על ידי באמצעות הערכה של מסווגים בעזרת מדדים כמו F1, דיוק, Recall ו-AUC-ROC, הוא יכול לקבוע איך להחליף בין תוצאה חיובית שקרית לבין FALSE שגיאות שליליות. שינוי הסף של המסווגים עוזר למצוא את האיזון האידיאלי, כך שאפשר להימנע מסינון יתר של הפלט ועדיין לשמור על רמת בטיחות מתאימה.

בדיקת הסיווגים לזיהוי הטיות לא רצויות: סיווגים של בטיחות, כמו כל מודל אחר של למידת מכונה, יכולים להפיץ הטיות לא רצויות, כמו סטריאוטיפים חברתיים-תרבותיים. צריך להעריך את האפליקציות בצורה נכונה כדי להעריך את הפוטנציאל או התנהגות בעייתית. באופן ספציפי, סיווגים של תוכן בטוח יכולים להפעיל תגובה מוגזמת לגבי תוכן שקשור לזהויות שנמצאות בתדירות גבוהה יותר בסיכון לשימוש בשפה פוגענית באינטרנט. לדוגמה, כש-Perspective API הושק לראשונה, המודל החזיר ציונים גבוהים יותר של רעילות בתגובות שציינו קבוצות זהות מסוימות (בלוג). טריגר יתר התנהגות כזו יכולה להתרחש בגלל שתגובות שבהן מוזכרים מונחי זהות לקבוצות מטורגטות לעיתים קרובות (למשל: מילים כמו "שחור", "מוסלמית", "פמיניסטי", 'אישה', '" וכדומה) הן בדרך כלל רעילות יותר מטבען. כשיש חוסר איזון משמעותי במערכי הנתונים שמשמשים לאימון של מסווגים בתגובות שמכילות מילים מסוימות, מסווגים עלולים להכליל יתר על המידה ולחשוב שכל התגובות עם המילים האלה עשויות להיות לא בטוחות. כך הצוות של Jigsaw צמצם את ההטיה הלא מכוונת הזו.

משאבים למפתחים