ליצור אמצעי הגנה לקלט ולפלט

לעיתים קרובות, אפליקציות של בינה מלאכותית גנרטיבית מסתמכים על סינון נתוני קלט ופלט (לפעמים נקרא safeguards) כדי להבטיח התנהגות אחראית של המודל. שיטות של סינון קלט ופלט בודקות את הנתונים שנכנסים למודל או יוצאים ממנו.

אמצעי הגנה ומסווגי בטיחות מוכנים לשימוש

גם אם יש כוונונים לשמירה על בטיחות ותבנית הנחיות שתוכננו היטב, עדיין יכול להיות שהמודל יוכל להפיק תוכן שיוביל לנזק לא מכוון. כדי לשפר עוד יותר את היכולת הזו, מסווגי תוכן יכולים להוסיף שכבת הגנה נוספת. אפשר להחיל מסווגי תוכן גם על קלט וגם על פלט.

מסַווגים משמשים בדרך כלל לסינון תוכן שלא מיועד לשימוש באפליקציה, ועלולים לגרום למודל להפר את מדיניות הבטיחות שלכם. לעיתים קרובות, מסנני קלט מטרגטים מתקפות יריבות שמנסות לעקוף את מדיניות התוכן. מסווגי פלט יכולים לסנן בצורה נוספת את הפלט של המודל, ולתפוס יצירה לא מכוונת שעלולה להפר את מדיניות הבטיחות שלכם. מומלץ להוסיף מסווגים שכוללים את כל כללי מדיניות התוכן שלכם.

Google פיתחה מסווגים אמצעים לשמירה על בטיחות התוכן, שבאמצעותם אפשר לסנן מקורות קלט ופלט:

  • Perspective API הוא API חינמי שמשתמש במודלים של למידת מכונה כדי לדרג את ההשפעה שעשויה להיות לתגובה על השיחה. הוא מספק ציונים שמציינים את הסבירות אם תגובה רעילה, מאיימת, מעליבה, לא הולמת וכו'.
  • השירות לניהול טקסטים הוא ממשק Google Cloud API שזמין לשימוש מתחת למגבלת שימוש מסוימת. השירות משתמש בלמידת מכונה כדי לנתח מסמך מול רשימה של מאפייני בטיחות, כולל קטגוריות שונות ונושאים שעשויים להיחשב רגישים.

חשוב להעריך עד כמה המסווגים הרגילים עומדים ביעדי המדיניות שלכם, ולהעריך את איכות המקרים של כשלים. חשוב גם לשים לב שסינון יתר יכול לגרום נזק לא מכוון וכן לצמצם את התועלת של האפליקציה, ולכן חשוב לבדוק גם את המקרים שבהם קיים סינון יתר. פרטים נוספים על שיטות הערכה כאלה זמינים במאמר הערכת המודל והמערכת לצורכי בטיחות.

יצירה של מסווגי בטיחות בהתאמה אישית

אם המדיניות שלכם לא כלולה בממשק ה-API הקבוע או שאתם רוצים ליצור מסווג משלכם, שיטות כוונון יעילות בפרמטרים כמו כוונון בקשה ו-LoRA מספקות מסגרת יעילה. בשיטות האלה, במקום לכוונן את המודל כולו, אפשר להשתמש בכמות מוגבלת של נתונים כדי לאמן קבוצה קטנה של פרמטרים חשובים במודל. כך המודל יכול ללמוד התנהגויות חדשות, כמו סיווג לפי תרחיש חדש שקשור לבטיחות, עם מעט מאוד נתוני אימון וכוח מחשוב. באמצעות הגישה הזו תוכלו לפתח כלי בטיחות מותאמים אישית למשתמשים ולמשימות שלכם.

כדי להמחיש איך זה עובד, ב-codelab הזה מוצג הקוד שנדרש כדי להגדיר 'מסווג גמיש'. ב-Codelab מוצגים השלבים של הטמעת הנתונים, הפורמט שלהם בהתאם ל-LLM, אימון משקולות LoRA והערכת התוצאות. Gemma מאפשרת ליצור את המסיווגים העוצמתיים האלה באמצעות כמה שורות קוד בלבד. לסקירה מפורטת יותר, המחקר שלנו, "Towards Agile Text Classifiers for Everyone", מראה איך אפשר להשתמש בשיטות האלה כדי לאמן מגוון משימות בטיחות כדי להשיג ביצועים מתקדמים בעזרת כמה מאות דוגמאות אימון.

במדריך לדוגמה הזה, תוכלו לאמן את המסווג לדברי שטנה באמצעות מערך הנתונים של ETHOS, מערך נתונים זמין לציבור לזיהוי דברי שטנה, שמבוסס על תגובות ב-YouTube וב-Reddit. כשעובדים עם מודל Gemma הקטן יותר, רק 200 דוגמאות (קצת פחות מ-1⁄4 ממערך הנתונים) מקבלים ציון F1 של 0.80 ו-ROC-AUC ל-0.78. התוצאה הזו משתווה לטובה לתוצאות שמדווחות בלידרבורד הזה. לאחר אימון על 800 הדוגמאות, כמו המסווגים האחרים בלידרבורד, המסווג הזריז שמבוסס על Gemma מגיע לציון F1 של 83.74 ולציון ROC-AUC של 88.17. אפשר להשתמש במסווג הזה בנפרד, או להתאים אותו בעזרת המדריך של Gemma Agile Classifier.

מדריכים של Gemma Agile Classifier

הפעלת Codelab הפעלת Google Colab

שיטות מומלצות להגדרת אמצעי הגנה

מומלץ מאוד להשתמש במסווגי בטיחות. עם זאת, שכבות הגנה עלולות לגרום לכך שהמודל הגנרטיבי לא יפיק שום דבר עבור המשתמשים אם התוכן חסום. האפליקציות צריכות להיות מותאמות לטיפול במקרה הזה. רוב צ'אט הבוטים הפופולריים מטפלים בזה על ידי מתן תשובות מוכנות מראש ("סליחה, אני מודל שפה, לא אוכל לעזור לך בבקשה הזו").

חשוב למצוא את האיזון הנכון בין מידת תועלת לבלתי מזיק: כשמשתמשים במסווגי בטיחות, חשוב להבין שהם טועים, כולל גם תוצאות חיוביות שגויות (למשל טענה שפלט מסוים לא בטוח כשהוא לא) וגם תוצאות שליליות שקריות (כשלא מתייגים פלט כלא בטוח כאשר הוא לא בטוח). כשבוחנים מסווגים עם מדדים כמו F1, Precision, Recall ו-AUC-ROC, אפשר לקבוע איך להשוות בין שגיאות חיוביות שגויות לבין שגיאות שליליות מוטעות. שינוי סף המסווגים עוזר למצוא איזון אידיאלי, שמונע סינון יתר של פלטים ועדיין מספק רמת בטיחות הולמת.

בדקו את המסווגים ומחפשים הטיות לא מכוונות: מסווגי בטיחות, כמו כל מודל אחר של למידת מכונה, יכולים להפיץ הטיות לא מכוונות כמו סטריאוטיפים סוציו-תרבותיים. צריך להעריך אפליקציות כראוי כדי לאתר התנהגויות שעלולות להיות בעייתיות. באופן ספציפי, מסווגי בטיחות תוכן יכולים לעורר יותר מדי תוכן שקשור לזהויות שמשמשות לעיתים קרובות יותר כשפה פוגענית באינטרנט. לדוגמה, כש-Perspective API הושק לראשונה, המודל החזיר ציונים גבוהים יותר של רעילות בתגובות שהפנו לקבוצות זהות מסוימות (בלוג). זה יכול לגרום להתנהגות מטרידה מדי, בגלל שהערות שמציינות מונחי זהות של קבוצות שמתמקדות בתדירות גבוהה יותר (למשל, מילים כמו "שחור", "מוסלמי", "פמיניסטי", "אישה", "הומואי" וכו') הן רעילות יותר באופיין. כשיש במערכי נתונים שמשמשים לאימון מסווגים יש חוסר משמעותי משמעותי בתגובות שמכילות מילים מסוימות, המסווגים יכולים לכלול יותר מדי הכללה ולהחשיב את כל התגובות עם המילים האלה כבעלות סבירות להיות לא בטוחות. מומלץ לקרוא איך הצוות של Jigsaw צמצם את ההטיה הלא מכוונת הזו.

משאבים למפתחים