ליצור אמצעי הגנה לקלט ולפלט

הרבה פעמים, אפליקציות של בינה מלאכותית גנרטיבית מסתמכות על סינון נתוני קלט ופלט. שנקראים לפעמים אמצעי הגנה, כדי להבטיח שהמודל או התנהגות המשתמשים. שיטות של סינון קלט ופלט בוחנות את הנתונים שנכנסים או יציאה מהמודל בהתאם למדיניות להגדיר עבור האפליקציה שלך.

אמצעי הגנה מוכנים מראש

גם בעקבות כוונון קודם לשיפור הבטיחות ותבנית הנחיות שמעוצבת היטב, שעדיין יהיה אפשרי עבור המודל שלכם להפיק תוכן שעלול לגרום לנזק לא מכוון. כדי לשפר את השירות, מסַווגי התוכן יכולים להוסיף שכבה נוספת של הגנה. אפשר להחיל מסווגי תוכן גם על קלט וגם על פלט.

מסַווגים של קלט משמשים בדרך כלל לסינון תוכן שלא נועד יכול לגרום למודל להפר את המדיניות, מדיניות הבטיחות. מסנני קלט מטרגטים לעיתים קרובות התקפות עוינות שמנסות לעקוף את מדיניות התוכן שלכם. מסווגי פלט יכולים לסנן עוד יותר את המודל פלט שהוא יוצר קשרים לא רצויים שעשויים להפר את מדיניות הבטיחות. מומלץ להשתמש במסווגים שמכסים את כל כללי מדיניות התוכן.

Google מספקת מסווגים מבוססי API לשמירה על בטיחות תוכן שניתן להשתמש בהם כדי סינון הקלט והפלט של המערכת:

  • Perspective API הוא API חינמי שמשתמש במכונה של למידת מכונה כדי לדרג את ההשפעה הנתפסת שעשויה להיות לתגובה שיחה. הוא מספק ציונים שמשקפים את ההסתברות התגובה רעילה, מאיימת, מעליבה או לא קשורה לנושא.
  • השירות לניהול טקסט הוא ממשק API של Google Cloud זמינים לשימוש מתחת למגבלת שימוש מסוימת משתמשת בלמידת מכונה כדי לנתח מסמך מול רשימת בטיחות כולל קטגוריות שונות שעלולות להזיק (PHA) ונושאים עשוי להיחשב כרגיש.

חשוב להעריך עד כמה מסווגים מוכנים מראש עומדים בדרישות המדיניות ולהעריך באופן איכותי את המקרים של כשלים. חשוב גם שימו לב שסינון יתר עלול גם לגרום לנזק לא מכוון, וכן להפחית היתרון של האפליקציה, כלומר חשוב לבדוק גם במקרים שבהם קיים סינון יתר. לפרטים נוספים על הערכה כזו במאמר הערכת הבטיחות של המודל והמערכת

יצירה של מסווגי בטיחות בהתאמה אישית

יש כמה סיבות אפשריות לכך שאמצעי הגנה מוכן מראש לא מתאים לדוגמה שלך, למשל אם יש מדיניות שאינה נתמכת או שברצונך לכוונן עוד יותר את אמצעי ההגנה באמצעות נתונים זיהיתם שמשפיעים על המערכת. לחשבון במקרה הזה, מסווגים גמישים מספקים היא מסגרת גמישה ליצירת אמצעי הגנה מותאמים אישית באמצעות כוונון של מודלים, כמו Gemma, לפי הצרכים שלך. הם גם מאפשרים לכם שליטה מלאה איפה ואיפה האופן שבו הן נפרסות.

מדריכים ל-Gemma Agile Classifier

התחלת Codelab הפעלת Google Colab

המסווגים הגמישים codelab וגם במדריך נעשה שימוש ב-LoRA כדי לשפר את ה-Gemma שישמש כמסווג של ניהול תוכן באמצעות KerasNLP לספרייה. נשתמש ב-200 דוגמאות בלבד ממערך הנתונים של ETHOS, המסווג משיג ציון F1 של 0.80 וציון ROC-AUC של 0.78, בהשוואה לטכנולוגיה מתקדמת תוצאות ברשימת המובילים. אחרי האימון לפי 800 הדוגמאות, כמו המסווגים האחרים בלידרבורד, המסווג הזריז מבוסס Gemma מקבל ציון F1 של 83.74 וציון ROC-AUC של 88.17. אפשר לשנות את במדריך הזה כדי לשפר את המסווג הזה, או כדי ליצור סיווג משלכם אמצעי הגנה לסיווג בטיחות בהתאמה אישית.

שיטות מומלצות להגדרת אמצעי הגנה

מומלץ מאוד להשתמש במסווגי בטיחות בתור אמצעי הגנה. אבל, לפעמים שכבות הגנה עלולות לגרום לכך שהמודל הגנרטיבי לא יפיק דבר משתמש, אם התוכן חסום. האפליקציות צריכות להיות מסוגלות להתמודד עם מותאמת אישית. הצ'אט בוטים הפופולריים ביותר מטפלים בעניין על ידי מתן תשובות מוכנות מראש ( סליחה, אני מודל שפה. לא אוכל לעזור לך עם הבקשה הזו").

למצוא את האיזון הנכון בין תועלת לבין חוסר נזק: כשאתם משתמשים למסווגי בטיחות, חשוב להבין שהם טועים, כולל תוצאות חיוביות מוטעות (למשל, טענה שפלט מסוים לא בטוח כאשר הוא לא) ושליליות False (כשלסימון פלט כלא בטוח, כאשר הוא לא בטוח). על ידי באמצעות הערכה של מסווגים בעזרת מדדים כמו F1, דיוק, Recall ו-AUC-ROC, הוא יכול לקבוע איך להחליף בין תוצאה חיובית שקרית לבין FALSE שגיאות שליליות. שינוי סף של המסווגים עוזר למצוא איזון אידיאלי שמונע סינון יתר של הפלט, ובמקביל לספק בטיחות הולמת.

בודקים אם יש הטיות לא מכוונות במסווגים: כשמסווגי בטיחות, כמו כל קטגוריה אחרת יכולים להפיץ הטיות לא מכוונות, כמו הטיות סוציו-תרבותיות, בסטריאוטיפים. צריך להעריך את האפליקציות בצורה נכונה כדי להעריך את הפוטנציאל או התנהגות בעייתית. באופן ספציפי, מסווגי בטיחות תוכן שמופעלות יתר על המידה בתוכן שקשור לזהויות, יעד של שפה פוגענית באינטרנט. לדוגמה, כש-Perspective API הושק לראשונה, המודל החזיר ציוני רעילות גבוהים יותר בתגובות התייחסות לקבוצות זהות מסוימות (בלוג). טריגר יתר התנהגות יכולה להתרחש כי תגובות שבהן מוזכרים מונחי זהות לקבוצות מטורגטות לעיתים קרובות (למשל: מילים כמו "שחור", "מוסלמית", "פמיניסטי", 'אישה', '" וכדומה) הן בדרך כלל רעילות יותר מטבען. כשמערכי נתונים משמשים במסווגים שמבוססים על רכבות יש חוסר משקל משמעותי בתגובות שמכילות מילים, המסווגים יכולים לבצע יותר מדי הכללות ולשקול את כל ההערות שמכילות את המילים האלה שסביר להניח שהן לא בטוחות. להסבר על הצוות של Jigsaw צמצמו את ההטיה הלא מכוונת הזו.

משאבים למפתחים