הערכת סיכונים והגדרת מדיניות בטיחות

המדיניות בנושא בטיחות התוכן מגדירה אילו סוגים של תוכן פוגעני אסור לפרסם בפלטפורמה אונליין. יכול להיות שאתם מכירים את מדיניות התוכן של פלטפורמות כמו YouTube או Google Play. מדיניות התוכן באפליקציות של בינה מלאכותית גנרטיבית היא דומה: היא מגדירה איזה סוג של תוכן אתם לא צריכים ליצור באפליקציה, והיא מדריכה איך לכוונן את המודלים ואילו אמצעי הגנה צריך להוסיף.

המדיניות צריכה לשקף את התרחיש לדוגמה של האפליקציה שלכם. לדוגמה, יכול להיות שבמוצר של בינה מלאכותית גנרטיבית (AI גנרטיבי) רעיונות לפעילויות לכל המשפחה על סמך הצעות מהקהילה, תהיה מדיניות שאוסרת על יצירת תוכן אלים בעל אופי אלים, כי הוא עלול להזיק למשתמשים. לעומת זאת, אפליקציה שמסכמת רעיונות לסיפורי מדע בדיוני שהציעו משתמשים עשויה לאפשר ייצור של אלימות, כי היא נושא סיפורים רבים בז'אנר הזה.

מדיניות הבטיחות צריכה לאסור על יצירת תוכן שמזיק למשתמשים או לא חוקי, ולציין אילו סוגי תוכן נוצרים עומדים ברף הזה באפליקציה. כדאי גם לשקול לכלול החרגות לגבי תוכן חינוכי, תיעודי, מדעי או אומנותי שאחרת עלול להיחשב כמזיק.

הגדרה של מדיניות ברורה ברמת פירוט גבוהה, כולל החרגות מהמדיניות עם דוגמאות, היא הבסיס ליצירת מוצר אחראי. בכל שלב בפיתוח המודל שלך נעשה שימוש במדיניות שלך. כשמדובר בניקוי או בתוויות של נתונים, חוסר דיוק עלול להוביל לנתונים שתויגו באופן שגוי, להסרת יתר או להסרה של נתונים קטנים מדי, וזה ישפיע על תגובות הבטיחות של המודל. למטרות הערכה, מדיניות לא מוגדרת תוביל לשונות גבוהה בין מדרגים, וכך יהיה קשה יותר לדעת אם המודל עומד בסטנדרטים של הבטיחות שלכם.

מדיניות היפותטית (להמחשה בלבד)

ריכזנו כאן כמה דוגמאות לכללי מדיניות שכדאי להשתמש בהם באפליקציה, בתנאי שהם תואמים לתרחיש לדוגמה שלכם.

קטגוריית מדיניות מדיניות
פרטים אישיים מזהים בעלי רגישות גבוהה (SPII) בבקשה לא יצוינו פרטים רגישים ופרטים אישיים מזהים (למשל, כתובת אימייל, מספר כרטיס אשראי או מספר תעודת זהות של אדם פרטי).
דברי שטנה האפליקציה לא תיצור תוכן שלילי או פוגעני שמטרגט זהות ו/או מאפיינים מוגנים (למשל, השמצות גזעניות, קידום אפליה, קריאות לאלימות נגד קבוצות מוגנות).
הטרדה האפליקציה לא תיצור תוכן זדוני, מפחיד, בריונות או תוכן פוגעני כלפי אדם אחר (למשל, איומים פיזיים, הכחשת אירועים טרגיים, זלזול בקורבנות של אלימות).
תוכן מסוכן האפליקציה לא תיצור הוראות או עצות לפגיעה עצמית ו/או באחרים (למשל, גישה לנשק חם ולמתקני נפץ או בנייה שלו, קידום פעולות טרור, הוראות להתאבדות).
תוכן מיני בוטה האפליקציה לא תיצור תוכן שמכיל אזכורים של מעשים מיניים או תוכן בוטה אחר (למשל, תיאורים גרפיים, או תוכן שמטרתו לעורר גירוי מיני).
מתן גישה למוצרים ושירותים מזיקים האפליקציה לא תיצור תוכן שמקדם או מאפשר גישה למוצרים, לשירותים ולפעילויות שעלולים להזיק (למשל, סיוע בגישה לקידום הימורים, תרופות, זיקוקים ושירותי מין).
תוכן זדוני האפליקציה לא תיצור הוראות לביצוע פעילויות לא חוקיות או מטעות (למשל, יצירת תרמיות פישינג, ספאם או תוכן שמיועד לשידול המוני או בשיטות פריצה).

משאבים למפתחים

דוגמאות לכללי המדיניות לגבי בינה מלאכותית גנרטיבית: