הגדרות בטיחות

סקירה

במדריך הזה מתוארות הגדרות הבטיחות המותאמות של PaLM API שזמינות לשירות הטקסט. במהלך יצירת אב הטיפוס תוכלו לשנות את הגדרות הבטיחות בשישה מאפיינים כדי להעריך במהירות אם נדרשת הגדרה מגבילה יותר או פחות. כברירת מחדל, הגדרות הבטיחות חוסמות תוכן בעל סבירות בינונית ו/או גבוהה ליצירת תוכן לא בטוח בכל ששת המאפיינים. אמצעי הבטיחות הבסיסי הזה מיועד לשימוש ברוב תרחישי השימוש, לכן חשוב לשנות את הגדרות הבטיחות רק אם הוא נדרש באופן עקבי לאפליקציה שלכם.

מסנני בטיחות

בנוסף למסנני הבטיחות שניתנים להתאמה, ב-PaLM API יש הגנות מובנות מפני פגיעות ליבה, כמו תוכן שמסכן את בטיחות הילדים. סוגי נזק כאלה חסומים תמיד ולא ניתן לשנות אותם.

מסנני הבטיחות שניתנים להתאמה כוללים את הקטגוריות הבאות:

  • פוגעני
  • רעיל
  • מיני
  • אלים
  • רפואי
  • תוכן מסוכן

ההגדרות האלה מאפשרות לכם, המפתחים, לקבוע מה מתאים לתרחיש השימוש שלכם. לדוגמה, אם אתם בונים דו-שיח של משחק וידאו, ייתכן שתחליטו להתיר העלאה של תוכן נוסף עם סיווג אלים או מסוכן בגלל אופי המשחק. אלה כמה תרחישים לדוגמה נוספים שייתכן שנדרשת גמישות בהגדרות הבטיחות האלו:

תרחיש לדוגמה קטגוריה
אפליקציית הדרכה נגד הטרדה פוגעני, מיני, רעיל
לימודי בחינה רפואית רפואי
כותב התסריט אלים, מיני, רפואי, מסוכן
מסווג רעילות רעיל, פוגעני

הסתברות לעומת רמת חומרה

PaLM API חוסם תוכן על סמך ההסתברות לתוכן להיות לא בטוח ולא לפי חומרת הבעיה. חשוב להביא את זה בחשבון כי יש סבירות נמוכה לכך שתוכן מסוים לא יהיה בטוח, גם אם חומרת הנזק עשויה להיות גבוהה. לדוגמה, השוואה בין המשפטים:

  1. הרובוט נתן לי מכות.
  2. הרובוט חתך אותי.

משפט 1 עלול לגרום להסתברות גבוהה יותר להיות לא בטוח, אבל יכול להיות שמשפט 2 יהיה חומרה גבוהה יותר במונחים של אלימות.

לכן, חשוב שכל מפתח יבחן בקפידה את רמת החסימה המתאימה כדי לתמוך בתרחישים העיקריים לדוגמה שלו, תוך צמצום הנזק למשתמשי הקצה.

הגדרות בטיחות

הגדרות בטיחות הן חלק מהבקשה ששולחים לשירות הטקסט. אפשר להתאים אותו לכל בקשה שנשלחת ל-API. בטבלה הבאה מפורטות הקטגוריות שאפשר להגדיר וסוג הנזק שכל קטגוריה כוללת.

קטגוריות תיאורים
פוגעני תגובות שליליות או מזיקות שמטרגטות לזהות או למאפיינים מוגנים.
רעיל תוכן שכולל גסויות, לא מכבד או גס.
מיני מכיל התייחסויות למעשים מיניים או תוכן גס אחר.
אלים מתאר תרחישים המתארים אלימות נגד אדם או קבוצה, או תיאורים כלליים של פציעות קשות.
תוכן מסוכן עידוד, עידוד או עידוד של פעולות מזיקות.
רפואי תוכן שקשור לנושאים רפואיים

ההגדרות האלה מופיעות גם בחומר העזר ל-API.

בטבלה הבאה מפורטות הגדרות החסימה שאפשר לשנות לכל קטגוריה. לדוגמה, אם בוחרים בהגדרת החסימה חסימת מספר מסוים בקטגוריה תוכן פוגעני, כל מה שיש לו סבירות גבוהה לכך שהוא תוכן פוגעני ייחסם. עם זאת, כל דבר שיש לו סבירות נמוכה יותר מותר.

אם המדיניות לא מוגדרת, הגדרת ברירת המחדל לחסימה היא Block some (חסימה של חלק מהמודעות) או Block most (חסימה של כולן) בהתאם לקטגוריית המדיניות.

סף (Google AI Studio) סף (API) תיאור
לא לחסום BLOCK_NONE הצגת המודעות תמיד, ללא קשר להסתברות לתוכן לא בטוח
חסימת כמה סוגים BLOCK_ONLY_HIGH חסימה כשיש סבירות גבוהה לתוכן לא בטוח
חסימה של תכנים מסוימים (ברירת מחדל של תכנים מיניים, אלימים, מסוכנים ורפואיים) BLOCK_MEDIUM_AND_ABOVE חסימה כאשר יש סבירות בינונית או גבוהה לתוכן לא בטוח
רוב המשתמשים חסומים (ברירת מחדל של תוכן פוגעני ורעיל) BLOCK_LOW_AND_ABOVE חסימה כאשר יש סבירות נמוכה, בינונית או גבוהה לתוכן לא בטוח
HARM_BLOCK_THRESHOLD_UNSPECIFIED לא צוין סף, חסימה באמצעות סף ברירת המחדל

אפשר לקבוע את ההגדרות האלה לכל בקשה ששולחים לשירות הטקסט. לפרטים נוספים, ראו HarmBlockThreshold מידע על ה-API.

משוב בנושא בטיחות

אם התוכן נחסם, התשובה מה-API הסיבה לחסימת התוכן תופיע בשדה ContentFilter.reason. אם הסיבה הייתה קשורה לבטיחות, התגובה תכלול גם את השדה SafetyFeedback שכולל את הגדרות הבטיחות ששימשו לבקשה ודירוג הבטיחות. דירוג הבטיחות כולל את הקטגוריה ואת ההסתברות לסיווג הנזק. התוכן שנחסם לא יוחזר.

ההסתברות שמוחזרת תואמת לרמות המהימנות של החסימה, כפי שמוצג בטבלה הבאה:

Probability תיאור
לא מתאים יש סבירות זניחה שהתוכן לא בטוח
נמוך יש סבירות נמוכה שהתוכן לא בטוח
בינוני יש סבירות בינונית שהתוכן לא בטוח
גבוהה יש סבירות גבוהה שהתוכן לא בטוח

לדוגמה, אם התוכן נחסם כי לקטגוריית הרעילות יש הסתברות גבוהה, דירוג הבטיחות שיוחזר יהיה בקטגוריה שווה ל-TOXICITY וההסתברות לנזק תהיה HIGH.

הגדרות בטיחות ב-Google AI Studio

אפשר לקבוע את ההגדרות האלה גם ב-Google AI Studio. ב-Run settings, לוחצים על Edit Safety settings:

לחצן של הגדרות הבטיחות

ואפשר להשתמש בלחצנים כדי לשנות כל אחת מההגדרות:

לחצן של הגדרות הבטיחות

אם התוכן חסום, מופיעה ההודעה No Content (אין תוכן). כדי לראות פרטים נוספים, מחזיקים את העכבר מעל No Content ולוחצים על Safety (בטיחות).

דוגמאות לקוד

בקטע הזה מוסבר איך להשתמש בהגדרות הבטיחות בקוד באמצעות ספריית הלקוח של python.

בקשה לדוגמה

בהמשך מופיע קטע קוד python שמראה כיצד לקבוע הגדרות בטיחות בקריאה ל-GenerateText. פעולה זו מגדירה את קטגוריות הנזק Derogatory ו-Violence כ-BLOCK_LOW_AND_ABOVE, שחוסמות כל תוכן שיש לו סבירות נמוכה או גבוהה יותר להיות אלים או פוגעני.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

דוגמה לתשובה

למטה מוצג קטע קוד לניתוח המשוב בנושא בטיחות מהתגובה. שימו לב שמשוב הבטיחות יהיה ריק, אלא אם הסיבה לחסימה הייתה אחת ממאפייני הבטיחות.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

השלבים הבאים

  • מידע נוסף על ממשק ה-API המלא זמין בהפניות API.
  • קראו את ההנחיות בנושא בטיחות, כדי להבין באופן כללי את שיקולי הבטיחות במהלך פיתוח עם מודלים מסוג LLM.
  • צוות Jigsaw מסביר איך להעריך את ההסתברות לעומת מידת החומרה
  • מידע נוסף על המוצרים שתורמים לפתרונות בטיחות, כמו Perspective API.
  • אפשר להשתמש בהגדרות הבטיחות האלה כדי ליצור מסווג רעילות. כדי להתחיל, עיינו בדוגמה לסיווג.