ניתוח ההתנהגות של המודלים באמצעות כלים לפירוש נתונים

גישה אחראית ל-AI צריכה לכלול מדיניות בטיחות, טכניקות לשיפור בטיחות המודל, איך ליצור ארטיפקטים ליצירת שקיפות, הגישה שלכם להתנהלות אחראית ב-AI גנרטיבי לא צריכה להיות פשוט לפעול לפי רשימת משימות. מוצרי הבינה המלאכותית הגנרטיבית הם חדשים יחסית, וההתנהגות של אפליקציות יכולה להשתנות יותר מגרסאות קודמות של התוכנה. לכן כדאי לבדוק את המודלים של למידת המכונה, לבחון דוגמאות להתנהגות של המודל ולחקור הפתעות.

כיום, פרומפט הוא לא פחות מתחום המדע, אבל יש כלים שיכולים לעזור לכם לשפר באופן אמפירי את ההנחיות למודלים גדולים של שפה (LLM), כמו הכלי לפרשנות ללמידה (LIT). LIT היא פלטפורמת קוד פתוח שפותחה לצורך הצגה חזותית, הבנה וניפוי באגים של מודלים של AI/ML. הדוגמה הבאה ממחישה איך אפשר להשתמש ב-LIT כדי לחקור את ההתנהגות של גמה, לצפות מראש בעיות אפשריות ולשפר את הבטיחות שלה.

אתם יכולים להתקין את LIT במכונה המקומית, ב-Colab או ב-Google Cloud. כדי להתחיל לעבוד עם LIT, צריך לייבא את המודל ואת מערך הנתונים המשויך (למשל, מערך נתונים להערכת בטיחות) ב-Colab. מערכת LIT תיצור סדרה של פלטים למערך הנתונים באמצעות המודל שלכם ותספק ממשק משתמש לבדיקת ההתנהגות של המודל.

ניתוח מודלים של Gemma באמצעות LIT

הפעלת Codelab הפעלת Google Colab

אנימציה של ממשק המשתמש של הכלי לפרשנות למידה (LIT)

בתמונה הזו מוצג ממשק המשתמש של LIT. הכלי Datapoint Editor בחלק העליון מאפשר למשתמשים לערוך את ההנחיות שלהם. בחלק התחתון, המודול 'בהירות' של המערכת מאפשר להם לבדוק את תוצאות האמינות.

זיהוי שגיאות בהנחיות מורכבות

שתיים מהטכניקות החשובות ביותר ליצירת אבות טיפוס ואפליקציות מבוססות LLM באיכות גבוהה הן כמה דוגמאות להנחיות (כולל דוגמאות להתנהגות הרצויה בהנחיה) ושרשרת מחשבה, כולל סוג של הסבר או הסקת מסקנות לפני הפלט הסופי של ה-LLM. עם זאת, עדיין קשה ליצור הנחיה יעילה.

כדאי להשתמש בדוגמה שעוזרת למישהו להעריך אם הוא אוהב אוכל שמבוסס על הטעם שלו. תבנית אב-טיפוס ראשונית של שרשרת מחשבה עשויה להיראות כך:

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

נתקלת בבעיות בהנחיה הזו? בעזרת LIT תוכלו לבדוק את ההנחיה באמצעות מודול LMS.

שימוש בחשיבות רצף לניפוי באגים

החשיבות מחושבת ברמה הקטנה ביותר האפשרית (כלומר לכל אסימון קלט), אבל ב-LIT ניתן לצבור בריחות אסימון לחלקים גדולים יותר כדי לפרש אותם, כמו שורות, משפטים או מילים. תוכלו לקרוא מידע נוסף על מידת הבולטוּת ואיך להשתמש בו כדי לזהות הטיות לא מכוונות במאמר החשיבות האינטראקטיבית.

נתחיל בנתין להנחיה קלט לדוגמה חדש עבור המשתנים של תבנית ההנחיה:

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

לאחר מכן, ניתן לראות השלמת מודל מפתיעה:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

למה המודל מציע לכם לאכול משהו שאמרתם בבירור שאתם לא יכולים לאכול?

החשיבות של רצף יכולה לעזור בהדגשת הבעיה הבסיסית, כפי שמופיע בדוגמאות שלנו. בדוגמה הראשונה, ההיגיון של שרשרת המחשבה בקטע הניתוח לא תואם להמלצה הסופית. ניתוח של הטקסט "מופיעים בו בצלים מבושלים, ואתם לא אוהבים", מוצמד להמלצה של "You have to help it".

ממשק משתמש של LIT שמציג ניתוח sliability של רצף הנחיות

זה מדגיש שגיאה בהנחיה הראשונית: היה עותק בטעות של ההמלצה (You have to try it!) בדוגמה הראשונה. ניתן לראות את חוזק המליחות בהנחיה מהכהה של ההדגשה הסגולה. החשיבות הגבוהה ביותר נמצאת בדוגמאות הראשונות של תמונות, ובמיוחד בקווים שתואמים ל-Taste-likes, ל-Analysis ול-Recommendation. זה אומר שהמודל משתמש בשורות האלה הכי הרבה כדי ליצור את ההמלצה השגויה הסופית.

הדוגמה הזו גם ממחישה שיצירת אב טיפוס מוקדמת יכולה לחשוף סיכונים שאולי לא חשבתם עליהם מראש, ואילו מודלים של שפה שיש בהם נטייה לשגיאות, גורמים לכך שצריך לתכנן באופן יזום שגיאות. הנושא הזה מוסבר בפירוט במדריך לאנשים + AI לעיצוב באמצעות AI.

בוחנים את ההשערות כדי לשפר את ההתנהגות של המודל

עם LIT אפשר לבדוק שינויים בהנחיות באותו ממשק. במכונה הזו, נסו להוסיף חוקה כדי לשפר את ההתנהגות של המודל. חוקות מתייחסות להנחיות עיצוב עם עקרונות שיעזרו להנחות את יצירת המודל. השיטות העדכניות מאפשרות גם גזירה אינטראקטיבית של עקרונות חוקתיים.

נשתמש ברעיון הזה כדי לשפר את ההנחיה נוספת. תוכלו להשתמש ב-Datapoint Editor של LIT כדי להוסיף קטע עם העקרונות ליצירת התוכן בראש ההודעה, שמתחילה עכשיו כך:

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

בעזרת העדכון הזה תוכלו להריץ מחדש את הדוגמה ולראות פלט שונה מאוד:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

לאחר מכן אפשר לבחון מחדש את תקינות ההנחיות כדי להבין למה השינוי הזה מתרחש:

ממשק משתמש של LIT שמציג ניתוח saliability של הנחיות

בדוגמה הזו, הסיווג "לא מתאים לך" מושפע מהעיקרון "יש לספק הצהרת התאמה ברורה לאדם עם הגבלת תזונה ספציפית" והצהרת הניתוח שמסבירה שהמנה מכילה ביצים (שרשרת המחשבה שנקראת).

הכללת צוותים לא טכניים בניתוח ובמחקר של מודלים

תהליך התרגום אמור להיות מאמץ צוות שכולל מומחיות בכל הנוגע למדיניות, למשפט ועוד. כפי ששמתם לב, המדיום החזותי והיכולת האינטראקטיבית של LIT לבחון את החשיבות ולבחון דוגמאות יכולות לעזור לבעלי עניין שונים לשתף ולהעביר את הממצאים. כך תוכלו לצרף מגוון רחב יותר של חברי צוות כדי לנתח מודלים, לחקור ולנפות באגים. חשיפתם לשיטות הטכניות האלה יכולה לשפר את ההבנה שלהם לגבי אופן הפעולה של המודלים. בנוסף, קבוצה מגוונת יותר של המומחיות בבדיקת המודלים המוקדמים יכולה גם היא לחשוף תוצאות לא רצויות שאפשר לשפר.

סיכום

כשמוצאים דוגמאות בעייתיות בהערכות המודל, צריך להעביר אותן ל-LIT לצורך ניפוי באגים. בתור התחלה, צריך לנתח את יחידת התוכן ההגיונית הגדולה ביותר שניתן לחשוב עליה כקשורה למשימת בניית המודלים, להשתמש בתצוגות החזותיות כדי לראות איפה המודל מטפל בצורה נכונה או לא נכונה בתוכן ההנחיות, ואז להציג פירוט של יחידות תוכן קטנות יותר כדי לתאר עוד יותר את ההתנהגות השגויה שאתם רואים כדי לזהות פתרונות אפשריים.

משאבים למפתחים