رفتار مدل را با ابزارهای تفسیرپذیر تحلیل کنید

در حالی که یک رویکرد مسئولانه به هوش مصنوعی باید شامل سیاست‌های ایمنی، تکنیک‌هایی برای بهبود ایمنی مدل، نحوه ساخت مصنوعات شفاف باشد، رویکرد شما برای مسئولیت‌پذیری با هوش مصنوعی مولد نباید صرفاً دنبال کردن یک چک لیست باشد. محصولات هوش مصنوعی مولد نسبتا جدید هستند و رفتارهای یک برنامه کاربردی می تواند بیشتر از نرم افزارهای قبلی متفاوت باشد. به همین دلیل، باید مدل‌های یادگیری ماشینی مورد استفاده را بررسی کنید، نمونه‌هایی از رفتار مدل را بررسی کنید و شگفتی‌ها را بررسی کنید.

امروزه، اعلان به همان اندازه که علم است، هنر است، اما ابزارهایی وجود دارند که می‌توانند به شما کمک کنند تا درخواست‌های مدل‌های زبان بزرگ را به‌طور تجربی بهبود بخشید، مانند ابزار تفسیرپذیری یادگیری (LIT) . LIT یک پلت فرم منبع باز است که برای تجسم، درک و اشکال زدایی مدل های AI/ML توسعه یافته است. در زیر نمونه‌ای از نحوه استفاده از LIT برای بررسی رفتار جما، پیش‌بینی مشکلات احتمالی و بهبود ایمنی آن آورده شده است.

می توانید LIT را در دستگاه محلی خود، در Colab یا در Google Cloud نصب کنید. برای شروع با LIT، مدل خود و مجموعه داده مرتبط (مثلاً مجموعه داده ارزیابی ایمنی) را در Colab وارد کنید. LIT با استفاده از مدل شما مجموعه ای از خروجی ها را برای مجموعه داده تولید می کند و یک رابط کاربری برای بررسی رفتار مدل در اختیار شما قرار می دهد.

مدل های جما را با LIT تجزیه و تحلیل کنید

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

رابط کاربری انیمیشن ابزار تفسیرپذیری یادگیری (LIT).

این تصویر رابط کاربری LIT را نشان می دهد. ویرایشگر Datapoint در بالا به کاربران اجازه می دهد تا درخواست های خود را ویرایش کنند. در پایین، ماژول LM Salience به آنها اجازه می دهد تا نتایج برجسته را بررسی کنند.

خطاها را در دستورهای پیچیده شناسایی کنید

دو تا از مهم‌ترین تکنیک‌های تحریک برای نمونه‌های اولیه و برنامه‌های مبتنی بر LLM با کیفیت بالا عبارتند از : چند شات (شامل نمونه‌هایی از رفتار مورد نظر در اعلان) و زنجیره‌ای از فکر ، شامل شکلی از توضیح یا استدلال قبل از خروجی نهایی. از LLM. با این حال، ایجاد یک اعلان موثر اغلب هنوز چالش برانگیز است.

مثالی را در نظر بگیرید که به کسی کمک کنید ارزیابی کند که آیا غذا را بر اساس ذائقه خود دوست دارد یا خیر. یک الگوی اولیه زنجیره فکری اولیه ممکن است شبیه به این باشد:

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

آیا با این درخواست مشکلی پیدا کردید؟ LIT به شما کمک می کند تا درخواست را با ماژول LM Salience بررسی کنید.

از Sequence Salience برای اشکال زدایی استفاده کنید

برجستگی در کوچکترین سطح ممکن محاسبه می شود (یعنی برای هر نشانه ورودی)، اما LIT می تواند نشانه-برجستگی را در گستره های بزرگتر قابل تفسیرتر، مانند خطوط، جملات، یا کلمات جمع کند. در مورد برجستگی و نحوه استفاده از آن برای شناسایی سوگیری های ناخواسته در بررسی برجستگی تعاملی ما بیشتر بیاموزید.

بیایید با دادن یک ورودی نمونه جدید به prompt برای متغیرهای prompt-template شروع کنیم:

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

پس از انجام این کار، می توان یک تکمیل مدل شگفت انگیز را مشاهده کرد:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

چرا مدل به شما پیشنهاد می کند چیزی بخورید که به وضوح گفتید نمی توانید بخورید؟

برجستگی توالی می تواند به برجسته کردن مشکل ریشه ای کمک کند، که در چند نمونه عکس ما وجود دارد. در مثال اول، استدلال زنجیره‌ای از فکر در بخش تحلیل با توصیه نهایی مطابقت ندارد. تجزیه و تحلیل "در آن پیاز پخته شده است، که شما آن را دوست ندارید" با توصیه "شما باید آن را امتحان کنید" همراه است.

رابط کاربری LIT که تجزیه و تحلیل برجسته توالی سریع را نشان می دهد

این یک خطا در اعلان اولیه را برجسته می کند: یک کپی تصادفی از توصیه ( You have to try it! ) برای مثال چند عکس اول وجود دارد. از تاریکی هایلایت بنفش می توانید قدرت برجسته را در اعلان مشاهده کنید. بیشترین برجستگی در اولین نمونه چند شات، و به طور خاص در خطوط مربوط به Taste-likes ، Analysis و Recommendation است. این نشان می دهد که مدل بیشتر از این خطوط برای ارائه توصیه نادرست نهایی خود استفاده می کند.

این مثال همچنین نشان می‌دهد که نمونه‌سازی اولیه می‌تواند خطراتی را نشان دهد که ممکن است از قبل به آنها فکر نکنید، و ماهیت مستعد خطا در مدل‌های زبان به این معنی است که شما باید به طور فعال برای خطاها طراحی کنید. این موضوع در کتاب راهنمای افراد + هوش مصنوعی ما برای طراحی با هوش مصنوعی بیشتر مورد بحث قرار گرفته است.

آزمون فرضیه ها برای بهبود رفتار مدل

LIT به شما این امکان را می دهد که تغییرات درخواست ها را در همان رابط آزمایش کنید. در این مثال، سعی کنید یک قانون اساسی برای بهبود رفتار مدل اضافه کنید. اساسنامه به دستورات طراحی با اصولی اشاره دارد که به هدایت نسل مدل کمک می کند. روش‌های اخیر حتی استنتاج تعاملی اصول قانون اساسی را ممکن می‌سازد.

بیایید از این ایده برای کمک به بهبود بیشتر درخواست استفاده کنیم. از ویرایشگر Datapoint LIT برای اضافه کردن بخشی با اصول تولید در بالای دستور ما استفاده کنید، که اکنون به صورت زیر شروع می شود:

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

با این به روز رسانی می توان مثال را دوباره اجرا کرد و خروجی بسیار متفاوتی را مشاهده کرد:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

سپس می‌توان سریعاً برجسته‌سازی را مجدداً بررسی کرد تا به درک دلیل وقوع این تغییر کمک کند:

رابط کاربری LIT که تجزیه و تحلیل سریع برجسته را نشان می دهد

در این مثال، " برای شما مناسب نیست " تحت تاثیر اصل " ارائه یک بیانیه واضح از مناسب بودن برای فردی با محدودیت غذایی مشخص " و بیانیه تجزیه و تحلیل توضیحی با ذکر این نکته است که ظرف حاوی تخم مرغ است (به اصطلاح زنجیره فکری). ).

شامل تیم های غیر فنی در کاوش و اکتشاف مدل

تفسیرپذیری به معنای تلاش گروهی است که تخصص را در سیاست، حقوق و موارد دیگر در بر می گیرد. همانطور که دیدید، رسانه بصری و توانایی تعاملی LIT برای بررسی برجستگی و کاوش نمونه ها می تواند به سهامداران مختلف کمک کند تا یافته ها را به اشتراک بگذارند و ارتباط برقرار کنند. این می تواند شما را قادر سازد تا تنوع گسترده تری از هم تیمی ها را برای کاوش مدل، بررسی و اشکال زدایی به ارمغان بیاورید. قرار دادن آنها در معرض این روش های فنی می تواند درک آنها را از نحوه کار مدل ها افزایش دهد. علاوه بر این، مجموعه‌ای از تخصص‌های متنوع‌تر در آزمایش‌های اولیه مدل نیز می‌تواند به کشف نتایج نامطلوب که قابل بهبود هستند کمک کند.

خلاصه

هنگامی که نمونه های مشکل زا در ارزیابی مدل خود پیدا کردید، آنها را برای اشکال زدایی در LIT بیاورید. با تجزیه و تحلیل بزرگترین واحد معقول محتوایی که می‌توانید فکر کنید که به طور منطقی به کار مدل‌سازی مربوط می‌شود، شروع کنید، از تجسم‌ها استفاده کنید تا ببینید مدل به درستی یا نادرست به محتوای فوری توجه می‌کند، و سپس به واحدهای کوچک‌تر محتوا برای ادامه‌ی بیشتر توجه کنید. رفتار نادرستی را که می‌بینید توصیف کنید تا راه‌حل‌های احتمالی را شناسایی کنید.

منابع توسعه دهنده