در حالی که یک رویکرد مسئولانه به هوش مصنوعی باید شامل سیاستهای ایمنی، تکنیکهایی برای بهبود ایمنی مدل، نحوه ساخت مصنوعات شفاف باشد، رویکرد شما برای مسئولیتپذیری با هوش مصنوعی مولد نباید صرفاً دنبال کردن یک چک لیست باشد. محصولات هوش مصنوعی مولد نسبتا جدید هستند و رفتارهای یک برنامه کاربردی می تواند بیشتر از نرم افزارهای قبلی متفاوت باشد. به همین دلیل، باید مدلهای یادگیری ماشینی مورد استفاده را بررسی کنید، نمونههایی از رفتار مدل را بررسی کنید و شگفتیها را بررسی کنید.
امروزه، اعلان به همان اندازه که علم است، هنر است، اما ابزارهایی وجود دارند که میتوانند به شما کمک کنند تا درخواستهای مدلهای زبان بزرگ را بهطور تجربی بهبود بخشید، مانند ابزار تفسیرپذیری یادگیری (LIT) . LIT یک پلت فرم منبع باز است که برای تجسم، درک و اشکال زدایی مدل های AI/ML توسعه یافته است. در زیر نمونهای از نحوه استفاده از LIT برای بررسی رفتار جما، پیشبینی مشکلات احتمالی و بهبود ایمنی آن آورده شده است.
می توانید LIT را در دستگاه محلی خود، در Colab یا در Google Cloud نصب کنید. برای شروع با LIT، مدل خود و مجموعه داده مرتبط (مثلاً مجموعه داده ارزیابی ایمنی) را در Colab وارد کنید. LIT با استفاده از مدل شما مجموعه ای از خروجی ها را برای مجموعه داده تولید می کند و یک رابط کاربری برای بررسی رفتار مدل در اختیار شما قرار می دهد.
مدل های جما را با LIT تجزیه و تحلیل کنید
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
این تصویر رابط کاربری LIT را نشان می دهد. ویرایشگر Datapoint در بالا به کاربران اجازه می دهد تا درخواست های خود را ویرایش کنند. در پایین، ماژول LM Salience به آنها اجازه می دهد تا نتایج برجسته را بررسی کنند.
خطاها را در دستورهای پیچیده شناسایی کنید
دو تا از مهمترین تکنیکهای تحریک برای نمونههای اولیه و برنامههای مبتنی بر LLM با کیفیت بالا عبارتند از : چند شات (شامل نمونههایی از رفتار مورد نظر در اعلان) و زنجیرهای از فکر ، شامل شکلی از توضیح یا استدلال قبل از خروجی نهایی. از LLM. با این حال، ایجاد یک اعلان موثر اغلب هنوز چالش برانگیز است.
مثالی را در نظر بگیرید که به کسی کمک کنید ارزیابی کند که آیا غذا را بر اساس ذائقه خود دوست دارد یا خیر. یک الگوی اولیه زنجیره فکری اولیه ممکن است شبیه به این باشد:
Analyze a menu item in a restaurant. ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: You have to try it. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Baguette maison au levain Analysis: Home-made leaven bread in France is usually great Recommendation: Likely good. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Macaron in France Analysis: Sweet with many kinds of flavours Recommendation: You have to try it. ## Now analyse one more example: Taste-likes: {{users-food-like-preferences}} Taste-dislikes: {{users-food-dislike-preferences}} Suggestion: {{menu-item-to-analyse}} Analysis:
آیا با این درخواست مشکلی پیدا کردید؟ LIT به شما کمک می کند تا درخواست را با ماژول LM Salience بررسی کنید.
از Sequence Salience برای اشکال زدایی استفاده کنید
برجستگی در کوچکترین سطح ممکن محاسبه می شود (یعنی برای هر نشانه ورودی)، اما LIT می تواند نشانه-برجستگی را در گستره های بزرگتر قابل تفسیرتر، مانند خطوط، جملات، یا کلمات جمع کند. در مورد برجستگی و نحوه استفاده از آن برای شناسایی سوگیری های ناخواسته در بررسی برجستگی تعاملی ما بیشتر بیاموزید.
بیایید با دادن یک ورودی نمونه جدید به prompt برای متغیرهای prompt-template شروع کنیم:
{{users-food-like-preferences}} = Cheese {{users-food-dislike-preferences}} = Can't eat eggs {{menu-item-to-analyse}} = Quiche Lorraine
پس از انجام این کار، می توان یک تکمیل مدل شگفت انگیز را مشاهده کرد:
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: A savoury tart with cheese and eggs Recommendation: You might not like it, but it's worth trying.
چرا مدل به شما پیشنهاد می کند چیزی بخورید که به وضوح گفتید نمی توانید بخورید؟
برجستگی توالی می تواند به برجسته کردن مشکل ریشه ای کمک کند، که در چند نمونه عکس ما وجود دارد. در مثال اول، استدلال زنجیرهای از فکر در بخش تحلیل با توصیه نهایی مطابقت ندارد. تجزیه و تحلیل "در آن پیاز پخته شده است، که شما آن را دوست ندارید" با توصیه "شما باید آن را امتحان کنید" همراه است.
این یک خطا در اعلان اولیه را برجسته می کند: یک کپی تصادفی از توصیه ( You have to try it!
) برای مثال چند عکس اول وجود دارد. از تاریکی هایلایت بنفش می توانید قدرت برجسته را در اعلان مشاهده کنید. بیشترین برجستگی در اولین نمونه چند شات، و به طور خاص در خطوط مربوط به Taste-likes
، Analysis
و Recommendation
است. این نشان می دهد که مدل بیشتر از این خطوط برای ارائه توصیه نادرست نهایی خود استفاده می کند.
این مثال همچنین نشان میدهد که نمونهسازی اولیه میتواند خطراتی را نشان دهد که ممکن است از قبل به آنها فکر نکنید، و ماهیت مستعد خطا در مدلهای زبان به این معنی است که شما باید به طور فعال برای خطاها طراحی کنید. این موضوع در کتاب راهنمای افراد + هوش مصنوعی ما برای طراحی با هوش مصنوعی بیشتر مورد بحث قرار گرفته است.
آزمون فرضیه ها برای بهبود رفتار مدل
LIT به شما این امکان را می دهد که تغییرات درخواست ها را در همان رابط آزمایش کنید. در این مثال، سعی کنید یک قانون اساسی برای بهبود رفتار مدل اضافه کنید. اساسنامه به دستورات طراحی با اصولی اشاره دارد که به هدایت نسل مدل کمک می کند. روشهای اخیر حتی استنتاج تعاملی اصول قانون اساسی را ممکن میسازد.
بیایید از این ایده برای کمک به بهبود بیشتر درخواست استفاده کنیم. از ویرایشگر Datapoint LIT برای اضافه کردن بخشی با اصول تولید در بالای دستور ما استفاده کنید، که اکنون به صورت زیر شروع می شود:
Analyze a menu item in a restaurant. * The analysis should be brief and to the point. * It should provide a clear statement of suitability for someone with specific dietary restrictions. * It should reflect the person's tastes ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: Avoid.
با این به روز رسانی می توان مثال را دوباره اجرا کرد و خروجی بسیار متفاوتی را مشاهده کرد:
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: This dish contains eggs, which you can't eat. Recommendation: Not suitable for you.
سپس میتوان سریعاً برجستهسازی را مجدداً بررسی کرد تا به درک دلیل وقوع این تغییر کمک کند:
در این مثال، " برای شما مناسب نیست " تحت تاثیر اصل " ارائه یک بیانیه واضح از مناسب بودن برای فردی با محدودیت غذایی مشخص " و بیانیه تجزیه و تحلیل توضیحی با ذکر این نکته است که ظرف حاوی تخم مرغ است (به اصطلاح زنجیره فکری). ).
شامل تیم های غیر فنی در کاوش و اکتشاف مدل
تفسیرپذیری به معنای تلاش گروهی است که تخصص را در سیاست، حقوق و موارد دیگر در بر می گیرد. همانطور که دیدید، رسانه بصری و توانایی تعاملی LIT برای بررسی برجستگی و کاوش نمونه ها می تواند به سهامداران مختلف کمک کند تا یافته ها را به اشتراک بگذارند و ارتباط برقرار کنند. این می تواند شما را قادر سازد تا تنوع گسترده تری از هم تیمی ها را برای کاوش مدل، بررسی و اشکال زدایی به ارمغان بیاورید. قرار دادن آنها در معرض این روش های فنی می تواند درک آنها را از نحوه کار مدل ها افزایش دهد. علاوه بر این، مجموعهای از تخصصهای متنوعتر در آزمایشهای اولیه مدل نیز میتواند به کشف نتایج نامطلوب که قابل بهبود هستند کمک کند.
خلاصه
هنگامی که نمونه های مشکل زا در ارزیابی مدل خود پیدا کردید، آنها را برای اشکال زدایی در LIT بیاورید. با تجزیه و تحلیل بزرگترین واحد معقول محتوایی که میتوانید فکر کنید که به طور منطقی به کار مدلسازی مربوط میشود، شروع کنید، از تجسمها استفاده کنید تا ببینید مدل به درستی یا نادرست به محتوای فوری توجه میکند، و سپس به واحدهای کوچکتر محتوا برای ادامهی بیشتر توجه کنید. رفتار نادرستی را که میبینید توصیف کنید تا راهحلهای احتمالی را شناسایی کنید.
منابع توسعه دهنده
- وب سایت LIT
- کتاب راهنمای افراد + هوش مصنوعی برای طراحی با هوش مصنوعی