برنامههای کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن دادههای ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمانها از آن یاد میشود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیکهای فیلتر ورودی و خروجی دادههای وارد یا خروجی مدل را بررسی میکنند.
محافظ ها و طبقه بندی کننده های ایمنی خارج از قفسه
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. برای بهبود بیشتر این موضوع، طبقهبندیکنندههای محتوا میتوانند یک لایه حفاظتی اضافی اضافه کنند. طبقه بندی کننده های محتوا را می توان هم برای ورودی ها و هم برای خروجی ها اعمال کرد.
طبقهبندیکنندههای ورودی معمولاً برای فیلتر کردن محتوایی استفاده میشوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خطمشیهای ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقهبندیکنندههای خروجی میتوانند خروجی مدل را بیشتر فیلتر کنند و نسلهای ناخواستهای را که ممکن است خطمشیهای ایمنی شما را نقض کنند، شناسایی کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.
Google طبقهبندیکنندههایی را برای ایمنی محتوا ایجاد کرده است که میتواند برای فیلتر کردن ورودیها و خروجیها استفاده شود:
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی بودن، تهدیدآمیز بودن، توهین آمیز بودن، خارج از موضوع و غیره را نشان می دهد.
- سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل یک سند در برابر فهرستی از ویژگیهای ایمنی، از جمله دستهها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده میکند.
این مهم است که ارزیابی کنید طبقهبندیکنندههای خارج از قفسه تا چه حد اهداف خطمشی شما را برآورده میکنند و موارد شکست را بهطور کیفی ارزیابی کنید. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.
طبقه بندی های ایمنی سفارشی ایجاد کنید
اگر خطمشی شما توسط یک API خارج از قفسه پوشش داده نمیشود یا اگر میخواهید طبقهبندیکننده خود را ایجاد کنید، تکنیکهای تنظیم کارآمد پارامتر مانند تنظیم سریع و LoRA یک چارچوب مؤثر ارائه میکنند. در این روش ها، به جای تنظیم دقیق کل مدل، می توانید از مقدار محدودی داده برای آموزش مجموعه کوچکی از پارامترهای مهم مدل استفاده کنید. این به مدل شما اجازه میدهد تا با دادههای آموزشی و توان محاسباتی نسبتاً کمی، رفتارهای جدیدی را بیاموزد، مانند نحوه طبقهبندی برای موارد استفاده جدید ایمنی شما. این رویکرد به شما امکان می دهد ابزارهای ایمنی شخصی سازی شده را برای کاربران و وظایف خود توسعه دهید.
برای نشان دادن این که چگونه این کار می کند، این لبه کد کد مورد نیاز برای راه اندازی یک "طبقه بندی کننده چابک" را نشان می دهد. کد لبه مراحل دریافت داده ها، قالب بندی آن ها برای LLM، آموزش وزن های LoRA و سپس ارزیابی نتایج را نشان می دهد. Gemma ساخت این طبقه بندی کننده های قدرتمند را تنها با چند خط کد ممکن می سازد. برای یک نمای کلی بیشتر، مقاله تحقیقاتی ما « به سوی طبقهبندیکنندههای متن چابک برای همه » نشان میدهد که چگونه میتوانید از این تکنیکها برای آموزش انواع وظایف ایمنی برای دستیابی به بهترین عملکرد تنها با چند صد مثال آموزشی استفاده کنید.
در این نمونه آموزشی ، میتوانید با استفاده از مجموعه داده ETHOS ، یک مجموعه داده برای تشخیص سخنان مشوق نفرتانگیز، که از نظرات YouTube و Reddit ساخته شده است، یک طبقهبندی کننده برای سخنان مشوق نفرت آموزش دهید. هنگامی که بر روی مدل کوچکتر جما آموزش داده می شود، تنها در 200 نمونه (کمی کمتر از ¼ مجموعه داده) به امتیاز F1 0.80 و ROC-AUC 0.78 می رسد. این نتیجه به طور مطلوبی با نتایج هنری گزارش شده در این تابلوی امتیازات مقایسه می شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در جدول امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می توانید از این طبقه بندی کننده خارج از جعبه استفاده کنید، یا با استفاده از آموزش Gemma Agile Classifier آن را تطبیق دهید.
آموزش Gemma Agile Classifier
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقه بندی کننده های ایمنی به شدت توصیه می شود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت. هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- Perspective API : برای شناسایی محتوای سمی
- سرویس تعدیل متن : برای مشتریان Google Cloud