برنامههای کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن دادههای ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمانها از آن یاد میشود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیکهای فیلتر ورودی و خروجی بررسی میکنند که دادههایی که وارد مدل میشوند یا از آن خارج میشوند با خطمشیهایی که برای برنامه خود تعریف میکنید مطابقت دارد. طبقهبندیکنندههای ورودی معمولاً برای فیلتر کردن محتوایی استفاده میشوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خطمشیهای ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقهبندیکنندههای خروجی با آموزش ایمنی ، خروجی مدل را فیلتر میکنند و خروجیهای تولید شده را که ممکن است خطمشیهای ایمنی شما را نقض کند، دریافت میکنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.
پادمان های آماده
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقهبندیکنندههای محتوای آماده میتوانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خطمشی اضافه کنند.
ShieldGemma
ShieldGemma مجموعهای از مدلهای طبقهبندیکننده محتوای آماده، تنظیمشده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که میتواند تعیین کند که آیا محتوای ارائهشده توسط کاربر، تولید مدل یا ترکیبی خطمشی ایمنی محتوا را نقض میکند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.
از مدل های خود با ShieldGemma محافظت کنید
راه اندازی Google Colab (Keras) | راه اندازی Google Colab (Transformers) |
می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.
- KerasNLP ، با نقاط بازرسی مدل موجود از Kaggle . برای شروع ، ShieldGemma را در Keras Colab بررسی کنید.
- ترانسفورماتورهای صورت در آغوش گرفتن ، با نقاط بازرسی مدل موجود در Hugging Face Hub . برای شروع ، ShieldGemma را در Transformers Colab بررسی کنید.
مبتنی بر API
Google طبقهبندیکنندههای ایمنی محتوا مبتنی بر API را ارائه میکند که میتوانند برای فیلتر کردن ورودیها و خروجیهای سیستم استفاده شوند:
- چکهای AI Safety ارزیابیهای انطباق مبتنی بر سیاست و داشبوردهایی را ارائه میکند که از ارزیابی و نظارت مدل پشتیبانی میکنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
- سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگیهای ایمنی، از جمله دستهها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده میکند.
ارزیابی اینکه طبقهبندیکنندههای آماده چقدر به اهداف خطمشی شما میرسند و موارد شکست را بهطور کیفی ارزیابی میکنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.
طبقه بندی های ایمنی سفارشی ایجاد کنید
دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقهبندیکنندههای چابک چارچوبی کارآمد و انعطافپذیر برای ایجاد محافظهای سفارشی با تنظیم مدلهایی مانند Gemma، متناسب با نیازهای شما ارائه میکنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.
آموزش Gemma Agile Classifier
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
طبقهبندیکنندههای چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده میکنند تا به عنوان طبقهبندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقهبندیکننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست میآورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه میشود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. میتوانید دستورالعملهای آموزشی را برای اصلاح بیشتر این طبقهبندیکننده، یا ایجاد حفاظتهای طبقهبندیکننده ایمنی سفارشی خود تطبیق دهید.
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقهبندیکنندههای ایمنی بهعنوان محافظ به شدت توصیه میشود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- Perspective API : برای شناسایی محتوای سمی.
- سرویس تعدیل متن : برای مشتریان Google Cloud.
برنامههای کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن دادههای ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمانها از آن یاد میشود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیکهای فیلتر ورودی و خروجی بررسی میکنند که دادههایی که وارد مدل میشوند یا از آن خارج میشوند با خطمشیهایی که برای برنامه خود تعریف میکنید مطابقت دارد. طبقهبندیکنندههای ورودی معمولاً برای فیلتر کردن محتوایی استفاده میشوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خطمشیهای ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقهبندیکنندههای خروجی با آموزش ایمنی ، خروجی مدل را فیلتر میکنند و خروجیهای تولید شده را که ممکن است خطمشیهای ایمنی شما را نقض کند، دریافت میکنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.
پادمان های آماده
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقهبندیکنندههای محتوای آماده میتوانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خطمشی اضافه کنند.
ShieldGemma
ShieldGemma مجموعهای از مدلهای طبقهبندیکننده محتوای آماده، تنظیمشده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که میتواند تعیین کند که آیا محتوای ارائهشده توسط کاربر، تولید مدل یا ترکیبی خطمشی ایمنی محتوا را نقض میکند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.
از مدل های خود با ShieldGemma محافظت کنید
راه اندازی Google Colab (Keras) | راه اندازی Google Colab (Transformers) |
می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.
- KerasNLP ، با نقاط بازرسی مدل موجود از Kaggle . برای شروع ، ShieldGemma را در Keras Colab بررسی کنید.
- ترانسفورماتورهای صورت در آغوش گرفتن ، با نقاط بازرسی مدل موجود در Hugging Face Hub . برای شروع ، ShieldGemma را در Transformers Colab بررسی کنید.
مبتنی بر API
Google طبقهبندیکنندههای ایمنی محتوا مبتنی بر API را ارائه میکند که میتوانند برای فیلتر کردن ورودیها و خروجیهای سیستم استفاده شوند:
- چکهای AI Safety ارزیابیهای انطباق مبتنی بر سیاست و داشبوردهایی را ارائه میکند که از ارزیابی و نظارت مدل پشتیبانی میکنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
- سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگیهای ایمنی، از جمله دستهها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده میکند.
ارزیابی اینکه طبقهبندیکنندههای آماده چقدر به اهداف خطمشی شما میرسند و موارد شکست را بهطور کیفی ارزیابی میکنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.
طبقه بندی های ایمنی سفارشی ایجاد کنید
دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقهبندیکنندههای چابک چارچوبی کارآمد و انعطافپذیر برای ایجاد محافظهای سفارشی با تنظیم مدلهایی مانند Gemma، متناسب با نیازهای شما ارائه میکنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.
آموزش Gemma Agile Classifier
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
طبقهبندیکنندههای چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده میکنند تا به عنوان طبقهبندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقهبندیکننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست میآورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه میشود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. میتوانید دستورالعملهای آموزشی را برای اصلاح بیشتر این طبقهبندیکننده، یا ایجاد حفاظتهای طبقهبندیکننده ایمنی سفارشی خود تطبیق دهید.
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقهبندیکنندههای ایمنی بهعنوان محافظ به شدت توصیه میشود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- Perspective API : برای شناسایی محتوای سمی.
- سرویس تعدیل متن : برای مشتریان Google Cloud.
برنامههای کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن دادههای ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمانها از آن یاد میشود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیکهای فیلتر ورودی و خروجی بررسی میکنند که دادههایی که وارد مدل میشوند یا از آن خارج میشوند با خطمشیهایی که برای برنامه خود تعریف میکنید مطابقت دارد. طبقهبندیکنندههای ورودی معمولاً برای فیلتر کردن محتوایی استفاده میشوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خطمشیهای ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقهبندیکنندههای خروجی با آموزش ایمنی ، خروجی مدل را فیلتر میکنند و خروجیهای تولید شده را که ممکن است خطمشیهای ایمنی شما را نقض کند، دریافت میکنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.
پادمان های آماده
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقهبندیکنندههای محتوای آماده میتوانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خطمشی اضافه کنند.
ShieldGemma
ShieldGemma مجموعهای از مدلهای طبقهبندیکننده محتوای آماده، تنظیمشده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که میتواند تعیین کند که آیا محتوای ارائهشده توسط کاربر، تولید مدل یا ترکیبی خطمشی ایمنی محتوا را نقض میکند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.
از مدل های خود با ShieldGemma محافظت کنید
راه اندازی Google Colab (Keras) | راه اندازی Google Colab (Transformers) |
می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.
- KerasNLP ، با نقاط بازرسی مدل موجود از Kaggle . برای شروع ، ShieldGemma را در Keras Colab بررسی کنید.
- ترانسفورماتورهای صورت در آغوش گرفتن ، با نقاط بازرسی مدل موجود در Hugging Face Hub . برای شروع ، ShieldGemma را در Transformers Colab بررسی کنید.
مبتنی بر API
Google طبقهبندیکنندههای ایمنی محتوا مبتنی بر API را ارائه میکند که میتوانند برای فیلتر کردن ورودیها و خروجیهای سیستم استفاده شوند:
- چکهای AI Safety ارزیابیهای انطباق مبتنی بر سیاست و داشبوردهایی را ارائه میکند که از ارزیابی و نظارت مدل پشتیبانی میکنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
- سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگیهای ایمنی، از جمله دستهها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده میکند.
ارزیابی اینکه طبقهبندیکنندههای آماده چقدر به اهداف خطمشی شما میرسند و موارد شکست را بهطور کیفی ارزیابی میکنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.
طبقه بندی های ایمنی سفارشی ایجاد کنید
دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقهبندیکنندههای چابک چارچوبی کارآمد و انعطافپذیر برای ایجاد محافظهای سفارشی با تنظیم مدلهایی مانند Gemma، متناسب با نیازهای شما ارائه میکنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.
آموزش Gemma Agile Classifier
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
طبقهبندیکنندههای چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده میکنند تا به عنوان طبقهبندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقهبندیکننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست میآورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه میشود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. میتوانید دستورالعملهای آموزشی را برای اصلاح بیشتر این طبقهبندیکننده، یا ایجاد حفاظتهای طبقهبندیکننده ایمنی سفارشی خود تطبیق دهید.
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقهبندیکنندههای ایمنی بهعنوان محافظ به شدت توصیه میشود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- Perspective API : برای شناسایی محتوای سمی.
- سرویس تعدیل متن : برای مشتریان Google Cloud.
برنامههای کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن دادههای ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمانها از آن یاد میشود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیکهای فیلتر ورودی و خروجی بررسی میکنند که دادههایی که وارد مدل میشوند یا از آن خارج میشوند با خطمشیهایی که برای برنامه خود تعریف میکنید مطابقت دارد. طبقهبندیکنندههای ورودی معمولاً برای فیلتر کردن محتوایی استفاده میشوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خطمشیهای ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقهبندیکنندههای خروجی با آموزش ایمنی ، خروجی مدل را فیلتر میکنند و خروجیهای تولید شده را که ممکن است خطمشیهای ایمنی شما را نقض کند، دریافت میکنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.
پادمان های آماده
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقهبندیکنندههای محتوای آماده میتوانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خطمشی اضافه کنند.
ShieldGemma
ShieldGemma مجموعهای از مدلهای طبقهبندیکننده محتوای آماده، تنظیمشده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که میتواند تعیین کند که آیا محتوای ارائهشده توسط کاربر، تولید مدل یا ترکیبی خطمشی ایمنی محتوا را نقض میکند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.
از مدل های خود با ShieldGemma محافظت کنید
راه اندازی Google Colab (Keras) | راه اندازی Google Colab (Transformers) |
می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.
- KerasNLP ، با نقاط بازرسی مدل موجود از Kaggle . برای شروع ، ShieldGemma را در Keras Colab بررسی کنید.
- ترانسفورماتورهای صورت در آغوش گرفتن ، با نقاط بازرسی مدل موجود در Hugging Face Hub . برای شروع ، ShieldGemma را در Transformers Colab بررسی کنید.
مبتنی بر API
Google طبقهبندیکنندههای ایمنی محتوا مبتنی بر API را ارائه میکند که میتوانند برای فیلتر کردن ورودیها و خروجیهای سیستم استفاده شوند:
- چکهای AI Safety ارزیابیهای انطباق مبتنی بر سیاست و داشبوردهایی را ارائه میکند که از ارزیابی و نظارت مدل پشتیبانی میکنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
- سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگیهای ایمنی، از جمله دستهها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده میکند.
ارزیابی اینکه طبقهبندیکنندههای آماده چقدر به اهداف خطمشی شما میرسند و موارد شکست را بهطور کیفی ارزیابی میکنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.
طبقه بندی های ایمنی سفارشی ایجاد کنید
دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقهبندیکنندههای چابک چارچوبی کارآمد و انعطافپذیر برای ایجاد محافظهای سفارشی با تنظیم مدلهایی مانند Gemma، متناسب با نیازهای شما ارائه میکنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.
آموزش Gemma Agile Classifier
Codelab را راه اندازی کنید | Google Colab را راه اندازی کنید |
طبقهبندیکنندههای چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده میکنند تا به عنوان طبقهبندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقهبندیکننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست میآورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه میشود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. میتوانید دستورالعملهای آموزشی را برای اصلاح بیشتر این طبقهبندیکننده، یا ایجاد حفاظتهای طبقهبندیکننده ایمنی سفارشی خود تطبیق دهید.
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقهبندیکنندههای ایمنی بهعنوان محافظ به شدت توصیه میشود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- Perspective API : برای شناسایی محتوای سمی.
- سرویس تعدیل متن : برای مشتریان Google Cloud.