حفاظت ورودی و خروجی ایجاد کنید

برنامه‌های کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن داده‌های ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمان‌ها از آن یاد می‌شود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیک‌های فیلتر ورودی و خروجی بررسی می‌کنند که داده‌هایی که وارد مدل می‌شوند یا از آن خارج می‌شوند با خط‌مشی‌هایی که برای برنامه خود تعریف می‌کنید مطابقت دارد. طبقه‌بندی‌کننده‌های ورودی معمولاً برای فیلتر کردن محتوایی استفاده می‌شوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خط‌مشی‌های ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقه‌بندی‌کننده‌های خروجی با آموزش ایمنی ، خروجی مدل را فیلتر می‌کنند و خروجی‌های تولید شده را که ممکن است خط‌مشی‌های ایمنی شما را نقض کند، دریافت می‌کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.

پادمان های آماده

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقه‌بندی‌کننده‌های محتوای آماده می‌توانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خط‌مشی اضافه کنند.

ShieldGemma

ShieldGemma مجموعه‌ای از مدل‌های طبقه‌بندی‌کننده محتوای آماده، تنظیم‌شده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که می‌تواند تعیین کند که آیا محتوای ارائه‌شده توسط کاربر، تولید مدل یا ترکیبی خط‌مشی ایمنی محتوا را نقض می‌کند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.

از مدل های خود با ShieldGemma محافظت کنید

راه اندازی Google Colab (Keras) راه اندازی Google Colab (Transformers)

می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.

مبتنی بر API

Google طبقه‌بندی‌کننده‌های ایمنی محتوا مبتنی بر API را ارائه می‌کند که می‌توانند برای فیلتر کردن ورودی‌ها و خروجی‌های سیستم استفاده شوند:

  • چک‌های AI Safety ارزیابی‌های انطباق مبتنی بر سیاست و داشبوردهایی را ارائه می‌کند که از ارزیابی و نظارت مدل پشتیبانی می‌کنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
  • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
  • سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگی‌های ایمنی، از جمله دسته‌ها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده می‌کند.

ارزیابی اینکه طبقه‌بندی‌کننده‌های آماده چقدر به اهداف خط‌مشی شما می‌رسند و موارد شکست را به‌طور کیفی ارزیابی می‌کنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.

طبقه بندی های ایمنی سفارشی ایجاد کنید

دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقه‌بندی‌کننده‌های چابک چارچوبی کارآمد و انعطاف‌پذیر برای ایجاد محافظ‌های سفارشی با تنظیم مدل‌هایی مانند Gemma، متناسب با نیازهای شما ارائه می‌کنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.

آموزش Gemma Agile Classifier

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

طبقه‌بندی‌کننده‌های چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده می‌کنند تا به عنوان طبقه‌بندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقه‌بندی‌کننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست می‌آورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه می‌شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می‌توانید دستورالعمل‌های آموزشی را برای اصلاح بیشتر این طبقه‌بندی‌کننده، یا ایجاد حفاظت‌های طبقه‌بندی‌کننده ایمنی سفارشی خود تطبیق دهید.

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه‌بندی‌کننده‌های ایمنی به‌عنوان محافظ به شدت توصیه می‌شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده

،

برنامه‌های کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن داده‌های ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمان‌ها از آن یاد می‌شود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیک‌های فیلتر ورودی و خروجی بررسی می‌کنند که داده‌هایی که وارد مدل می‌شوند یا از آن خارج می‌شوند با خط‌مشی‌هایی که برای برنامه خود تعریف می‌کنید مطابقت دارد. طبقه‌بندی‌کننده‌های ورودی معمولاً برای فیلتر کردن محتوایی استفاده می‌شوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خط‌مشی‌های ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقه‌بندی‌کننده‌های خروجی با آموزش ایمنی ، خروجی مدل را فیلتر می‌کنند و خروجی‌های تولید شده را که ممکن است خط‌مشی‌های ایمنی شما را نقض کند، دریافت می‌کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.

پادمان های آماده

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقه‌بندی‌کننده‌های محتوای آماده می‌توانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خط‌مشی اضافه کنند.

ShieldGemma

ShieldGemma مجموعه‌ای از مدل‌های طبقه‌بندی‌کننده محتوای آماده، تنظیم‌شده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که می‌تواند تعیین کند که آیا محتوای ارائه‌شده توسط کاربر، تولید مدل یا ترکیبی خط‌مشی ایمنی محتوا را نقض می‌کند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.

از مدل های خود با ShieldGemma محافظت کنید

راه اندازی Google Colab (Keras) راه اندازی Google Colab (Transformers)

می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.

مبتنی بر API

Google طبقه‌بندی‌کننده‌های ایمنی محتوا مبتنی بر API را ارائه می‌کند که می‌توانند برای فیلتر کردن ورودی‌ها و خروجی‌های سیستم استفاده شوند:

  • چک‌های AI Safety ارزیابی‌های انطباق مبتنی بر سیاست و داشبوردهایی را ارائه می‌کند که از ارزیابی و نظارت مدل پشتیبانی می‌کنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
  • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
  • سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگی‌های ایمنی، از جمله دسته‌ها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده می‌کند.

ارزیابی اینکه طبقه‌بندی‌کننده‌های آماده چقدر به اهداف خط‌مشی شما می‌رسند و موارد شکست را به‌طور کیفی ارزیابی می‌کنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.

طبقه بندی های ایمنی سفارشی ایجاد کنید

دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقه‌بندی‌کننده‌های چابک چارچوبی کارآمد و انعطاف‌پذیر برای ایجاد محافظ‌های سفارشی با تنظیم مدل‌هایی مانند Gemma، متناسب با نیازهای شما ارائه می‌کنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.

آموزش Gemma Agile Classifier

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

طبقه‌بندی‌کننده‌های چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده می‌کنند تا به عنوان طبقه‌بندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقه‌بندی‌کننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست می‌آورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه می‌شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می‌توانید دستورالعمل‌های آموزشی را برای اصلاح بیشتر این طبقه‌بندی‌کننده، یا ایجاد حفاظت‌های طبقه‌بندی‌کننده ایمنی سفارشی خود تطبیق دهید.

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه‌بندی‌کننده‌های ایمنی به‌عنوان محافظ به شدت توصیه می‌شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده

،

برنامه‌های کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن داده‌های ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمان‌ها از آن یاد می‌شود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیک‌های فیلتر ورودی و خروجی بررسی می‌کنند که داده‌هایی که وارد مدل می‌شوند یا از آن خارج می‌شوند با خط‌مشی‌هایی که برای برنامه خود تعریف می‌کنید مطابقت دارد. طبقه‌بندی‌کننده‌های ورودی معمولاً برای فیلتر کردن محتوایی استفاده می‌شوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خط‌مشی‌های ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقه‌بندی‌کننده‌های خروجی با آموزش ایمنی ، خروجی مدل را فیلتر می‌کنند و خروجی‌های تولید شده را که ممکن است خط‌مشی‌های ایمنی شما را نقض کند، دریافت می‌کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.

پادمان های آماده

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقه‌بندی‌کننده‌های محتوای آماده می‌توانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خط‌مشی اضافه کنند.

ShieldGemma

ShieldGemma مجموعه‌ای از مدل‌های طبقه‌بندی‌کننده محتوای آماده، تنظیم‌شده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که می‌تواند تعیین کند که آیا محتوای ارائه‌شده توسط کاربر، تولید مدل یا ترکیبی خط‌مشی ایمنی محتوا را نقض می‌کند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.

از مدل های خود با ShieldGemma محافظت کنید

راه اندازی Google Colab (Keras) راه اندازی Google Colab (Transformers)

می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.

مبتنی بر API

Google طبقه‌بندی‌کننده‌های ایمنی محتوا مبتنی بر API را ارائه می‌کند که می‌توانند برای فیلتر کردن ورودی‌ها و خروجی‌های سیستم استفاده شوند:

  • چک‌های AI Safety ارزیابی‌های انطباق مبتنی بر سیاست و داشبوردهایی را ارائه می‌کند که از ارزیابی و نظارت مدل پشتیبانی می‌کنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
  • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
  • سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگی‌های ایمنی، از جمله دسته‌ها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده می‌کند.

ارزیابی اینکه طبقه‌بندی‌کننده‌های آماده چقدر به اهداف خط‌مشی شما می‌رسند و موارد شکست را به‌طور کیفی ارزیابی می‌کنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.

طبقه بندی های ایمنی سفارشی ایجاد کنید

دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقه‌بندی‌کننده‌های چابک چارچوبی کارآمد و انعطاف‌پذیر برای ایجاد محافظ‌های سفارشی با تنظیم مدل‌هایی مانند Gemma، متناسب با نیازهای شما ارائه می‌کنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.

آموزش Gemma Agile Classifier

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

طبقه‌بندی‌کننده‌های چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده می‌کنند تا به عنوان طبقه‌بندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقه‌بندی‌کننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست می‌آورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه می‌شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می‌توانید دستورالعمل‌های آموزشی را برای اصلاح بیشتر این طبقه‌بندی‌کننده، یا ایجاد حفاظت‌های طبقه‌بندی‌کننده ایمنی سفارشی خود تطبیق دهید.

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه‌بندی‌کننده‌های ایمنی به‌عنوان محافظ به شدت توصیه می‌شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده

،

برنامه‌های کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن داده‌های ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمان‌ها از آن یاد می‌شود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیک‌های فیلتر ورودی و خروجی بررسی می‌کنند که داده‌هایی که وارد مدل می‌شوند یا از آن خارج می‌شوند با خط‌مشی‌هایی که برای برنامه خود تعریف می‌کنید مطابقت دارد. طبقه‌بندی‌کننده‌های ورودی معمولاً برای فیلتر کردن محتوایی استفاده می‌شوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خط‌مشی‌های ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقه‌بندی‌کننده‌های خروجی با آموزش ایمنی ، خروجی مدل را فیلتر می‌کنند و خروجی‌های تولید شده را که ممکن است خط‌مشی‌های ایمنی شما را نقض کند، دریافت می‌کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.

پادمان های آماده

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. طبقه‌بندی‌کننده‌های محتوای آماده می‌توانند یک لایه حفاظتی اضافی برای بهبود بیشتر این پتانسیل برای انواع خاصی از نقض خط‌مشی اضافه کنند.

ShieldGemma

ShieldGemma مجموعه‌ای از مدل‌های طبقه‌بندی‌کننده محتوای آماده، تنظیم‌شده، با وزن باز است که بر اساس Gemma 2 ساخته شده است، که می‌تواند تعیین کند که آیا محتوای ارائه‌شده توسط کاربر، تولید مدل یا ترکیبی خط‌مشی ایمنی محتوا را نقض می‌کند. ShieldGemma برای شناسایی چهار آسیب (محتوای جنسی، محتوای خطرناک، آزار و اذیت و سخنان مشوق عداوت و تنفر) آموزش دیده است و در سه نوع کلاس اندازه (پارامترهای 2B، 9B و 27B) ارائه می شود که به شما امکان می دهد سرعت، عملکرد و قابلیت تعمیم را متناسب با آن متعادل کنید. نیازهای شما در هر استقرار برای اطلاعات بیشتر در مورد تفاوت بین این انواع ، کارت مدل را ببینید.

از مدل های خود با ShieldGemma محافظت کنید

راه اندازی Google Colab (Keras) راه اندازی Google Colab (Transformers)

می توانید از مدل های ShieldGemma در فریمورک های زیر استفاده کنید.

مبتنی بر API

Google طبقه‌بندی‌کننده‌های ایمنی محتوا مبتنی بر API را ارائه می‌کند که می‌توانند برای فیلتر کردن ورودی‌ها و خروجی‌های سیستم استفاده شوند:

  • چک‌های AI Safety ارزیابی‌های انطباق مبتنی بر سیاست و داشبوردهایی را ارائه می‌کند که از ارزیابی و نظارت مدل پشتیبانی می‌کنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
  • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
  • سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل سند در برابر فهرستی از ویژگی‌های ایمنی، از جمله دسته‌ها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده می‌کند.

ارزیابی اینکه طبقه‌بندی‌کننده‌های آماده چقدر به اهداف خط‌مشی شما می‌رسند و موارد شکست را به‌طور کیفی ارزیابی می‌کنند، مهم است. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.

طبقه بندی های ایمنی سفارشی ایجاد کنید

دلایل متعددی وجود دارد که محافظ آماده ممکن است برای مورد استفاده شما مناسب نباشد، مانند داشتن خط مشی ای که پشتیبانی نمی شود، یا اینکه بخواهید حفاظت خود را با داده هایی که مشاهده کرده اید بر سیستم شما تأثیر می گذارد تنظیم کنید. در این مورد، طبقه‌بندی‌کننده‌های چابک چارچوبی کارآمد و انعطاف‌پذیر برای ایجاد محافظ‌های سفارشی با تنظیم مدل‌هایی مانند Gemma، متناسب با نیازهای شما ارائه می‌کنند. آنها همچنین به شما امکان کنترل کامل بر مکان و نحوه استقرار آنها را می دهند.

آموزش Gemma Agile Classifier

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

طبقه‌بندی‌کننده‌های چابک کدآلبوم و آموزش از LoRA برای تنظیم دقیق مدل Gemma استفاده می‌کنند تا به عنوان طبقه‌بندی کننده تعدیل محتوا با استفاده از کتابخانه KerasNLP عمل کند. تنها با استفاده از 200 نمونه از مجموعه داده ETHOS ، این طبقه‌بندی‌کننده امتیاز F1 0.80 و ROC-AUC 0.78 را به دست می‌آورد که به طور مطلوبی با نتایج پیشرفته تابلوی برتر مقایسه می‌شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در تابلوی امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می‌توانید دستورالعمل‌های آموزشی را برای اصلاح بیشتر این طبقه‌بندی‌کننده، یا ایجاد حفاظت‌های طبقه‌بندی‌کننده ایمنی سفارشی خود تطبیق دهید.

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه‌بندی‌کننده‌های ایمنی به‌عنوان محافظ به شدت توصیه می‌شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده