حفاظت ورودی و خروجی ایجاد کنید

برنامه‌های کاربردی هوش مصنوعی مولد اغلب به فیلتر کردن داده‌های ورودی و خروجی متکی هستند که گاهی اوقات به عنوان پادمان‌ها از آن یاد می‌شود تا از رفتار مدل مسئولانه اطمینان حاصل شود. تکنیک‌های فیلتر ورودی و خروجی داده‌های وارد یا خروجی مدل را بررسی می‌کنند.

محافظ ها و طبقه بندی کننده های ایمنی خارج از قفسه

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، همچنان ممکن است مدل شما محتوایی را تولید کند که منجر به آسیب ناخواسته شود. برای بهبود بیشتر این موضوع، طبقه‌بندی‌کننده‌های محتوا می‌توانند یک لایه حفاظتی اضافی اضافه کنند. طبقه بندی کننده های محتوا را می توان هم برای ورودی ها و هم برای خروجی ها اعمال کرد.

طبقه‌بندی‌کننده‌های ورودی معمولاً برای فیلتر کردن محتوایی استفاده می‌شوند که قرار نیست در برنامه شما استفاده شود و ممکن است باعث شود مدل شما خط‌مشی‌های ایمنی شما را نقض کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند. طبقه‌بندی‌کننده‌های خروجی می‌توانند خروجی مدل را بیشتر فیلتر کنند و نسل‌های ناخواسته‌ای را که ممکن است خط‌مشی‌های ایمنی شما را نقض کنند، شناسایی کنند. توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد.

Google طبقه‌بندی‌کننده‌هایی را برای ایمنی محتوا ایجاد کرده است که می‌تواند برای فیلتر کردن ورودی‌ها و خروجی‌ها استفاده شود:

  • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی بودن، تهدیدآمیز بودن، توهین آمیز بودن، خارج از موضوع و غیره را نشان می دهد.
  • سرویس تعدیل متن یک Google Cloud API است که برای استفاده زیر یک محدودیت استفاده مشخص در دسترس است و از یادگیری ماشینی برای تجزیه و تحلیل یک سند در برابر فهرستی از ویژگی‌های ایمنی، از جمله دسته‌ها و موضوعات بالقوه مضر مختلف که ممکن است حساس در نظر گرفته شوند، استفاده می‌کند.

این مهم است که ارزیابی کنید طبقه‌بندی‌کننده‌های خارج از قفسه تا چه حد اهداف خط‌مشی شما را برآورده می‌کنند و موارد شکست را به‌طور کیفی ارزیابی کنید. همچنین مهم است که توجه داشته باشید که فیلتر بیش از حد همچنین می تواند منجر به آسیب ناخواسته و همچنین کاهش کاربرد برنامه شود، به این معنی که بررسی مواردی که ممکن است بیش از حد فیلتر ممکن است رخ دهد نیز مهم است. برای جزئیات بیشتر در مورد چنین روش های ارزیابی، به ارزیابی مدل و سیستم ایمنی مراجعه کنید.

طبقه بندی های ایمنی سفارشی ایجاد کنید

اگر خط‌مشی شما توسط یک API خارج از قفسه پوشش داده نمی‌شود یا اگر می‌خواهید طبقه‌بندی‌کننده خود را ایجاد کنید، تکنیک‌های تنظیم کارآمد پارامتر مانند تنظیم سریع و LoRA یک چارچوب مؤثر ارائه می‌کنند. در این روش ها، به جای تنظیم دقیق کل مدل، می توانید از مقدار محدودی داده برای آموزش مجموعه کوچکی از پارامترهای مهم مدل استفاده کنید. این به مدل شما اجازه می‌دهد تا با داده‌های آموزشی و توان محاسباتی نسبتاً کمی، رفتارهای جدیدی را بیاموزد، مانند نحوه طبقه‌بندی برای موارد استفاده جدید ایمنی شما. این رویکرد به شما امکان می دهد ابزارهای ایمنی شخصی سازی شده را برای کاربران و وظایف خود توسعه دهید.

برای نشان دادن این که چگونه این کار می کند، این لبه کد کد مورد نیاز برای راه اندازی یک "طبقه بندی کننده چابک" را نشان می دهد. کد لبه مراحل دریافت داده ها، قالب بندی آن ها برای LLM، آموزش وزن های LoRA و سپس ارزیابی نتایج را نشان می دهد. Gemma ساخت این طبقه بندی کننده های قدرتمند را تنها با چند خط کد ممکن می سازد. برای یک نمای کلی بیشتر، مقاله تحقیقاتی ما « به سوی طبقه‌بندی‌کننده‌های متن چابک برای همه » نشان می‌دهد که چگونه می‌توانید از این تکنیک‌ها برای آموزش انواع وظایف ایمنی برای دستیابی به بهترین عملکرد تنها با چند صد مثال آموزشی استفاده کنید.

در این نمونه آموزشی ، می‌توانید با استفاده از مجموعه داده ETHOS ، یک مجموعه داده برای تشخیص سخنان مشوق نفرت‌انگیز، که از نظرات YouTube و Reddit ساخته شده است، یک طبقه‌بندی کننده برای سخنان مشوق نفرت آموزش دهید. هنگامی که بر روی مدل کوچکتر جما آموزش داده می شود، تنها در 200 نمونه (کمی کمتر از ¼ مجموعه داده) به امتیاز F1 0.80 و ROC-AUC 0.78 می رسد. این نتیجه به طور مطلوبی با نتایج هنری گزارش شده در این تابلوی امتیازات مقایسه می شود. هنگامی که بر روی 800 نمونه آموزش داده می شود، مانند سایر طبقه بندی کننده ها در جدول امتیازات، طبقه بندی کننده چابک مبتنی بر Gemma به امتیاز F1 83.74 و امتیاز ROC-AUC 88.17 دست می یابد. می توانید از این طبقه بندی کننده خارج از جعبه استفاده کنید، یا با استفاده از آموزش Gemma Agile Classifier آن را تطبیق دهید.

آموزش Gemma Agile Classifier

Codelab را راه اندازی کنید Google Colab را راه اندازی کنید

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه بندی کننده های ایمنی به شدت توصیه می شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت. هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده