از مدل های خود محافظت کنید

محصولات هوش مصنوعی مولد (GenAI) نسبتا جدید هستند و رفتارهای آنها می تواند بیشتر از نرم افزارهای قبلی متفاوت باشد. ضمانت‌هایی که از محصول شما در برابر سوء استفاده از قابلیت‌های GenAI محافظت می‌کنند، باید در نوع خود سازگار شوند. این راهنما توضیح می‌دهد که چگونه می‌توانید از چک‌کننده‌های انطباق خط‌مشی محتوا و ابزارهای واترمارک برای محافظت از محصولات دارای GenAI خود استفاده کنید.

مطابقت با خط مشی محتوا

حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، این امکان برای محصول GenAI شما وجود دارد که محتوایی را تولید کند که منجر به آسیب ناخواسته شود. محصولات GenAI اغلب به فیلتر ورودی و خروجی برای اطمینان از رفتار مدل مسئولانه متکی هستند. این تکنیک‌ها بررسی می‌کنند که داده‌های وارد شده به مدل یا خروجی از آن با خط‌مشی‌های شما مطابقت دارد، اغلب با انجام آموزش‌های ایمنی اضافی برای ایجاد یک مدل طبقه‌بندی‌کننده محتوا.

طبقه‌بندی‌کننده ورودی برای فیلتر کردن محتوایی استفاده می‌شود که مستقیماً است یا ممکن است باعث شود مدل شما محتوایی تولید کند که خط‌مشی‌های محتوای شما را نقض می‌کند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند.

طبقه‌بندی‌کننده خروجی خروجی مدل را فیلتر می‌کند و محتوای تولید شده را که خط‌مشی‌های ایمنی شما را نقض می‌کند، می‌گیرد. نظارت دقیق بر رفتارهای رد محتوای شما می تواند دسته های جدیدی از اعلان ها را نشان دهد که می توانند برای تقویت یا بهبود فیلترهای ورودی استفاده شوند.

توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد. ممکن است بتوانید با استفاده از طبقه‌بندی‌کننده‌های آماده به این هدف دست یابید، یا ممکن است لازم باشد طبقه‌بندی‌کننده‌های سفارشی ایجاد کنید که از سیاست‌های خاص شما پشتیبانی می‌کنند.

تعادل نیز کلیدی است. فیلتر بیش از حد می تواند منجر به آسیب ناخواسته شود، یا کاربرد برنامه را کاهش دهد. مواردی را که ممکن است فیلتر بیش از حد اتفاق بیفتد را حتما بررسی کنید. برای اطلاعات بیشتر به راهنمای ارزیابی ایمنی مراجعه کنید.

طبقه بندی خط مشی محتوای آماده

طبقه‌بندی‌کننده‌های محتوای آماده، یک لایه حفاظتی اضافی به آموزش ایمنی ذاتی مدل اضافه می‌کنند، که احتمال بروز انواع خاصی از نقض خط‌مشی را کاهش می‌دهد. آنها به طور کلی در دو نوع هستند:

  1. طبقه‌بندی‌کننده‌های خود میزبان مانند ShieldGemma را می‌توان در معماری‌های مختلفی دانلود و میزبانی کرد، از جمله پلتفرم‌های ابری مانند Google Cloud، سخت‌افزارهای خصوصی، و برخی طبقه‌بندی‌کننده‌ها حتی می‌توانند روی دستگاه برای برنامه‌های تلفن همراه اجرا شوند.
  2. طبقه‌بندی‌کننده‌های مبتنی بر API به‌عنوان خدماتی ارائه می‌شوند که طبقه‌بندی با حجم بالا و تأخیر کم را در برابر انواع سیاست‌ها ارائه می‌کنند. گوگل سه سرویس ارائه می دهد که ممکن است مورد علاقه باشد:
    • چک‌های AI Safety ارزیابی‌های انطباق و داشبوردهایی را ارائه می‌کند که از ارزیابی و نظارت مدل پشتیبانی می‌کنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
    • سرویس تعدیل نوشتار یک API Google Cloud است که متن را برای نقض ایمنی، از جمله دسته‌های مضر و موضوعات حساس، مشروط به نرخ استفاده ، تجزیه و تحلیل می‌کند.
    • Perspective API یک API رایگان است که از مدل‌های یادگیری ماشینی استفاده می‌کند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی می‌کند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.

ارزیابی اینکه طبقه‌بندی‌کننده‌های آماده چقدر به اهداف خط‌مشی شما می‌رسند و موارد شکست را به‌طور کیفی ارزیابی می‌کنند، مهم است.

طبقه بندی خط مشی محتوای سفارشی

طبقه‌بندی‌های خط‌مشی محتوای آماده یک شروع عالی هستند، اما محدودیت‌هایی دارند، از جمله:

  • یک طبقه‌بندی خط‌مشی ثابت که ممکن است به همه خط‌مشی‌های محتوای شما نگاشت یا پوشش داده نشود.
  • سخت افزار و الزامات اتصال که ممکن است برای محیطی که برنامه مجهز به GenAI شما در آن مستقر می شود مناسب نباشد.
  • قیمت گذاری و سایر محدودیت های استفاده

طبقه‌بندی‌کننده‌های خط‌مشی محتوای سفارشی ممکن است یکی از راه‌های رفع این محدودیت‌ها باشد و روش طبقه‌بندی‌کننده چابک چارچوبی کارآمد و انعطاف‌پذیر برای ایجاد آنها فراهم می‌کند. از آنجایی که این روش یک مدل را برای اهداف ایمنی تنظیم می کند، حتماً اصول تنظیم مدل را مرور کنید.

محتوای تولید شده توسط هوش مصنوعی را با واترمارک SynthID Text شناسایی کنید

GenAI می تواند مجموعه وسیع تری از محتوای بسیار متنوع را در مقیاس هایی که قبلا تصور نمی شد تولید کند. در حالی که اکثر این استفاده برای مقاصد قانونی است، نگرانی وجود دارد که می تواند به مشکلات اطلاعات نادرست و نادرست کمک کند. واترمارکینگ یکی از تکنیک‌های کاهش این اثرات بالقوه است. واترمارک‌هایی که برای انسان غیرقابل تشخیص هستند را می‌توان برای محتوای تولید شده توسط هوش مصنوعی اعمال کرد و مدل‌های تشخیص می‌توانند محتوای دلخواه را برای نشان دادن احتمال واترمارک شدن آن نشان دهند.

SynthID یک فناوری Google DeepMind است که محتوای تولید شده توسط هوش مصنوعی را با جاسازی واترمارک های دیجیتال مستقیماً در تصاویر، صدا، متن یا ویدیو تولید شده توسط هوش مصنوعی واترمارک می کند و شناسایی می کند. SynthID Text برای تولید در Hugging Face Transformers موجود است، مقاله تحقیقاتی و اسناد را بررسی کنید تا درباره نحوه استفاده از SynthID در برنامه خود بیشتر بدانید.

Google Cloud قابلیت‌های واترمارک SynthID را برای سایر روش‌ها، مانند تصاویر ایجاد شده توسط Imagen ، برای مشتریان Vertex AI فراهم می‌کند.

بهترین شیوه ها برای تنظیم پادمان ها

استفاده از طبقه‌بندی‌کننده‌های ایمنی به‌عنوان محافظ به شدت توصیه می‌شود. با این حال، در صورت مسدود شدن محتوا، نرده‌های محافظ می‌توانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چت‌بات‌های محبوب با ارائه پاسخ‌های آماده ("متاسفم، من یک مدل زبان هستم، نمی‌توانم با این درخواست کمکی به شما کنم") این کار را انجام می‌دهند.

تعادل مناسب بین مفید بودن و بی‌ضرر بودن را بیابید : هنگام استفاده از طبقه‌بندی‌کننده‌های ایمنی، مهم است که بدانیم آن‌ها اشتباهاتی را مرتکب می‌شوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسب‌گذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقه‌بندی‌کننده‌ها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، می‌توانید تعیین کنید که چگونه می‌خواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقه‌بندی‌کننده‌ها، به یافتن یک تعادل ایده‌آل کمک می‌کنید که از فیلتر کردن بیش از حد خروجی‌ها جلوگیری می‌کند و در عین حال ایمنی مناسب را فراهم می‌کند.

طبقه‌بندی‌کننده‌های خود را برای سوگیری‌های ناخواسته بررسی کنید: طبقه‌بندی‌کننده‌های ایمنی، مانند هر مدل ML دیگری، می‌توانند سوگیری‌های ناخواسته مانند کلیشه‌های اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقه‌بندی‌کننده‌های ایمنی محتوا می‌توانند محتوای مرتبط با هویت‌هایی را که اغلب هدف زبان توهین‌آمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه داده‌های مورد استفاده برای آموزش طبقه‌بندی‌کننده‌ها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقه‌بندی‌کننده‌ها می‌توانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .

منابع توسعه دهنده