خطمشیهای ایمنی محتوا تعریف میکنند که چه نوع محتوای مضری در یک پلتفرم آنلاین مجاز نیست. ممکن است با خطمشیهای محتوای پلتفرمهایی مانند YouTube یا Google Play آشنا باشید. خطمشیهای محتوا برای برنامههای هوش مصنوعی مولد مشابه هستند: آنها تعریف میکنند که برنامه شما چه نوع محتوایی را تولید نمیکند و نحوه تنظیم مدلها و موارد حفاظتی مناسب را راهنمایی میکند.
خطمشیهای شما باید منعکس کننده موارد استفاده برنامه شما باشد. به عنوان مثال، یک محصول مولد هوش مصنوعی که برای ارائه ایدههایی برای فعالیتهای خانوادگی بر اساس پیشنهادات جامعه طراحی شده است، ممکن است خطمشی داشته باشد که تولید محتوای خشونتآمیز را ممنوع میکند، زیرا میتواند برای کاربران مضر باشد. برعکس، برنامهای که ایدههای داستان علمی تخیلی پیشنهاد شده توسط کاربران را خلاصه میکند ممکن است بخواهد اجازه تولید خشونت را بدهد، زیرا موضوع داستانهای بسیاری در این ژانر است.
خطمشیهای ایمنی شما باید تولید محتوای مضر برای کاربران یا غیرقانونی را ممنوع کند و باید مشخص کند که چه نوع محتوای تولید شده با آن نوار برای برنامه شما مطابقت دارد. همچنین ممکن است بخواهید استثناهایی را برای محتوای آموزشی، مستند، علمی یا هنری در نظر بگیرید که در غیر این صورت ممکن است مضر تلقی شوند.
تعریف خط مشی های روشن با سطح جزئیات بسیار دقیق، از جمله استثنائات خط مشی با مثال، برای ساختن یک محصول مسئولیت پذیر ضروری است. خط مشی های شما در هر مرحله از توسعه مدل شما استفاده می شود. برای تمیز کردن یا برچسبگذاری دادهها، عدم دقت میتواند منجر به برچسبگذاری نادرست دادهها، حذف بیش از حد یا حذف کمتر داده شود که بر پاسخهای ایمنی مدل شما تأثیر میگذارد. برای اهداف ارزیابی، خطمشیهای نامشخص منجر به واریانس بین ارزیابها میشود و تشخیص اینکه آیا مدل شما با استانداردهای ایمنی شما مطابقت دارد یا نه.
خط مشی های فرضی (فقط برای مثال)
در زیر نمونههایی از خطمشیهایی است که میتوانید برای برنامهتان استفاده کنید، مشروط بر اینکه با مورد استفاده شما مطابقت داشته باشند.
دسته سیاست | خط مشی |
---|---|
اطلاعات حساس شخصی قابل شناسایی (SPII) | برنامه اطلاعات حساس و قابل شناسایی شخصی (به عنوان مثال، ایمیل، شماره کارت اعتباری، یا شماره تامین اجتماعی یک فرد خصوصی) را بازگو نمی کند. |
سخنان تنفرآمیز | این برنامه محتوای منفی یا مضری را تولید نمی کند که هویت و/یا ویژگی های محافظت شده را هدف قرار دهد (به عنوان مثال، توهین های نژادی، ترویج تبعیض، دعوت به خشونت علیه گروه های محافظت شده). |
آزار و اذیت | این برنامه محتوای مخرب، ارعابکننده، قلدری یا توهینآمیز با هدف قرار دادن فرد دیگری تولید نمیکند (مثلاً تهدیدات فیزیکی، انکار رویدادهای غمانگیز، تحقیر قربانیان خشونت). |
محتوای خطرناک | این برنامه دستورالعمل ها یا توصیه هایی در مورد آسیب رساندن به خود و/یا دیگران (به عنوان مثال، دسترسی یا ساختن سلاح گرم و مواد منفجره، ترویج تروریسم، دستورالعمل های خودکشی) تولید نمی کند. |
صریح جنسی | این برنامه محتوایی تولید نخواهد کرد که حاوی ارجاع به اعمال جنسی یا سایر محتوای زشت باشد (به عنوان مثال، توضیحات گرافیکی جنسی، محتوایی با هدف ایجاد برانگیختگی). |
فعال کردن دسترسی به کالاها و خدمات مضر | این برنامه محتوایی تولید نمیکند که کالاها، خدمات و فعالیتهای بالقوه مضر را تبلیغ یا امکان دسترسی به آنها را فراهم کند (به عنوان مثال، تسهیل دسترسی به تبلیغ قمار، مواد دارویی، آتش بازی، خدمات جنسی). |
محتوای مخرب | این برنامه دستورالعملی برای انجام فعالیت های غیرقانونی یا فریبنده (به عنوان مثال، ایجاد کلاهبرداری های فیشینگ، هرزنامه یا محتوایی که برای درخواست انبوه، روش های فرار از زندان در نظر گرفته شده است) تولید نمی کند. |
منابع توسعه دهنده
نمونه هایی از سیاست های هوش مصنوعی مولد:
- Cloud Gemini API و PalM API فهرستی از ویژگیهای ایمنی را ارائه میکنند که میتواند به عنوان مبنایی برای ایجاد سیاستهای ایمنی باشد.
- نمونهای از خطمشیهای گنجانده شده در بهروزرسانی پیشرفت اصول هوش مصنوعی Google در سال ۲۰۲۳
- انجمن MLCommons ، یک کنسرسیوم مهندسی که بر اساس فلسفه همکاری باز برای بهبود سیستمهای هوش مصنوعی ساخته شده است، به 6 خطر اشاره میکند که براساس آنها مدلهای ایمنی هوش مصنوعی را به عنوان بخشی از معیار ایمنی هوش مصنوعی ارزیابی میکنند.