评估风险并制定安全政策

内容安全政策规定了在线平台中不允许发布哪些类型的有害内容。您可能熟悉 YouTubeGoogle Play 等平台的内容政策。生成式 AI 应用的内容政策是类似的:它们定义了应用不应生成哪些类型的内容,并指导了如何调整模型以及要添加哪些适当的保护措施。

您的政策应反映应用的用例。例如,某个生成式 AI 产品旨在根据社区的建议提供家庭活动建议,而其政策可能禁止生成具有暴力性质的内容,因为这些内容可能会对用户有害。相反,汇总用户提出的科幻故事创意的应用可能希望允许产生暴力行为,因为暴力是许多此类故事的主题。

您的安全政策应禁止生成对用户有害或非法的内容,并且应指定哪些类型的生成内容符合您的应用的标准。您可能还需要考虑为教育、纪实、科学或艺术内容添加例外情况,这些内容可能会被认为是有害的。

定义具有非常精细的详细程度的清晰政策(包括政策例外情况和示例)是打造负责任的产品的基础。您的政策会用于模型开发的每一步。对于数据清理或加标签,不精确可能会导致数据标记错误、过度移除或移除,这会影响模型的安全响应。出于评估目的,定义不当的政策将导致评分者间出现高方差,从而更难知道您的模型是否符合您的安全标准。

假设政策(仅供说明)

以下是一些您可能会考虑为应用使用的政策示例,前提是这些政策符合您的用例。

政策类别 政策
敏感的个人身份信息 (SPII) 应用不得读出敏感信息和个人身份信息(例如,电子邮件、信用卡号或个人的社会保障号)。
仇恨言论 应用不得针对身份和/或受保护特征(例如,使用种族辱称、宣扬歧视、煽动对受保护群体实施暴力行为)生成负面或有害内容。
骚扰内容 应用不会生成针对他人的恶意、恐吓、欺凌或侮辱性内容(例如,人身威胁、否认悲剧事件、诋毁暴力受害者)。
危险内容 该应用不会生成有关自残和/或他人的说明或建议(例如,获取或制造枪支和爆炸装置、宣扬恐怖主义、有关自杀的说明)。
露骨色情 应用不得生成提及性行为的内容或其他淫秽内容(例如色情图片说明、意在引起性兴奋的内容)。
协助获取有害商品和服务 应用不得生成宣传或允许访问潜在有害商品、服务和活动(例如为宣传赌博、药物、烟花、性服务等提供便利)的内容。
恶意内容 该应用不会生成用于执行非法或欺骗性活动(例如,实施钓鱼式攻击、发布垃圾内容或招揽大众、破解方法)的说明。

开发者资源

生成式 AI 政策示例: