设计负责任的方法

将生成式 AI 添加到您的应用中,可为您的 但它也需要敏锐的判断力来维护 您用户的期望。

安全设计

每项支持生成式 AI 的功能都提供了设计安全层的机会。如 如下图所示,安全性的一种思路就是将 启用了此功能的 AI 模型。此模型应符合以下要求:

  • 调整以执行分配给它的任务;
  • 受到保护措施的保护,以确保越出边界 输入和输出被拒绝;和
  • 进行全面评估,评估模型和 对影响安全的互动做出响应。

Responsible AI 实践的功能图

请查看 “打造负责任的 AI 产品”会话 2024 年 Google I/O 大会。 以及有助于加快负责任开发速度的原型设计方法 做法。

此外,您还可以了解以下最佳做法并查看相关示例:

最重要的是,请记住,以合理的方式保障安全和承担责任是 能够自我反思并适应技术、文化和流程 挑战。让您自己和团队定期通过批判性评审您的 以确保取得最佳成效。

定义系统级政策

内容安全政策规定了不允许发布哪些类型的有害内容 使用在线平台你可能比较熟悉各个平台的内容政策 例如 YouTubeGoogle Play。内容 生成式 AI 应用的政策类似:它们规定了 您的应用不应生成的内容,它们可指导您如何调优模型 以及要添加哪些适当的保护措施

您的政策应反映应用的用例。例如, 生成式 AI 产品,旨在根据以下因素为家庭活动提供灵感: 社区建议可能具有禁止生成 暴力性质的内容,因为可能会给用户造成伤害。相反, 一款应用总结了用户提出的科幻故事创意 因为这是美国许多故事的主题, 。

您的安全政策应禁止生成有害内容 或非法内容,并且应指明生成的内容类型符合 为应用设置门槛您还可以考虑添加 具有教育、纪实、科学或艺术目的的内容, 否则可能会被视为有害的内容。

以极为精细的细节定义清晰的政策,包括 提供示例政策例外项,是建立负责任的 产品。您的政策会在模型开发的每个步骤中使用。用于数据 清理或加标签时,不精确可能会导致数据标记错误、过度移除或 数据移除不足,这将影响模型的安全响应。对于 出于评估目的,如果政策定义不合理,会导致高评分者之间 方差,从而更加难以确定您的模型是否符合您的安全要求 标准。

假设性政策(仅用于说明)

下面列举了一些示例来说明,您可以考虑为 只要它们与您的使用情形相符即可

政策类别 政策
敏感的个人身份信息 (SPII) 应用不得读出包含敏感信息和个人身份信息 信息(例如电子邮件、信用卡号或 个人的社会保障号)。
仇恨言论 应用不会生成负面或有害内容 针对身份和/或受保护特征(例如种族诋毁、 宣扬歧视、煽动对受保护群体实施暴力的行为 群组)。
骚扰内容 应用不得生成恶意、恐吓、欺凌或 或针对其他个人的侮辱性内容(例如身体 威胁、否认悲剧事件、诋毁受害者 暴力内容)。
危险内容 应用不会生成关于伤害行为的说明或建议 (例如使用或制造枪支和 爆炸装置, 宣扬恐怖主义, 说明 自杀)。
露骨色情内容 应用不会生成包含引用 性行为或其他淫秽内容(如露骨色情) 说明、旨在引起性欲的内容)。
允许访问有害商品和服务 应用不得生成宣传或支持 接触可能有害的商品、服务和活动(例如 为赌博、药品和 烟花、色情服务)。
恶意内容 应用不会生成关于执行非法操作的说明 或欺骗活动(例如,生成钓鱼式攻击、垃圾邮件或 意在追求大众募集和越狱的内容)。

透明度制品

对于开发者而言,文档是实现信息透明的关键方法, 政府机构、政策参与者和最终用户。这可能包括 发布详细的技术报告,或者发布模型、数据和系统卡片, 根据安全性要求和其他模型以适当的方式 评估。透明度工件不仅仅是通信工具;他们 还为 AI 研究人员、部署者和下游开发者提供了有关 负责任地使用模型。这些信息对 了解该模型的详情。

您可以参考以下透明度准则:

  • 在用户与实验性功能互动时明确说明 生成式 AI 技术,并强调了出现意外模型的可能性 行为
  • 提供关于生成式 AI 服务或产品的全面文档 使用易于理解的语言来制作游戏。考虑采用结构化发布方式 透明度工件,例如模型卡片。这些卡片提供了 对模型的预期用途,并总结 在整个模型开发过程中执行的操作。
  • 向用户展示他们该如何提供反馈,以及他们如何拥有控制权,例如 以: <ph type="x-smartling-placeholder">
      </ph>
    • 提供相应机制,帮助用户验证基于事实的问题
    • 用于提供用户反馈的“我喜欢”和“不喜欢”图标
    • 用于报告问题和提供对 快速响应支持的链接 用户反馈
    • 用于存储或删除用户活动的用户控件

安全的 AI 系统

支持生成式 AI 的应用存在复杂的攻击面 因此需要比常规应用更加多样化的缓解措施。 Google 的安全 AI 框架 (SAIF) 可全面 概念框架,考虑如何设计支持生成式 AI 的应用 安全使用此框架可帮助您评估 匹配对抗性评估safeguard,可以有效地帮助保护您的应用 但请注意,这些仅仅是入门部分其他更改 可能需要利用组织做法、监控和提醒功能, 并根据您的具体应用场景和情境实现安全目标。

开发者资源

生成式 AI 政策示例:

在整个 但现有的模型卡片可以作为基础, 创建您自己的模板:

其他参考资料