设计负责任的方法

将生成式 AI 添加到您的应用中，可为您的但它也需要敏锐的判断力来维护您用户的期望。

安全设计

每项支持生成式 AI 的功能都提供了设计安全层的机会。如如下图所示，安全性的一种思路就是将启用了此功能的 AI 模型。此模型应符合以下要求：

调整以执行分配给它的任务；
受到保护措施的保护，以确保越出边界输入和输出被拒绝；和
进行全面评估，评估模型和对影响安全的互动做出响应。

Responsible AI 实践的功能图

请查看 “打造负责任的 AI 产品”会话 2024 年 Google I/O 大会。以及有助于加快负责任开发速度的原型设计方法做法。

此外，您还可以了解以下最佳做法并查看相关示例：

定义政策，约束 AI 的行为方式您的应用；
创建用于传达信息的透明度工件对用户负责；和
保护您的应用免遭恶意使用。

最重要的是，请记住，以合理的方式保障安全和承担责任是能够自我反思并适应技术、文化和流程挑战。让您自己和团队定期通过批判性评审您的以确保取得最佳成效。

定义系统级政策

内容安全政策规定了不允许发布哪些类型的有害内容使用在线平台你可能比较熟悉各个平台的内容政策例如 YouTube 或 Google Play。内容生成式 AI 应用的政策类似：它们规定了您的应用不应生成的内容，它们可指导您如何调优模型以及要添加哪些适当的保护措施

您的政策应反映应用的用例。例如，生成式 AI 产品，旨在根据以下因素为家庭活动提供灵感：社区建议可能具有禁止生成暴力性质的内容，因为可能会给用户造成伤害。相反，一款应用总结了用户提出的科幻故事创意因为这是美国许多故事的主题，。

您的安全政策应禁止生成有害内容或非法内容，并且应指明生成的内容类型符合为应用设置门槛您还可以考虑添加具有教育、纪实、科学或艺术目的的内容，否则可能会被视为有害的内容。

以极为精细的细节定义清晰的政策，包括提供示例政策例外项，是建立负责任的产品。您的政策会在模型开发的每个步骤中使用。用于数据清理或加标签时，不精确可能会导致数据标记错误、过度移除或数据移除不足，这将影响模型的安全响应。对于出于评估目的，如果政策定义不合理，会导致高评分者之间方差，从而更加难以确定您的模型是否符合您的安全要求标准。

假设性政策（仅用于说明）

下面列举了一些示例来说明，您可以考虑为只要它们与您的使用情形相符即可

政策类别	政策
敏感的个人身份信息 (SPII)	应用不得读出包含敏感信息和个人身份信息信息（例如电子邮件、信用卡号或个人的社会保障号）。
仇恨言论	应用不会生成负面或有害内容针对身份和/或受保护特征（例如种族诋毁、宣扬歧视、煽动对受保护群体实施暴力的行为群组）。
骚扰内容	应用不得生成恶意、恐吓、欺凌或或针对其他个人的侮辱性内容（例如身体威胁、否认悲剧事件、诋毁受害者暴力内容）。
危险内容	应用不会生成关于伤害行为的说明或建议（例如使用或制造枪支和爆炸装置, 宣扬恐怖主义, 说明自杀）。
露骨色情内容	应用不会生成包含引用性行为或其他淫秽内容（如露骨色情）说明、旨在引起性欲的内容）。
允许访问有害商品和服务	应用不得生成宣传或支持接触可能有害的商品、服务和活动（例如为赌博、药品和烟花、色情服务）。
恶意内容	应用不会生成关于执行非法操作的说明或欺骗活动（例如，生成钓鱼式攻击、垃圾邮件或意在追求大众募集和越狱的内容）。

透明度制品

对于开发者而言，文档是实现信息透明的关键方法，政府机构、政策参与者和最终用户。这可能包括发布详细的技术报告，或者发布模型、数据和系统卡片，根据安全性要求和其他模型以适当的方式评估。透明度工件不仅仅是通信工具；他们还为 AI 研究人员、部署者和下游开发者提供了有关负责任地使用模型。这些信息对了解该模型的详情。

您可以参考以下透明度准则：

在用户与实验性功能互动时明确说明生成式 AI 技术，并强调了出现意外模型的可能性行为
提供关于生成式 AI 服务或产品的全面文档使用易于理解的语言来制作游戏。考虑采用结构化发布方式透明度工件，例如模型卡片。这些卡片提供了对模型的预期用途，并总结在整个模型开发过程中执行的操作。
向用户展示他们该如何提供反馈，以及他们如何拥有控制权，例如以： <ph type="x-smartling-placeholder">
- 提供相应机制，帮助用户验证基于事实的问题
- 用于提供用户反馈的“我喜欢”和“不喜欢”图标
- 用于报告问题和提供对快速响应支持的链接用户反馈
- 用于存储或删除用户活动的用户控件

安全的 AI 系统

支持生成式 AI 的应用存在复杂的攻击面因此需要比常规应用更加多样化的缓解措施。 Google 的安全 AI 框架 (SAIF) 可全面概念框架，考虑如何设计支持生成式 AI 的应用安全使用此框架可帮助您评估匹配、对抗性评估和 safeguard，可以有效地帮助保护您的应用但请注意，这些仅仅是入门部分其他更改可能需要利用组织做法、监控和提醒功能，并根据您的具体应用场景和情境实现安全目标。

开发者资源

生成式 AI 政策示例：

Cloud Gemini API 和 PaLM API 提供了可作为建立安全基础的安全属性列表政策。
“Google Analytics 4 媒体资源” 2023 年 Google AI 原则进度更新。
MLCommons 协会，这是一个基于开放协作以改进 AI 系统的理念，参考 6 在评估模型以提升 AI 安全性的同时， AI 安全基准。

在整个但现有的模型卡片可以作为基础，创建您自己的模板：