创建输入和输出保护措施

生成式 AI 应用通常依赖于输入和输出数据过滤, 有时也称为保护措施,有助于确保负责任的模式 行为输入和输出过滤技术可检查输入或 模型的输出是否符合你设定的政策 为应用定义哪些功能

现成的保护措施

即使事先针对安全性进行了调整,并设计了精心设计的提示模板, 模型输出的内容可能会造成意外伤害。 为了进一步改善这种情况,内容分类器可以向视频内容 保护。敏感内容类别可应用于输入和输出。

输入分类通常用于过滤 并且可能会导致模型违反 安全政策。输入过滤器通常针对攻击性攻击, 规避您的内容政策。输出分类器可以进一步过滤模型, 输出,捕获可能违反您安全政策的意外生成。 建议将分类器涵盖您的所有内容政策。

Google 提供了基于 API 的内容安全分类器, 过滤系统输入和输出:

  • Perspective API 是一种免费的 API,它使用机器 机器学习模型来对评论可能对 评论可能产生的感知影响进行评分, 对话。它提供的分数可以捕获以下情况的概率: 评论具有恶意、威胁性、侮辱性或偏离主题。
  • 文本审核服务是一种 Google Cloud API, 可在特定用量限额以下的情况下可供使用;并且 使用机器学习技术根据安全清单分析文档 属性,包括各种可能有害的类别和主题, 可能会被视为敏感信息。

请务必评估现成的分类器与政策的契合程度 并定性评估故障案例。另外,您还需要注意 请注意,过度过滤也可能会导致意外伤害, 了解应用的实用性,因此,请务必查看 可能会发生过度过滤的情况如需详细了解此类评估 方法,请参阅评估模型和系统的安全性

创建自定义安全分类器

现成的保护措施可能不适合 例如,某项政策不受支持,或者您希望 使用您观察到对系统有影响的数据来进一步调整保护措施。在 在这种情况下,敏捷的分类器可提供高效、 通过调优模型来创建自定义保护措施的灵活框架,例如 Gemma,这能满足你的需求。还能让您完全控制 它们的部署方式。

Gemma Agile 分类器教程

<ph type="x-smartling-placeholder"></ph> 启动 Codelab <ph type="x-smartling-placeholder"></ph> 启动 Google Colab

敏捷分类器 codelab教程:使用 LoRA 对 Gemma 进行微调 使用 KerasNLP 将模型用作内容管理分类器, 库。仅使用 ETHOS 数据集中的 200 个样本, 分类器的 F1 得分为 0.80 和 ROC-AUC 得分 该最高得分为 0.78, 排行榜结果。用这 800 个样本进行训练后, 与排行榜上的其他分类器一样,基于 Gemma 的敏捷分类器 F1 得分为 83.74,ROC-AUC 得分为 88.17。您可以调整 进一步优化此分类,或创建自己的分类器的说明, 自定义安全分类器保护措施。

设置保护措施的最佳做法

强烈建议将安全分类器用作保护措施。不过, 保护措施可能会导致生成模型无法为 用户。应用需要设计为处理这种情况 这种情况。一些最受欢迎的聊天机器人通过提供预设的回答(“我 抱歉,我是语言模型,无法帮助您处理此请求”)。

在实用性与无害性之间找到适当的平衡:使用 安全分类器,则务必要了解它们可能会出错, 包括两个假正例(例如,如果一个输出 和假负例(如果输出不安全,则将其标记为不安全)。修改者 使用 F1、精确率、召回率和 AUC-ROC 等指标评估分类器, 可以确定您希望如何在假正例和假正例之间取得平衡 负面错误。通过更改分类器的阈值,您可以 一种理想的平衡方式,可避免过度过滤输出,同时仍可 适当的安全。

检查分类器是否存在非预期偏差:安全分类器,如其他 其他机器学习模型,可能会传播意外偏见,例如社会文化偏见, 刻板印象应用需要进行适当的评估 问题行为。具体来说,内容安全分类器可以 在与更频繁 在线侮辱性语言的目标。例如,当 Perspective API 首次发布时,该模型在评论中返回了更高的恶意评分 引用特定身份群组(博客)。这种过度触发 这是因为评论中提及了 经常针对目标群体(例如“黑人”“穆斯林”“女权主义” “女人”、“同性恋”等)在本质上通常更具恶意。如果数据集用于 训练分类器对包含 分类器可能会过度概括并考虑包含这些字词的所有评论 很有可能不安全了解 Jigsaw 团队 减轻了这种意外的偏见。

开发者资源