保护您的模型

生成式人工智能 (GenAI) 产品相对较新，其行为可能比早期形式的软件更不稳定。保护您的产品免遭滥用 GenAI 功能的保护措施必须相应地进行调整。本指南介绍如何确保遵循内容政策检查和水印工具，以保护支持生成式 AI 的产品。

内容政策合规性

即使您之前进行了安全调优并设计了完善的问题模板，您的 GenAI 产品也可能会输出会造成意外伤害的内容。经常使用生成式 AI 产品依赖输入和输出过滤来确保模型行为负责任。这些技术会检查输入或输出模型的数据是否符合您的政策，通常通过执行额外的安全培训来创建内容分类器模型。

输入分类器用于过滤直接或可能诱导模型生成违反内容政策的内容。输入过滤器通常会针对试图规避您的内容的对抗性攻击政策。

输出分类器可过滤模型输出，捕获违反规则的生成内容您的安全政策。仔细监控内容拒绝行为显示可用于增强或改进输入的新类别提示过滤器。

建议您创建涵盖所有内容政策的分类器。您可以使用现成的分类器来实现此目的，或者那么您可能需要创建自定义分类您的具体政策

平衡也是关键。过度过滤可能会造成意外伤害或降低应用的实用性；请务必检查可能存在过度过滤的情况。如需了解详情，请参阅安全评估指南。

现成的违反内容政策的敏感内容类别

现成的敏感内容类别可为模型本身的安全训练，进一步降低了各种违反政策的行为。它们通常分为两种：

自托管的分类器（例如 ShieldGemma）可以可在各种架构上下载和托管，包括 Cloud SQL Google Cloud 等平台、私有硬件以及一些分类器甚至可以在设备端为移动应用运行。
基于 API 的分类器以服务的形式提供，可根据各种政策提供高量低延迟的分类。Google 提供三项可能对您有用的服务：
- Checks AI Safety 提供合规性评估和信息中心，以支持模型评估和监控。AI 安全工具正处于公开测试阶段，欢迎注册新闻服务访问权限和演示
- 文本审核服务是一种 Google Cloud API 可分析文本以确定违反安全规定（包括有害类别）的内容和敏感主题，具体取决于用量。
- Perspective API 是一种免费的 API，它使用机器机器学习模型来对评论可能对评论可能产生的感知影响进行评分，对话。它会提供评分，以反映评论是否具有恶意、威胁性、侮辱性或偏离主题的概率。

请务必评估现成的分类器与政策的契合程度并定性评估故障案例。

自定义内容政策分类器

现成的内容政策分类器是一个不错的起点，但也存在一些限制，包括：

固定的政策分类，可能无法映射到或涵盖您的所有内容政策。
可能不适合部署生成式 AI 应用的环境。
价格和其他使用限制。

自定义内容政策分类或许是解决这些限制的一种方法，而敏捷分类器方法则提供一种高效灵活的框架来制作视频。当该方法调整模型时，为安全起见，请务必查看模型调参基础知识。

使用 SynthID 文本水印识别 AI 生成的内容

GenAI 可以生成更多样化的内容，且规模前所未有。虽然这种使用大多出于合法目的，并担心它可能导致虚假信息和归因错误。添加水印是减轻这些潜在影响的方法之一。水印可以应用于 AI 生成的内容，检测模型可以为任意内容评分，以指示已加上水印。

SynthID 是 Google DeepMind 的一项技术，可直接将数字水印嵌入到 AI 生成的图片、音频、文本或视频中，从而为 AI 生成的内容添加水印并识别其来源。SynthID Text 是 Hugging Face Transformer 中的正式版，请查看参阅研究论文和文档，了解更多信息如何在应用中使用 SynthID。

Google Cloud 提供 SynthID 水印功能，用于为其他模态，例如 Imagen 生成的图像， Vertex AI 客户。

设置保护措施的最佳实践

强烈建议将安全分类器用作保护措施。不过，保护措施可能会导致生成模型无法为用户。应用需要设计为处理这种情况。一些最受欢迎的聊天机器人通过提供预设的回答（“我抱歉，我是语言模型，无法帮助您处理此请求”）。

在实用性与无害性之间找到适当的平衡：使用安全分类器，则务必要了解它们可能会出错，包括两个假正例（例如，如果一个输出和假负例（如果输出不安全，则将其标记为不安全）。修改者使用 F1、精确率、召回率和 AUC-ROC 等指标评估分类器，可以确定您希望如何在假正例和假正例之间取得平衡负面错误。通过更改分类器的阈值，您可以找到理想的平衡点，避免过度过滤输出，同时仍能提供适当的安全性。

检查分类器是否存在意外偏见：与任何其他机器学习模型一样，安全分类器也可能会传播意外偏见，例如社会文化刻板印象。应用需要进行适当的评估问题行为。具体来说，内容安全分类器可以在与更频繁在线侮辱性语言的目标。例如，在 Perspective API 刚发布时，该模型会针对提及特定身份群体的评论返回更高的恶意评分（博文）。这种过度触发这是因为评论中提及了经常针对目标群体（例如“黑人”“穆斯林”“女权主义” “女人”、“同性恋”等）在本质上通常更具恶意。如果用于训练分类器的数据集中包含特定字词的评论存在明显不平衡的情况，分类器可能会过于概括，并将包含这些字词的所有评论都视为可能不安全。了解 Jigsaw 团队如何减少这种意外偏差。

开发者资源

SynthID：用于为 AI 生成的内容添加水印和识别此类内容的工具。
Checks AI Safety：AI 安全合规性。
Perspective API：用于识别恶意内容。
文本审核服务：面向 Google Cloud 客户。