Responsible Generative AI 工具包

负责任地设计、构建和评估开放式 AI 模型的工具和指南。

负责任的应用设计

为模型行为定义规则，打造安全可靠且负责任的应用，并与用户保持透明沟通。

安全对齐

了解提示调试技术，以及有关微调和 RLHF 的指导，以使 AI 模型符合安全政策。

模型评估

查找指南和数据，以便使用 LLM Comparator 对模型进行全面的安全性、公平性和事实性评估。

保护措施

使用现成的解决方案部署安全分类器，或通过分步教程自行构建安全分类器。

设计负责任的方法

主动发现应用的潜在风险，并定义系统级方法，以便为用户构建安全且负责任的应用。

开始使用

定义系统级政策

确定您的应用应生成和不应生成哪些类型的内容。

安全设计

考虑技术和业务权衡，确定实现风险缓解技术的整体方法。

了解详情

公开透明

使用模型卡片等工件传达您的方法。

查看模板

安全 AI 系统

考虑安全 AI 框架 (SAIF) 中突出显示的 AI 专用安全风险和补救方法。

对齐模型

使用提示和调优技术，使模型符合您的特定安全政策。

开始使用

制作更安全、更稳健的提示

利用 LLM 的强大功能，借助模型对齐库打造更安全的问题模板。

为安全而调优模型

通过调整模型以使其符合您的安全和内容政策，控制模型行为。

调查模型提示

借助 Learning Interpretability Tool (LIT)，通过迭代改进来构建安全实用的提示。

评估模型

使用我们的指南和工具评估模型在安全性、公平性和事实准确性方面的风险。

开始使用

LLM Comparator

使用 LLM Comparator 进行并排评估，以定性评估模型之间的回答差异、同一模型的不同提示，甚至模型的不同调优

模型评估指南

了解红队攻击最佳实践，并根据学术基准评估您的模型，以评估安全性、公平性和事实性方面的危害。

利用保护措施进行保护

过滤应用的输入和输出，并保护用户免受不良后果的影响。

开始使用

SynthID 文本

用于为模型生成的文本添加水印和检测文本的工具。

SynthID 文字水印

ShieldGemma

一系列基于 Gemma 2 构建的内容安全分类器，分为 2B、9B 和 27B 三种大小。

ShieldGemma 内容安全分类器

敏捷分类器

使用相对较少的训练数据通过参数高效调优 (PET) 为您的特定政策创建安全分类器

创建安全分类器

Checks AI Safety

借助 API 和监控信息中心，确保 AI 安全性符合您的内容政策。

检查 AI 安全性

文本审核服务

使用此 Google Cloud Natural Language API 检测一系列安全属性，包括各种可能有害的类别和可能被视为敏感的主题。在使用量不超过一定限制的情况下，此 API 可免费使用。

Perspective API

使用这款免费的 Google Jigsaw API 识别“恶意”评论，减少在线恶意言论，打造健康的在线交流环境。

Perspective API