Responsible AI 工具包
用于以负责任的方式设计、构建和评估开放式 AI 模型的工具和指南。
设计负责任的方法
主动识别应用的潜在风险,并定义系统级方法,为用户打造安全且负责任的应用。
开始使用
定义系统级政策
确定您的应用应该和不应该生成的内容类型。
- <ph type="x-smartling-placeholder"></ph> 定义政策
- <ph type="x-smartling-placeholder"></ph> 查看示例
安全设计
考虑技术和业务方面的权衡因素,确定实施风险缓释技术的总体方法。
- <ph type="x-smartling-placeholder"></ph> 了解详情
公开透明
利用模型卡片等工件来传达您的方法。
- <ph type="x-smartling-placeholder"></ph> 查看模板
安全的 AI 系统
考虑安全 AI 框架 (SAIF) 中突出显示的 AI 特有的安全风险和补救方法。
- <ph type="x-smartling-placeholder"></ph> Google 的安全 AI 框架
- <ph type="x-smartling-placeholder"></ph> 文档
对齐模型
使用提示和调优方法使您的模型与您的特定安全政策保持一致。
开始使用
调查模型提示
使用 Learning Interpretability Tool (LIT) 进行迭代改进,构建安全实用的提示。
- <ph type="x-smartling-placeholder"></ph> 立即体验
- <ph type="x-smartling-placeholder"></ph> Learning Interpretability Tool
调整模型以确保安全
根据安全和内容政策调整模型,以控制模型行为。
- <ph type="x-smartling-placeholder"></ph> 了解调优
- <ph type="x-smartling-placeholder"></ph> 了解如何调整 SFT
- <ph type="x-smartling-placeholder"></ph> 了解如何调整 RLHF
评估模型
使用我们的指导和工具,评估模型在安全性、公平性和事实准确性方面的风险。
开始使用
LLM Comparator
使用 LLM 比较工具进行并排评估,以定性评估不同模型之间的回答差异、同一模型的不同提示,甚至是模型的不同调优
- <ph type="x-smartling-placeholder"></ph> 试用演示版
- <ph type="x-smartling-placeholder"></ph> 了解 LLM 比较工具
模型评估指南
了解红队判研最佳做法,并根据学术基准评估您的模型,从而评估在安全性、公平性和事实性方面的危害。
- <ph type="x-smartling-placeholder"></ph> 了解详情
- <ph type="x-smartling-placeholder"></ph> 查看基准数据
- <ph type="x-smartling-placeholder"></ph> 查看红队判研最佳实践
使用保护措施进行保护
过滤应用的输入和输出,并保护用户免受意外结果的影响。
开始使用
ShieldGemma
一系列基于 Gemma 2 构建的内容安全分类器,提供三种大小:2B、9B、27B。
- <ph type="x-smartling-placeholder"></ph> ShieldGemma 内容安全分类器
敏捷分类器
使用参数高效调优 (PET),只需相对较少的训练数据,即可为您的特定政策创建安全分类器
- <ph type="x-smartling-placeholder"></ph> 创建安全分类器
文字审核服务
借助此 Google Cloud Natural Language API,它可在低于特定用量限额的情况下免费使用,从而检测安全属性列表,包括可能被视为敏感的各种潜在有害类别和主题。
- <ph type="x-smartling-placeholder"></ph> Cloud Natural Language API
- <ph type="x-smartling-placeholder"></ph> Cloud Natural Language 价格
Perspective API
识别“恶意”评论功能。
- <ph type="x-smartling-placeholder"></ph> Perspective API