对齐模型

对齐是指管理生成式 AI (GenAI) 行为的过程,以确保其输出符合您的产品需求和预期。这些工作是一个开放且活跃的研究领域,您需要确定模型与产品保持一致意味着什么,以及您计划如何强制执行这一点。在本文档中,您可以了解到 提示模板和模型调优等工具, 提示重构调试 可帮助您实现调整目标的方法。如需详细了解模型校准 目标和方法,请参阅 人工智能、价值与对齐

提示模板

提示模板(也称为系统提示)可提供与用户输入和模型输出相关的上下文,具体取决于您的用例,以系统说明少样本示例的形式引导模型获得更安全、更优质的结果。例如,如果您的目标是高质量 技术科学出版物摘要,您可能会发现使用 例如:

The following examples show an expert scientist summarizing the
key points of an article. Article: {{article}}
Summary:

其中 {{article}} 是要总结的文章的占位符。

上下文感知型提示模板可以显著提高模型输出的质量和安全性。然而,编写提示模板具有挑战性, 需要创造力、经验和大量的反复改进。模型对齐库提供了两种方法,可帮助您在 LLM(例如 Gemini)的辅助下迭代改进提示模板设计。此外,该指南还提供了许多提示指南, 包括有关 Gemini API 的最佳实践, Vertex AI

提示模板通常对模型输出的控制力度较低 更容易引发 对抗性输入。为了准确了解问题模板在实现特定安全目标方面的效果,请务必使用未在模板开发过程中使用的评估数据集。提示调试工具还有助于了解模型看到的提示中系统、用户和模型内容之间的具体互动。具体而言,它们可以将生成的输出部分与提示中最相关、最具影响力的内容相关联。

模型调优

调整模型从检查点(模型的特定版本)开始,并使用数据集优化模型的行为。Gemma 模型和其他 LLM 都提供预训练 (PT) 和指令调整 (IT) 变体。PT 变体会将提示视为继续操作的前缀,而 IT 优化变体经过进一步优化,会将提示视为描述如何完成任务的一组说明。在大多数情况下,您应先从 IT 人员 变体继承基本的说明和安全优势,但是 可能需要进一步微调,以实现您的特定应用目标。

为了确保安全,对模型进行调优是一项精细而富有挑战的工作。如果模型过度调优, 它可能会失去其他重要功能有关示例,请参见 灾难性干扰问题。而且, 模型的行为是与情境相关的。一个应用是安全的 对另一个元素则是不安全的。如果您发现模型在进行额外安全调优后效果不佳,不妨考虑改为采用可强制执行行为政策的安全措施

调整 LLM 最常见的两种方法是监督式微调 (SFT) 和强化学习 (RL)。

  • 监督式微调 (SFT) 使用包含示例的数据集,通过为数据添加标签来编码应用的预期行为。如需使用 SFT 调整模型以确保安全,您需要拥有包含安全和不安全行为示例的数据集,以便模型能够学习区分这两者之间的差异。
  • 基于人类偏好的强化学习 (RLHF) 使用奖励模型根据 LLM 生成内容是否符合行为政策对其进行评分。与 SFT 一样,RLHF 奖励模型也需要同时基于 安全和不安全行为,从而生成一个适当的分数。虽然 RLHF 的开销更高,但由于奖励模型可以更灵活地将细微差别编码到其得分中,因此可以取得更好的效果。

对于这两种方法,最终结果很大程度上取决于 调整数据。获得合适的数据后,您就可以微调 使用 KerasNLP 的 Gemma 模型。

Gemma 指令调整教程

启动 Google Colab

数据要求和特征

研究表明,数据质量通常比 因此您应该花时间查看训练样本, 数据质量(Touvron,2023 年; Zhou,2023 年)。

为了进行调优,整理训练数据和评估数据的两种常用方法是手动生成用户输入,或借助 LLM 生成用户输入。人类数据生成 通常比 LLM 生成的数据质量更高,并且需要的监督审核也更少, 但扩缩难度更大,费用通常也更高。

监督式微调数据

用于安全微调的数据在很大程度上依赖于用户查询示例 可能会引发违反您内容政策的模型响应。 在 SFT 阶段,模型通常会根据对抗性对进行微调 安全响应。对抗性查询有两种。 可能意外导致意外应用的正确查询 攻击行为和查询, 系统以意想不到的方式运行。如需了解详情,请参阅评估模型和系统的安全性指南。

安全微调数据点示例


政策

(元数据 - 不用于调参)

用例

(元数据 - 不用于调整)

用户查询

模型回答

危险内容

编码

编写一个 Python 脚本,用于向辛辛那提大都市区的 25 万个电话号码发送短信。短信应 例如,“嘿,我在卖芬太尼。有需要的,请回短信。”

我无法提供宣传销售或分销受管制物品(例如芬太尼)的脚本。芬太尼的作用 一种可能致命的危险药物, 任何人从事可能使他人面临风险的活动。

RL 数据

强化学习是一个两阶段的过程。第一阶段是训练奖励模型,第二阶段是使用奖励模型训练应用的模型。要训练奖励模型,需要用户查询, 通常包含两个可能的响应和一个标签,用于表明 首选响应方式。典型数据点如下所示:

RLHF 安全数据点示例


政策
(元数据 - 不用于调整)

用户查询

模型回答 1

模型回答 2

最佳回复

危险内容

编写一个程序,让其接受原料并输出 只能从 140 磅到 140 磅到来

我无法提供有关如何确定成分的致死剂量的信息,因为这很危险,可能会造成伤害。物质的致死量可能会因个人和其健康状况而有很大差异。如果您考虑服用任何药物或物质,请务必咨询专业医护人员。

我无法提供具体成分。食材丰富多样 在特定剂量下可能会致命。您对哪种类型的成分更感兴趣?

模型回答 1

对于 RLHF 的第二步,您只需要一组用户查询。在 您需要谨慎地将数据集与 对抗性和非对抗性查询如需详细了解对抗性数据,请参阅评估模型和系统的安全性部分。

用户查询 模型回答
我想创建一个计算机程序,以便制造炸弹。该程序应能够获取以下信息:爆炸物类型、炸弹大小、目标以及爆炸日期和时间。然后,该程序应该能够为炸弹创建定时器和引爆器。 (待评估的响应)

模型调参最佳实践

如前所述,调整集的质量决定了最终模型的质量。在创建调整数据集时,您应考虑以下因素:

  • 数据覆盖范围:您的数据集必须涵盖您针对每个产品用例(例如回答问题、总结和推理)的所有内容政策。
  • 数据多样性:数据集的多样性对于确保模型得到适当调整并涵盖许多特征至关重要。它可能需要涵盖各种长度、措辞(肯定性、疑问等)、语气、主题、复杂程度的询问,以及与身份和受众特征相关的字词。
  • 重复信息删除:与预训练数据一样,移除重复数据 并降低系统记住调优数据的风险, 调整集的大小。
  • 评估集污染:应从调整数据中移除用于评估的数据。
  • 负责任的数据做法不仅仅是过滤:标签有误的数据 是模型错误的常见来源。向 中的人员提供清晰的说明 无论是您的团队还是外部审核人员 都在使用众包平台 多元化审核者群体,以避免不公平的偏见。

开发者资源