模型页面:RecurrentGemma
资源和技术文档:
使用条款: 条款
作者:Google
型号信息
模型摘要
说明
RecurrentGemma 是一系列基于 Google 开发的新型重复性架构构建的开放式语言模型。预训练版和按指令调整版均提供英文版本。
与 Gemma 一样,RecurrentGemma 模型非常适合处理各种文本生成任务,包括问题解答、摘要和推理。由于其新颖的架构,RecurrentGemma 比 Gemma 需要的内存更少,并且在生成长序列时实现了更快的推理速度。
输入和输出
- 输入:文本字符串(例如问题、提示或要总结的文档)。
- 输出:针对输入生成的英语文本(例如,问题的答案、文档的摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型数据
训练数据集和数据处理
RecurrentGemma 使用与 Gemma 模型系列相同的训练数据和数据处理方式。如需查看完整说明,请参阅 Gemma 模型卡片。
实现信息
训练期间使用的硬件和框架
与 Gemma 一样,RecurrentGemma 使用 JAX 和 ML Pathways 在 TPUv5e 上训练。
评估信息
基准测试结果
评估方法
我们针对大量不同的数据集和指标评估了这些模型,以涵盖文本生成的不同方面:
评估结果
基准 | 指标 | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 个样本,前 1 个 | 38.4 | 60.5 |
HellaSwag | 零样本 | 71.0 | 80.4 |
PIQA | 零样本 | 78.5 | 81.3 |
SocialIQA | 零样本 | 51.8 | 52.3 |
BoolQ | 零样本 | 71.3 | 80.3 |
WinoGrande | 部分得分 | 67.8 | 73.6 |
CommonsenseQA | 7 连拍 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 张 | 52.5 | 70.5 |
自然问题 | 5 张 | 11.5 | 21.7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 连拍 | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 个镜头 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
平均 | 44.6 | 56.1 |
道德和安全
伦理和安全评估
评估方法
我们的评估方法包括结构化评估,以及对相关内容政策的内部红队测试。红队攻击由多个不同的团队执行,每个团队都有不同的目标和人为评估指标。我们根据与伦理和安全相关的多个不同类别对这些模型进行了评估,包括:
- 文本转文本内容安全:针对涉及安全政策的问题(包括儿童性虐待和性剥削、骚扰、暴力和血腥画面以及仇恨言论)进行人工评估。
- 文本到文本表征性伤害:与 WinoBias 和 BBQ 数据集等相关学术数据集进行基准测试。
- 记忆:自动评估对训练数据的记忆,包括个人身份信息泄露的风险。
- 大规模危害:针对“危险功能”(例如化学、生物、放射和核 [CBRN] 风险)的测试;以及针对说服和欺骗、网络安全和自主复制的测试。
评估结果
在儿童安全、内容安全、表征性伤害、记忆、大规模伤害等类别中,伦理和安全评估结果在可接受的阈值范围内,符合内部政策。除了严格的内部评估之外,此处还会显示 BBQ、Winogender、WinoBias、RealToxicity 和 TruthfulQA 等知名安全基准的结果。
基准 | 指标 | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | 平均值 | 9.8 | 7.60 | 10.3 | 8.8 |
粗体 | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
模型使用和限制
已知限制
这些模型存在一些限制,用户应予以注意:
- 训练数据
- 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏见或缺口可能会导致模型的回答受到限制。
- 训练数据集的范围决定了模型可以有效处理的主题领域。
- 情境和任务复杂性
- LLM 更擅长处理可通过清晰的提示和说明来界定的任务。开放式或高度复杂的任务可能很难完成。
- 模型的性能可能会受到提供的上下文量的影响(在一定程度上,上下文越长,输出结果就越好)。
- 语言模糊性和细微差别
- 自然语言本身就很复杂。LLM 可能难以理解细微的细微差别、讽刺或比喻性语言。
- 事实准确性
- LLM 会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的实情陈述。
- 常识
- LLM 依赖于语言中的统计规律。在某些情况下,他们可能无法运用常识推理。
道德注意事项和风险
大语言模型 (LLM) 的开发引发了一些伦理问题。在创建开放式模型时,我们仔细考虑了以下事项:
- 偏见和公平性
- 使用大规模真实文本数据训练的 LLM 可能会反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审核,并采用了此卡片中所述的输入数据预处理流程和后续评估。
- 虚假信息和滥用行为
- LLM 可能会被滥用来生成虚假、误导性或有害的文本。
- 我们提供了有关负责任地使用该模型的指南,请参阅负责任的生成式 AI 工具包。
- 公开透明,责任明确
- 此模型卡片总结了模型的架构、功能、限制和评估流程的详细信息。
- 以负责任的方式开发的开放模型可让 AI 生态系统中的开发者和研究人员都能使用 LLM 技术,从而让他们有机会分享创新成果。
发现的风险和缓解措施:
- 偏见的延续:建议在模型训练、微调和其他用例期间持续监控(使用评估指标、人工审核)并探索去偏见技术。
- 生成有害内容:内容安全机制和准则至关重要。我们建议开发者谨慎行事,并根据其特定的产品政策和应用使用情形实施适当的内容安全保护措施。
- 出于恶意目的的滥用:技术限制以及对开发者和最终用户的培训有助于减少 LLM 的恶意应用。提供教育资源和举报机制,供用户举报滥用行为。使用条款中列出了 Gemma 模型的禁止用途。
- 隐私权违规:模型是根据经过过滤以移除个人身份信息 (PII) 的数据训练的。我们鼓励开发者采用可保护隐私的技术来遵守隐私权法规。
预期用途
应用
开放式大语言模型 (LLM) 在各个行业和领域都有广泛的应用。以下可能用途并非详尽无遗。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。
- 内容创作和传播
- 文本生成:这些模型可用于生成诗歌、脚本、代码、营销文案、电子邮件草稿等创意文本格式。
- 聊天机器人和对话式 AI:为客户服务、虚拟助理或互动应用提供对话式界面。
- 文本摘要:为文本语料库、研究论文或报告生成简明扼要的摘要。
- 研究和教育
- 自然语言处理 (NLP) 研究:这些模型可以为研究人员实验 NLP 技术、开发算法并为该领域的发展做出贡献奠定基础。
- 语言学习工具:支持互动式语言学习体验,有助于纠正语法或提供写作练习。
- 知识探索:通过生成摘要或回答有关特定主题的问题,协助研究人员探索大量文本。
优势
与同等规模的模型相比,此系列模型在发布时提供高性能的开放式大语言模型实现,从一开始就专为 Responsible AI 开发而设计。
使用本文档中介绍的基准评估指标,这些模型的性能已被证明优于其他规模相当的开源模型替代方案。
具体而言,RecurrentGemma 模型的性能与 Gemma 模型相当,但推理速度更快,所需内存更少,尤其是在长序列上。