RecurrentGemma 模型卡片

模型页面RecurrentGemma

资源和技术文档

使用条款条款

作者:Google

模型信息

模型摘要

说明

RecurrentGemma 是一系列开放语言模型,基于由 Google 开发的新型循环架构构建而成。预训练和指令调优的版本均提供英语版本。

与 Gemma 一样,RecurrentGemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。由于其新颖的架构,RecurrentGemma 所需的内存比 Gemma 更少,并且在生成长序列时可以更快地进行推理。

输入和输出

  • 输入:文本字符串(例如,问题、提示或要总结的文档)。
  • 输出:响应输入内容而生成的英语文本(例如问题的答案、文档摘要)。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

模型数据

训练数据集和数据处理

RecurrentGemma 使用的训练数据和数据处理方式与 Gemma 模型系列所使用的相同。如需查看完整说明,请参阅 Gemma 模型卡片

实现信息

训练期间使用的硬件和框架

Gemma 一样,RecurrentGemma 使用 JAX机器学习路径基于 TPUv5e 进行训练。

评估信息

基准测试结果

评估方法

我们针对大量不同的数据集和指标对这些模型进行了评估,以涵盖文本生成的不同方面:

评估结果

基准 指标 RecurrentGemma 2B RecurrentGemma 90 亿
MMLU 5 样本,Top-1 38.4 60.5
HellaSwag 0 样本 71.0 80.4
PIQA 0 样本 78.5 81.3
SocialIQA 0 样本 51.8 52.3
BoolQ 0 样本 71.3 80.3
WinoGrande 部分得分 67.8 73.6
CommonsenseQA 7 样本 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 样本 52.5 70.5
自然问题 5 样本 11.5 21.7
HumanEval 通过 1 21.3 31.1
MBPP 3 样本 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 样本 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
一般 44.6 56.1

道德与安全

道德与安全评估

评估方法

我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由许多不同的团队进行,每个团队都有不同的目标和人工评估指标。这些模型针对许多与道德和安全相关的不同类别进行了评估,包括:

  • 文字转文字内容的安全性:对涵盖安全政策(包括儿童性虐待和性剥削、骚扰、暴力和血腥内容以及仇恨言论)的提示进行人工评估。
  • 文本到文本的表示性伤害:针对相关学术数据集(如 WinoBias 和烧烤数据集)进行基准测试。
  • 记忆:自动评估训练数据的记忆,包括个人身份信息泄露风险。
  • 大规模伤害:测试“危险能力”,例如化学、生物、放射和核 (CBRN) 风险;以及说服和欺骗、信息安全和自主复制测试。

评估结果

道德和安全评估的结果在符合针对儿童安全、内容安全、代表性伤害、记忆、大规模伤害等类别的内部政策的可接受阈值范围内。除了可靠的内部评估结果之外,此处还显示了烧烤、Winogender、WinoBias、RealToxicity 和 TruthfulQA 等知名安全基准的结果。

基准 指标 RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 90 亿 RecurrentGemma 9B IT
RealToxicity 平均 9.8 7.60 10.3 8.8
粗体 39.3 52.3 39.8 47.9
双乌鸦 top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
烧烤消歧 top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

模型用法和限制

已知限制

这些模型存在一些限制,需要用户注意:

  • 训练数据
    • 训练数据的质量和多样性对模型的功能有显著影响。训练数据中的偏差或缺口可能会导致模型的响应受到限制。
    • 训练数据集的范围决定了模型可以有效处理的主题领域。
  • 上下文和任务复杂性
    • LLM 更擅长使用清晰的提示和说明完成任务。开放式任务或高度复杂的任务可能难度较大。
    • 模型的性能可能会受到所提供上下文数量的影响(在达到特定点之前,上下文越长通常会产生更好的输出)。
  • 语言歧义和细微差别
    • 自然语言本质上很复杂。LLM 可能难以掌握细微的细微差别、讽刺或具象语言。
  • 事实准确性
    • LLM 会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
  • 常识
    • LLM 依赖于语言中的统计模式。在某些情况下,他们可能缺乏应用常识推理的能力。

道德考量和风险

大型语言模型 (LLM) 的发展引起了一些道德方面的担忧。在创建开放式模型时,我们仔细考虑了以下方面:

  • 偏见和公平性
    • 基于大规模的真实文本数据训练的 LLM 可以反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细的审查、所述输入数据预处理和此卡片中报告的后期评估。
  • 虚假信息和滥用行为
    • LLM 可能会被滥用,以生成虚假、误导性或有害的文本。
    • 提供了关于如何以负责任的方式使用模型的准则,请参阅负责任的生成式 AI 工具包
  • 透明度和问责制
    • 此模型卡片总结了有关模型的架构、功能、限制和评估过程的详细信息。
    • 以负责任的方式开发的开放式模型可让整个 AI 生态系统中的开发者和研究人员使用 LLM 技术,从而分享创新成果。

发现的风险和缓解措施:

  • 永久保留偏见:建议在模型训练、微调和其他用例期间执行持续监控(使用评估指标、人工审核)并探索消除偏见技术。
  • 生成有害内容:内容安全的机制和准则至关重要。我们建议开发者根据具体产品政策和应用用例,谨慎行事并采取适当的内容安全措施。
  • 滥用于恶意目的:技术限制以及开发者和最终用户培训有助于缓解 LLM 的恶意应用行为。同时提供了培训资源和举报机制,供用户举报滥用行为。我们的使用条款中概述了禁止使用 Gemma 模型的行为。
  • 侵犯隐私权:模型是基于为移除 PII(个人身份信息)而过滤的数据训练的。我们鼓励开发者使用隐私保护技术遵守隐私权法规。

预期用途

应用

开放式大型语言模型 (LLM) 在各个行业和领域有着广泛的应用。以下潜在用途列表并不详尽。此列表旨在提供相关背景信息,说明模型创建者在模型训练和开发过程中考虑的可能用例。

  • 内容创建和通信
    • 文本生成:这些模型可用于生成富有创意的文本格式,如诗歌、脚本、代码、营销文案、电子邮件草稿等。
    • 聊天机器人和对话式 AI:为客户服务、虚拟助理或交互式应用提供支持的对话界面。
    • 文本摘要:生成文本语料库、研究论文或报告的简明摘要。
  • 研究和教育
    • 自然语言处理 (NLP) 研究:这些模型可以为研究人员奠定基础,帮助他们实验 NLP 技术、开发算法,并为这一领域的发展做出贡献。
    • 语言学习工具:支持交互式语言学习体验,有助于更正语法或提供写作练习。
    • 知识探索:通过生成摘要或回答有关特定主题的问题,协助研究人员探索大段文本。

优势

发布时,与大小类似的模型相比,这一系列模型提供针对 Responsible AI 开发从头开始设计的高性能开放大型语言模型实现。

使用本文档中介绍的基准评估指标,这些模型已证明能够提供优于其他规模相当的开放式模型替代方案。

具体而言,RecurrentGemma 模型可实现与 Gemma 模型相当的性能,但在推理过程中速度更快且需要的内存更少,尤其是在长序列上。