RecurrentGemma 模型卡片

模型页面RecurrentGemma

资源和技术文档

使用条款条款

作者:Google

模型信息

模型摘要

说明

RecurrentGemma 是基于 Google 开发的新循环架构构建的一系列开放语言模型。预训练模型和指令调整版本都提供英语版本。

与 Gemma 一样,RecurrentGemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。由于采用新架构,RecurrentGemma 需要的内存比 Gemma 少,并且在生成长序列时可以加快推断速度。

输入和输出

  • 输入:文本字符串(例如问题、提示或要总结的文档)。
  • 输出:根据输入生成英语文本(例如,问题的回答、文档摘要)。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

模型数据

训练数据集和数据处理

RecurrentGemma 使用与 Gemma 模型系列相同的训练数据和数据处理。完整说明请参阅 Gemma 模型卡片

实现信息

训练期间使用的硬件和框架

Gemma 一样,RecurrentGemma 是使用 JAX机器学习路径TPUv5e 上训练的。

评估信息

基准测试结果

评估方法

我们针对大量不同的数据集和指标对这些模型进行了评估,以涵盖文本生成的不同方面:

评估结果

基准 指标 《RecurrentGemma》2B
MMLU 5 张照片、Top-1 38.4
HellaSwag 0 样本 土耳其里拉
PIQA 0 样本 土耳其里拉
SocialIQA 0 样本 土耳其里拉
BoolQ 0 样本 71.3 岁
WinoGrande 部分分数 67.8 岁
CommonsenseQA 7 张 土耳其里拉
OpenBookQA 47.2
ARC-e 土耳其里拉
ARC-c 42.3
TriviaQA 5 次 52.5
自然问题 5 次 11.5
HumanEval Pass@1 21.3 岁
MBPP 3 次 28.8
GSM8K maj@1 13.4
MATH 4 次 11.0
AGIEval 23.8 岁
大基准 35.3 岁
一般 44.6

道德与安全

道德与安全评估

评估方法

我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。许多不同的团队实施了红队判研,每个团队都有不同的目标和人工评估指标。这些模型针对与道德和安全相关的一些不同类别进行了评估,包括:

  • 文字转文字内容安全性:对涉及安全政策(包括儿童性虐待和剥削、骚扰、暴力和血腥内容,以及仇恨言论)的提示进行人工评估。
  • 文本到文本的表示性危害:针对相关学术数据集(如 WinoBias 和烧烤数据集)进行基准测试。
  • 记忆:自动评估训练数据的记忆情况,包括泄露个人身份信息的风险。
  • 大规模伤害:测试“危险功能”,如化学、生物、放射和核 (CBRN) 风险;以及说服和欺骗、信息安全和自主复制测试。

评估结果

道德和安全评估的结果在符合内部政策(例如儿童安全、内容安全、表征伤害、记忆、大规模伤害等)的可接受阈值以内。除了强大的内部评估之外,此处还显示烧烤、Winogender、Winobias、RealToxicity 和 TruthfulQA 等知名安全基准的结果。

基准 指标 《RecurrentGemma》2B RecurrentGemma 2B IT
RealToxicity 平均 9.8 7.6
加粗 39.3 岁 52.4 岁
天鹅配对 top-1 41.1 43.4 岁
烧烤消除 top-1 土耳其里拉 71.1 岁
烧烤消除歧义 top-1 土耳其里拉 50.8
Winogender top-1 55.1 54.7
TruthfulQA 35.1 岁 土耳其里拉
木屋墙 1_2 土耳其里拉 56.4 岁
木屋墙 2_2 土耳其里拉 土耳其里拉
毒素 土耳其里拉 50.0

模型用量和限制

已知限制

这些模型存在一些需要用户注意的限制:

  • 训练数据
    • 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏差或缺口可能会导致模型的响应受到限制。
    • 训练数据集的范围决定了模型可以有效处理的主题领域。
  • 上下文和任务复杂性
    • LLM 更擅长用清晰的提示和说明来构思的任务。开放式或高度复杂的任务可能极具挑战性。
    • 模型的性能可能会受所提供的上下文数量的影响(上下文越长,在一定程度上通常能获得更好的输出)。
  • 语言的歧义和细微差别
    • 自然语言本质上非常复杂。LLM 可能很难理解细微的细微差别、讽刺性语言或象征性语言。
  • 事实准确性
    • LLM 会根据从训练数据集中学到的信息来生成响应,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
  • 常识
    • LLM 依赖语言中的统计模式。在某些情况下,他们可能缺乏运用常识推理的能力。

道德考虑和风险

大型语言模型 (LLM) 的发展引发了一些道德问题。在创建开放模型时,我们仔细考虑了以下因素:

  • 偏见和公平
    • 使用大规模的真实文本数据训练的 LLM 可以反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审查,进行了此卡片中描述的输入数据预处理和后期评估。
  • 虚假信息和滥用
    • LLM 可能会被滥用以生成虚假、误导性或有害文本。
    • 我们提供了有关如何以负责任的方式使用模型的指南,请参阅 Responsible Generative AI 工具包
  • 透明度和问责制
    • 此模型卡片总结了有关模型架构、功能、限制和评估流程的详细信息。
    • 以负责任的方式开发的开放式模型使整个 AI 生态系统中的开发者和研究人员都能使用 LLM 技术,从而为分享创新提供了机会。

识别并缓解风险:

  • 偏见长久存续:建议在模型训练、微调和其他应用场景中执行持续监控(使用评估指标和人工审核)并探索去偏向技术。
  • 有害内容的生成:确保内容安全的机制和准则至关重要。建议开发者谨慎行事,根据其具体产品政策和应用用例采取适当的内容保护措施。
  • 出于恶意目的滥用:技术限制以及开发者和最终用户教育有助于减轻 LLM 的恶意应用攻击。此外,我们还提供各种教育资源和举报机制,以便用户举报滥用行为。如需了解 Gemma 模型的禁止使用行为,请参阅我们的使用条款
  • 侵犯隐私权:模型是利用为了移除个人身份信息(个人身份信息)而滤除的数据进行训练的。我们鼓励开发者使用隐私保护技术遵守隐私权法规。

预期用途

应用

开放大语言模型 (LLM) 在各种行业和领域有着广泛的应用。下面列出的潜在用途并不全面。此列表旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

  • 内容创作和通信
    • 文本生成:这些模型可用于生成创意文本格式,例如诗歌、脚本、代码、营销文案、电子邮件草稿等。
    • 聊天机器人和对话式 AI:为客户服务、虚拟助理或交互式应用提供对话界面。
    • 文本摘要:生成关于文本语料库、研究论文或报告的简明摘要。
  • 研究和教育
    • 自然语言处理 (NLP) 研究:这些模型可以为研究人员奠定基础,用于试验 NLP 技术、开发算法,以及推动该领域的发展。
    • 语言学习工具:支持互动式语言学习体验,协助纠正语法或提供写作练习。
    • 知识探索:通过生成摘要或回答有关特定主题的问题,帮助研究人员探索大段文本。

优势

在发布时,此系列模型提供了针对 Responsible AI 开发全新设计的高性能开放大语言模型实现(与规模类似的模型相比)。

事实证明,使用本文档中所述的基准评估指标,这些模型的性能优于其他规模相当的开放式模型替代方案。

特别是,RecurrentGemma 模型的性能与 Gemma 模型相当,但在推断期间速度更快,并且需要的内存更少,尤其是在处理长序列时。