模型页面:RecurrentGemma
资源和技术文档:
使用条款:条款
作者:Google
型号信息
模型摘要
说明
RecurrentGemma 是一系列开放语言模型,基于新颖的循环模型 构建自己的基础架构。两者都有 预训练和指令微调版本目前提供英语版本。
与 Gemma 一样,RecurrentGemma 模型非常适合 包括问题解答、摘要和推理。 由于其新颖的架构,RecurrentGemma 所需的内存 Gemma,并在生成长序列时实现更快的推理。
输入和输出
- 输入:文本字符串(例如,要 摘要)。
- 输出:为响应输入而生成的英语文本(例如 问题的答案、文档摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型数据
训练数据集和数据处理
RecurrentGemma 使用的训练数据和数据处理方式与 Gemma 型号系列。有关完整说明,请参阅 Gemma 模型 卡片。
实现信息
训练期间使用的硬件和框架
点赞 Gemma、 RecurrentGemma 接受过 TPUv5e、 使用 JAX 和机器学习 开发者在线课程。
评估信息
基准测试结果
评估方法
我们针对大量不同的数据集对这些模型进行了评估, 指标,以涵盖文本生成的不同方面:
评估结果
基准 | 指标 | RecurrentGemma 2B | RecurrentGemma 90 亿 |
---|---|---|---|
MMLU | 5 样本,Top-1 | 38.4 | 60.5 |
HellaSwag | 0 样本 | 71.0 | 80.4 |
PIQA | 0 样本 | 78.5 | 81.3 |
SocialIQA | 0 样本 | 51.8 | 52.3 |
BoolQ | 0 样本 | 71.3 | 80.3 |
WinoGrande | 部分得分 | 67.8 | 73.6 |
CommonsenseQA | 7 样本 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 样本 | 52.5 | 70.5 |
自然问题 | 5 样本 | 11.5 | 21.7 |
HumanEval | 通过 1 | 21.3 | 31.1 |
MBPP | 3 样本 | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 样本 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
一般 | 44.6 | 56.1 |
道德与安全
道德与安全评估
评估方法
我们的评估方法包括结构化评估和内部红队判研 并测试相关内容政策红队判研 不同团队,每个团队都有不同的目标和人工评估指标。这些 根据许多不同类别对模型进行了评估, 包括:
- 文字转文字内容安全性:对涉及安全性的提示进行人工评估 包括儿童性虐待和性剥削、骚扰、暴力 血腥和仇恨言论。
- 文本到文本的代表性伤害:以相关学术研究为依据进行基准化分析 如 WinoBias 和烧烤数据集。
- 记忆:自动评估训练数据的记忆。 包括个人身份信息泄露的风险
- 大规模伤害:针对“危险性能”进行测试,例如化学、 生物、放射和核 (CBRN) 风险;以及对 说服和欺骗、信息安全以及自主复制。
评估结果
道德和安全评估的结果在可接受的阈值范围内 用于会议内部 政策 例如儿童安全、内容安全、代表性伤害、 大规模的伤害。除了可靠的内部评估, 例如烧烤、Winogender、WinoBias、 此处显示了 RealToxicity 和 TruthfulQA。
基准 | 指标 | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 90 亿 | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | 平均 | 9.8 | 7.60 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 | |
双乌鸦 | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
烧烤消歧 | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
模型用法和限制
已知限制
这些模型存在一些限制,需要用户注意:
- 训练数据
- 训练数据的质量和多样性会显著影响 模型功能。训练数据中存在偏差或数据缺口可能会导致 模型响应的限制。
- 训练数据集的范围决定了模型的主题领域 可有效处理
- 上下文和任务复杂性
- LLM 更擅长处理能以清晰提示为框架的任务, 操作说明。开放式任务或高度复杂的任务可能难度较大。
- 模型的性能可能会受到上下文量的影响 (较长的上下文通常会产生更好的输出,最多 )。
- 语言歧义和细微差别
- 自然语言本质上很复杂。LLM 可能难以理解 细微的细微差别、讽刺或具象化的语言。
- 事实准确性
- LLM 根据从他们的对话中学到的信息来生成回答。 但它们不是知识库。它们可能会 不正确或过时的事实陈述。
- 常识
- LLM 依赖于语言中的统计模式。他们可能缺乏 在特定情况下运用常识推理的能力。
道德考量和风险
大型语言模型 (LLM) 的发展引起了一些道德方面的担忧。 在创建开放式模型时,我们仔细考虑了以下方面:
- 偏见和公平性
- 使用大规模的真实文本数据训练的 LLM 培训材料中嵌入的社会文化偏见。这些模型 经过仔细审查,所述输入数据预处理 此卡片中报告的后续评估。
- 虚假信息和滥用行为
- LLM 可能会被滥用以生成虚假、误导性或 是有害的。
- 提供了关于如何以负责任的方式使用模型的准则,请参阅 Responsible AI:负责任的生成式 AI 之道 工具包。
- 透明度和问责制
- 此模型卡片总结了架构 能力、限制和评估流程。
- 以负责任的方式开发的开放式模式提供了 让开发者能够使用 LLM 技术,并实现创新 研究人员。
已发现风险和缓解措施:
- 持续偏见:建议持续监控 (使用评估指标和人工审核)和探索消除偏见 模型训练、微调和其他使用场景中用到的技术。
- 生成有害内容的:内容的机制和指南 都至关重要我们建议开发者保持谨慎, 根据其具体要求采取适当的内容安全措施 产品政策和应用用例。
- 滥用于恶意目的:技术限制以及开发者和 最终用户培训有助于缓解 LLM 的恶意应用行为。 可供用户举报滥用行为的教育资源和举报机制包括 。我们的条款 使用。
- 侵犯隐私权:模型是在经过过滤以移除 PII(个人身份信息)。我们鼓励开发者 采用可保护隐私的技术来遵守隐私权法规。
预期用途
应用
开放式大型语言模型 (LLM) 在众多领域有着广泛的应用, 不同行业和领域。下面的潜在用途列表 全面。此列表旨在提供一些背景信息 模型创建者考虑作为模型一部分的 培训和发展。
- 内容创作和沟通
- 文本生成:这些模型可用于生成广告素材文字 例如诗歌、脚本、代码、营销文案、电子邮件草稿等。
- 聊天机器人和对话式 AI:为 例如客户服务、虚拟助理或交互式应用。
- 文本摘要:生成文本语料库的简明摘要, 研究论文或报告。
- 研究和教育
- 自然语言处理 (NLP) 研究:这些模型可用于 为研究人员实验 NLP 技术的基础, 开发算法,并为这一领域的发展做出贡献。
- 语言学习工具:支持交互式语言学习 帮助纠正语法或提供写作练习。
- 知识探索:协助研究人员探索体型较大的天体 通过生成摘要或回答关于特定主题的问题, 主题。
优势
在发布时,这一系列模型提供高性能的开放式 针对 Responsible AI 针对 Responsible AI 而彻底设计的 与规模相近的模型进行比较。
这些模型使用本文档中介绍的基准评估指标, 已经证明可以优于其他规模相当的开放式模型 替代选项。
具体而言,RecurrentGemma 模型实现了与 Gemma 不相上下的性能 但在推理过程中速度更快且需要更少的内存, 长序列。