Gemma 2 模型卡片

模型页面Gemma

资源和技术文档

使用条款条款

作者:Google

型号信息

输入和输出的摘要说明和简要定义。

说明

Gemma 是 Google 推出的轻量级、先进的开放模型系列,采用与 Gemini 模型相同的研究成果和技术构建而成。它们是仅使用解码器的文本到文本大型语言模型(提供英语版本),为预训练变体和指令调整变体具有开放权重。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。由于它们相对较小,因此可以将其部署在资源有限的环境(如笔记本电脑、桌面设备或您自己的云基础架构)中,让更多人能够使用先进的 AI 模型,并帮助促进每个人的创新。

输入和输出

  • 输入:文本字符串,例如要总结的问题、提示或文档。
  • 输出:响应输入内容而生成的英语文本,例如对问题的回答或文档摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

这些模型使用文本数据数据集进行训练,该数据集包含各种来源。27B 模型使用 13 万亿词元训练,9B 模型使用 8 万亿词元训练。以下是关键组件:

  • 网络文档:多样化的网页文本可确保模型能够使用各种各样的语言样式、主题和词汇。主要是英语内容。
  • 代码:向模型公开代码有助于模型学习编程语言的语法和模式,从而提高其生成代码或理解代码相关问题的能力。
  • 数学:使用数学文本进行训练有助于模型学习逻辑推理、符号表示法以及处理数学查询。

组合这些不同的数据源对于训练可以处理各种不同任务和文本格式的强大语言模型至关重要。

数据预处理

以下是应用于训练数据的主要数据清理和过滤方法:

  • 儿童性虐待内容 (CSAM) 过滤:我们在数据准备流程的多个阶段采用了严格的儿童性虐待内容 (CSAM) 过滤机制,以确保排除有害和非法内容。
  • 敏感数据过滤:为了使 Gemma 预训练模型安全可靠,我们使用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
  • 其他方法:根据我们的政策根据内容质量和安全进行过滤。

实现信息

模型内部的详细信息。

硬件

Gemma 使用最新一代张量处理单元 (TPU) 硬件 (TPUv5p) 进行训练。

训练大型语言模型需要大量的计算能力。专为机器学习中常见的矩阵运算而设计的 TPU 在此领域具有以下几个优势:

  • 性能:TPU 专门设计用于处理训练 LLM 涉及的大量计算。与 CPU 相比,它们可以显著加快训练速度。
  • 内存:TPU 通常配备大量高带宽内存,允许在训练期间处理大型模型和批量大小。这有助于提高模型质量。
  • 可伸缩性:TPU Pod(大型 TPU 集群)提供了一个可扩缩的解决方案,用于处理日益复杂的大型基础模型。您可以将训练分布在多个 TPU 设备上,以实现更快、更高效的处理。
  • 性价比高:在许多情况下,与基于 CPU 的基础架构相比,TPU 为训练大型模型提供了更具成本效益的解决方案,尤其是在考虑因训练速度更快而节省的时间和资源时。
  • 这些优势与 Google 的可持续发展承诺是一致的。

软件

使用 JAXML Pathways 完成训练。

JAX 使研究人员能够利用包括 TPU 在内的最新一代硬件,更快、更高效地训练大型模型。

ML Pathways 是 Google 最近推出的一项成果,旨在构建能够跨多个任务进行泛化的人工智能系统。这尤其适用于基础模型,包括诸如此类的大型语言模型。

正如有关 Gemini 系列模型系列的论文所述,JAX 和机器学习 Pathways 结合使用;Jax 和 Pathways 的“单控制器”编程模型允许单个 Python 进程编排整个训练运行,从而显著简化开发工作流。”

评估

模型评估指标和结果。

基准结果

我们针对大量不同的数据集和指标对这些模型进行了评估,以涵盖文本生成的不同方面:

基准 指标 Gemma PT 9B Gemma PT 27B
MMLU 5 样本,Top-1 71.3 75.2
HellaSwag 10 样本 81.9 86.4
PIQA 0 样本 81.7 83.2
SocialIQA 0 样本 53.4 53.7
BoolQ 0 样本 84.2 84.8
WinoGrande 部分得分 80.6 83.7
ARC-e 0 样本 88.0 88.6
ARC-c 25 样本 68.4 71.4
TriviaQA 5 样本 76.6 83.7
自然问题 5 样本 29.2 34.5
HumanEval 通过 1 40.2 51.8
MBPP 3 样本 52.4 62.6
GSM8K 5 次,maj@1 68.6 74.0
MATH 4 样本 36.6 42.3
AGIEval 3-5 样本 52.8 55.1
BIG-Bench 3 样本,哥伦比亚时间 68.2 74.9

道德与安全

道德与安全评估方法和结果。

评估方法

我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由许多不同的团队进行,每个团队都有不同的目标和人工评估指标。这些模型针对许多与道德和安全相关的不同类别进行了评估,包括:

  • 文字转文字内容安全:对涵盖安全政策(包括儿童性虐待和性剥削、骚扰、暴力和血腥内容以及仇恨言论)的提示进行人工评估。
  • 文本到文本的表述性危害:针对相关学术数据集(如 WinoBiasBBQ 数据集)进行基准测试。
  • 记忆:自动评估训练数据的记忆,包括泄露个人身份信息的风险。
  • 大规模伤害:针对“危险能力”的测试,例如化学、生物、放射和核 (CBRN) 风险。

评估结果

道德和安全评估的结果在符合针对儿童安全、内容安全、代表性伤害、记忆、大规模伤害等类别的内部政策的可接受的阈值范围内。除了可靠的内部评估结果之外,此处还显示了烧烤、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等众所周知的安全基准的结果。

Gemma 2.0

基准 指标 Gemma 2 IT 9B Gemma 2 IT 270 亿
RealToxicity 平均值 8.25 8.84
双乌鸦 top-1 37.47 36.67
BBQ Ambig 1-shot,Top-1 88.58 85.99
烧烤消歧 top-1 82.67 86.94
Winogender top-1 79.17 77.22 日
TruthfulQA 50.27 日 51.60
威诺比亚 1_2 78.09 81.94
威诺比亚 2_2 95.32 97.22 日
Toxigen 39.30 38.42

使用和限制

这些模型存在一些限制,需要用户注意。

预期用途

开放式大型语言模型 (LLM) 在各个行业和领域有着广泛的应用。以下潜在用途列表并不详尽。此列表旨在提供相关背景信息,说明模型创建者在模型训练和开发过程中考虑的可能用例。

  • 内容创作和交流
    • 文本生成:这些模型可用于生成富有创意的文本格式,例如诗歌、脚本、代码、营销文案和电子邮件草稿。
    • 聊天机器人和对话式 AI:为客户服务、虚拟助理或交互式应用提供支持的对话界面。
    • 文本摘要:生成文本语料库、研究论文或报告的简明摘要。
  • 研究和教育
    • 自然语言处理 (NLP) 研究:这些模型可以为研究人员奠定基础,让他们能够实验 NLP 技术、开发算法,并为这一领域的发展做出贡献。
    • 语言学习工具:支持交互式语言学习体验,协助更正语法或提供写作练习。
    • 知识探索:通过生成摘要或回答有关特定主题的问题,协助研究人员探索大型文本。

限制

  • 训练数据
    • 训练数据的质量和多样性对模型的功能有显著影响。训练数据中存在偏差或缺口可能会导致模型的响应受到限制。
    • 训练数据集的范围决定了模型可以有效处理的主题领域。
  • 情境和任务的复杂性
    • LLM 更擅长使用清晰的提示和说明完成任务。开放式任务或高度复杂的任务可能难度较大。
    • 模型的性能会受到所提供上下文数量的影响(在一定程度上,上下文越长通常会产生更好的输出)。
  • 语言模糊性和细微差别
    • 自然语言本质上很复杂。LLM 可能难以理解细微的细微差别、讽刺或具象语言。
  • 事实准确性
    • LLM 会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
  • 常识
    • LLM 依赖于语言中的统计模式。在某些情况下,他们可能缺乏应用常识推理的能力。

道德注意事项和风险

大型语言模型 (LLM) 的发展引起了一些道德方面的担忧。在创建开放式模型时,我们仔细考虑了以下方面:

  • 偏见和公平性
    • 使用大规模的真实文本数据训练的 LLM 可以反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细的审查,以及此卡片中描述的输入数据预处理和事后评估。
  • 虚假信息和滥用
    • LLM 可能会被滥用,以生成虚假、误导性或有害的文本。
    • 提供了关于如何以负责任的方式使用模型的准则,请参阅 Responsible Generative AI Toolkit
  • 公开透明、诚信负责:
    • 此模型卡片总结了有关模型的架构、功能、限制和评估过程的详细信息。
    • 以负责任的方式开发的开放式模型使 LLM 技术可供 AI 生态系统中的开发者和研究人员使用,从而提供了分享创新的机会。

发现风险并采取缓解措施:

  • 保留偏见:建议在模型训练、微调和其他用例期间执行持续监控(使用评估指标、人工审核)并探索消除偏见技术。
  • 生成有害内容:内容安全的机制和准则至关重要。我们鼓励开发者根据具体产品政策和应用用例,谨慎行事并采取适当的内容安全措施。
  • 出于恶意目的滥用:技术限制以及开发者和最终用户培训有助于缓解 LLM 的恶意应用攻击。同时提供了培训资源和举报机制,供用户举报滥用行为。Gemma 使用限制政策中概述了 Gemma 模型的禁止使用政策。
  • 侵犯隐私权:模型是在为了移除个人身份信息而被滤除的数据的基础上训练的。我们鼓励开发者使用隐私保护技术遵守隐私权法规。

优势

发布时,与大小类似的模型相比,这一系列模型提供针对 Responsible AI 开发从头开始设计的高性能开放大型语言模型实现。

使用本文档中介绍的基准评估指标,这些模型已证明能够提供优于其他规模相当的开放式模型替代方案。