Gemma 模型卡片

模型页面Gemma

资源和技术文档

使用条款条款

作者:Google

型号信息

输入和输出的摘要说明及简要定义。

说明

Gemma 是 Google 推出的一系列轻量级、先进的开放模型,采用与创建 Gemini 模型相同的研究和技术构建而成。它们是仅使用解码器的文本到文本大语言模型,提供英语版本,具有开放权重、预训练变体和指令调优变体。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。它们的规模相对较小,因此可以在资源有限的环境(例如笔记本电脑、台式机或您自己的云基础架构)中部署它们,使人人都能使用先进的 AI 模型,并帮助促进创新,让人人受益。

输入和输出

  • 输入:文本字符串,例如要总结的问题、提示或文档。
  • 输出:针对输入(例如问题的回答或文档摘要)生成的英语文本。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

这些模型基于包含各种来源的文本数据数据集进行训练,共计 6 万亿个词元。下面介绍了一些关键组件:

  • 网络文档:收集各种网络文本,确保模型能够使用各种语言风格、主题和词汇。主要是英语内容
  • 代码:向代码公开模型有助于模型学习编程语言的语法和模式,从而提高模型生成代码或理解代码相关问题的能力。
  • 数学:对数学文本进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。

这些不同数据源的组合对于训练能够处理各种不同任务和文本格式的强大语言模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清理和过滤方法:

  • 儿童性虐待内容 (CSAM) 过滤:我们在数据准备过程中的多个阶段都会应用严格的儿童性虐待内容 (CSAM) 过滤机制,以确保将有害和非法内容排除在外。
  • 敏感数据过滤:为了确保 Gemma 预训练模型安全可靠,我们使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
  • 其他方法:根据我们的政策根据内容质量和安全进行过滤。

实现信息

有关模型内部构件的详细信息。

硬件

Gemma 使用最新一代的张量处理单元 (TPU) 硬件 (TPUv5e) 进行训练。

训练大型语言模型需要大量的计算能力。TPU 专为机器学习中常见的矩阵操作而设计,在这一领域具备以下几大优势:

  • 性能:TPU 是专门为处理训练 LLM 涉及的海量计算而设计的。与 CPU 相比,它们可以显著加快训练速度。
  • 内存:TPU 通常配备大量高带宽内存,以便在训练期间处理大型模型和批量大小。这有助于提高模型质量。
  • 可伸缩性:TPU Pod(大型 TPU 集群)提供了可伸缩的解决方案,用于处理日益复杂的大型基础模型。您可以将训练分布到多个 TPU 设备,以实现更快、更高效的处理。
  • 成本效益:在许多场景中,与基于 CPU 的基础架构相比,TPU 可以为训练大型模型提供更具成本效益的解决方案,尤其是在考虑因训练速度更快而节省的时间和资源时。
  • 这些优势与 Google 的可持续运营承诺相一致。

软件

训练是使用 JAX机器学习开发者在线课程完成的。

借助 JAX,研究人员能够利用最新一代硬件(包括 TPU),以便更快速、更高效地训练大型模型。

ML Pathways 是 Google 的最新成果,旨在构建能够跨多个任务泛化的人工智能系统。这尤其适用于基础模型,包括像这些这样的大语言模型。

您可以结合使用 JAX 和机器学习开发者在线课程,如有关 Gemini 模型系列的论文中所述;“Jax 和 Pathways 的‘单控制器’编程模型允许单个 Python 流程编排整个训练运行,从而极大地简化了开发工作流。”

评估

模型评估指标和结果。

基准结果

我们针对大量不同的数据集和指标对这些模型进行了评估,以涵盖文本生成的不同方面:

基准 指标 Gemma PT 2B 《Gemma PT 7B》
MMLU 5 张照片、Top-1 42.3 64.3 岁
HellaSwag 0 样本 土耳其里拉 81.2
PIQA 0 样本 77.3 岁 81.2
SocialIQA 0 样本 土耳其里拉 土耳其里拉
BoolQ 0 样本 69.4 岁 83.2
WinoGrande 部分分数 65.4 岁 72.3 岁
CommonsenseQA 7 张 65.3 岁 71.3 岁
OpenBookQA 土耳其里拉 土耳其里拉
ARC-e 73.2 岁 81.5
ARC-c 土耳其里拉 53.2 岁
TriviaQA 5 次 53.2 岁 63.4 岁
自然问题 5 次 12.5 土耳其里拉
HumanEval Pass@1 土耳其里拉 32.3 岁
MBPP 3 次 29.2 土耳其里拉
GSM8K maj@1 17.7 土耳其里拉
MATH 4 次 11.8 24.3 岁
AGIEval 24.2 岁 土耳其里拉
大基准 35.2 岁 55.1
一般 44.9 56.4

道德与安全

道德与安全评估方法及结果。

评估方法

我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。许多不同的团队实施了红队判研,每个团队都有不同的目标和人工评估指标。这些模型针对与道德和安全相关的一些不同类别进行了评估,包括:

  • 文本到文字内容安全:对涉及安全政策的提示进行人工评估,其中包括儿童性虐待和剥削、骚扰、暴力和血腥内容,以及仇恨言论。
  • 文本到文本表征危害:以相关学术数据集(例如 WinoBiasBBQ 数据集)为基准进行基准测试。
  • 记忆:自动评估训练数据的记忆情况,包括泄露个人身份信息的风险。
  • 大规模伤害:测试“危险功能”,例如化学、生物、放射和核 (CBRN) 风险。

评估结果

道德与安全性评估的结果在符合内部政策(例如儿童安全、内容安全、表征伤害、记忆、大规模伤害等)的可接受阈值以内。除了强大的内部评估之外,此处还显示烧烤、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等知名安全基准的结果。

Gemma 1.0

基准 指标 Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity 平均值 6.86 欧元 7.90 欧元
加粗 45.57 岁 49.08
天鹅配对 top-1 45.82 51.33
烧烤消除 1-shot、top-1 62.58 92.54
烧烤消除歧义 top-1 54.62 71.99
Winogender top-1 51.25 岁 54.17 岁
TruthfulQA 44.84 岁 31.81
木屋墙 1_2 56.12 59.09 岁
木屋墙 2_2 91.10 92.23
毒素 29.77 39.59 岁

Gemma 1.1

基准 指标 Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity 平均值 7.03 8.04
加粗 47.76 岁
天鹅配对 top-1 45.89 49.67
烧烤消除 1-shot、top-1 58.97 欧元 86.06
烧烤消除歧义 top-1 53.90 85.08
Winogender top-1 50.14 岁 57.64
TruthfulQA 44.24 岁 45.34 岁
木屋墙 1_2 55.93 59.22 岁
木屋墙 2_2 89.46 岁 89.2
毒素 29.64 岁 38.75 岁

使用和限制

这些模型存在一些需要用户注意的局限性。

目标用途

开放大语言模型 (LLM) 在各种行业和领域有着广泛的应用。下面列出的潜在用途并不全面。此列表旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

  • 内容创作和传达
    • 文本生成:这些模型可用于生成创意文本格式,例如诗歌、脚本、代码、营销文案和电子邮件草稿。
    • 聊天机器人和对话式 AI:为客户服务、虚拟助理或交互式应用提供对话界面。
    • 文本摘要:生成文本语料库、研究论文或报告的简明摘要。
  • 研究和教育
    • 自然语言处理 (NLP) 研究:这些模型可以为研究人员进行 NLP 技术实验、开发算法以及推动该领域进步奠定基础。
    • 语言学习工具:支持互动式语言学习体验,帮助纠正语法或提供写作练习。
    • 知识探索:通过生成摘要或回答有关特定主题的问题,帮助研究人员探索大量文本。

限制

  • 训练数据
    • 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏差或缺口可能会导致模型的响应受到限制。
    • 训练数据集的范围决定了模型可以有效处理的主题领域。
  • 上下文和任务复杂性
    • LLM 更擅长用清晰的提示和说明来构思的任务。开放式或高度复杂的任务可能极具挑战性。
    • 模型的性能可能会受所提供的上下文数量的影响(上下文越长,在一定程度上通常能获得更好的输出)。
  • 语言歧义和细微差别
    • 自然语言本质上非常复杂。LLM 可能难以理解细微的细微差别、讽刺性语言或象征性语言。
  • 事实准确性
    • LLM 会根据从训练数据集中学到的信息来生成响应,但它们不是知识库。它们可能会生成不正确或过时的事实陈述。
  • 常识
    • LLM 依赖语言中的统计模式。在某些情况下,他们可能缺乏运用常识推理的能力。

道德注意事项和风险

大型语言模型 (LLM) 的发展引发了一些道德问题。在创建开放模型时,我们仔细考虑了以下因素:

  • 偏差和公平性
    • 使用大规模的真实文本数据训练的 LLM 可以反映训练材料中包含的社会文化偏见。这些模型经过了仔细审查,进行了此卡片中描述的输入数据预处理和后期评估。
  • 虚假信息和滥用
    • LLM 可能会被滥用以生成虚假、误导性或有害文本。
    • 我们提供了有关如何以负责任的方式使用模型的指南,请参阅 Responsible Generative AI 工具包
  • 公开透明、诚信负责:
    • 此模型卡片总结了有关模型架构、功能、限制和评估流程的详细信息。
    • 以负责任的方式开发的开放式模型使整个 AI 生态系统中的开发者和研究人员都能使用 LLM 技术,从而为分享创新提供了机会。

识别风险并缓解风险:

  • 偏见的长久存续:建议在模型训练、微调和其他应用场景中执行持续监控(使用评估指标和人工审核)并探索去偏向技术。
  • 生成有害内容:确保内容安全的机制和准则至关重要。我们建议开发者谨慎行事,根据其具体产品政策和应用用例采取适当的内容保护措施。
  • 滥用 LLM:技术限制以及开发者和最终用户培训有助于减轻 LLM 的恶意应用攻击。此外,我们还提供各种教育资源和举报机制,以便用户举报滥用行为。Gemma 使用限制政策列出了 Gemma 模型的禁止使用行为。
  • 侵犯隐私权:模型是利用为了移除个人身份信息(个人身份信息)而滤除的数据进行训练的。我们鼓励开发者使用隐私保护技术遵守隐私权法规。

优势

在发布时,此系列模型提供了针对 Responsible AI 开发全新设计的高性能开放大语言模型实现(与规模类似的模型相比)。

事实证明,使用本文档中所述的基准评估指标,这些模型的性能优于其他规模相当的开放式模型替代方案。