Gemma 模型卡片

模型页面Gemma

资源和技术文档

使用条款条款

作者:Google

型号信息

输入和输出的摘要说明和简要定义。

说明

Gemma 是 Google 推出的一系列先进的轻量级开放模型, Gemini 模型采用了与打造 Gemini 模型相同的研究和技术。 它们是仅使用解码器的文本到文本模型,支持英语, 包括开放权重、预训练变体和指令调整变体。Gemma 非常适合各种文本生成任务, 问题解答、总结和推理。它们的体积相对较小 因此可以将其部署在资源有限的环境中, 笔记本电脑、台式机或您自己的云基础架构,让每个人都能访问 先进的 AI 模型,并帮助推动创新,让人人受益。

输入和输出

  • 输入:文本字符串,例如问题、提示或 汇总。
  • 输出:为响应输入而生成的英语文本,例如 作为问题的答案或文档摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

这些模型基于文本数据数据集进行训练,该数据集包含各种各样的文本数据, 共计 6 万亿个词元。以下是关键组件:

  • 网络文档:丰富多样的网络文本集合可确保模型公开 各种语言风格、主题和词汇。主要 英语内容。
  • 代码:让模型接触代码,有助于模型学习 这可提高其生成代码或 了解代码相关问题。
  • 数学:使用数学文本进行训练有助于模型学习逻辑 推理、符号表示法以及解决数学问题。

这些多样化数据源的组合对于训练强大的 这种语言模型可以处理各种不同的任务和文本, 格式。

数据预处理

以下是用于训练的主要数据清理和过滤方法 数据:

  • 儿童性虐待内容过滤:“儿童性虐待内容” (CSAM) 过滤标准原为 在数据准备过程中的多个阶段实施,以确保 排除有害和非法内容。
  • 敏感数据过滤:为了确保 Gemma 预训练模型的安全 我们使用可靠的自动化技术 信息和其他敏感数据。
  • 其他方法:根据符合 我们的政策

实现信息

模型内部的详细信息。

硬件

Gemma 在使用 Google Cloud 最新一代的 张量处理单元 (TPU) 硬件 (TPUv5e)。

训练大型语言模型需要大量的计算能力。TPU 专为机器学习中常见的矩阵运算而设计, 有几大优势:

  • 性能:TPU 专为处理大量计算而设计 大型语言模型。相较于 CPU。
  • 内存:TPU 通常配备大量高带宽内存, 用于在训练期间处理大型模型和批量大小。这可以 可以提高模型质量。
  • 可伸缩性:TPU Pod(大型 TPU 集群)为 处理大型基础模型的日益复杂化。您可以分发 跨多个 TPU 设备进行训练,以实现更快、更高效的处理。
  • 性价比高:在许多情况下,TPU 可以提供更具成本效益的 与基于 CPU 的基础架构相比,用于训练大型模型的解决方案, 尤其是在考虑因速度提升而节省的时间和资源时, 训练。
  • 这些优势与 Google 的环保运营承诺

软件

使用 JAXML Pathways 完成训练。

JAX 让研究人员能够充分利用最新一代硬件, 包括 TPU,有助于更快、更高效地训练大型模型。

ML Pathways 是 Google 为构建人工智能系统的最新举措 能够泛化到多个任务。这种方法特别适用于 基础模型,包括大型语言模型, 这些。

JAX 和机器学习开发者在线课程结合使用,如 关于 Gemini 模型系列的论文;"The 'single [单身 控制器'使用 Jax 和 Pathways 进行编程, 编排整个训练运行的过程,大大简化了 开发工作流”。

评估

模型评估指标和结果。

基准结果

我们针对大量不同的数据集对这些模型进行了评估, 指标,以涵盖文本生成的不同方面:

基准 指标 Gemma PT 2B Gemma PT 7B
MMLU 5 样本,Top-1 42.3 64.3
HellaSwag 0 样本 71.4 81.2
PIQA 0 样本 77.3 81.2
SocialIQA 0 样本 49.7 51.8
BoolQ 0 样本 69.4 83.2
WinoGrande 部分得分 65.4 72.3
CommonsenseQA 7 样本 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 样本 53.2 63.4
自然问题 5 样本 12.5 23.0
HumanEval 通过 1 22.0 32.3
MBPP 3 样本 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 样本 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
一般 44.9 56.4

道德与安全

道德与安全评估方法和结果。

评估方法

我们的评估方法包括结构化评估和内部红队判研 并测试相关内容政策红队判研 不同团队,每个团队都有不同的目标和人工评估指标。这些 根据许多不同类别对模型进行了评估, 包括:

  • 文本到文本内容安全:对涉及安全性的提示的人工评估 包括儿童性虐待和性剥削、骚扰、暴力 血腥和仇恨言论。
  • 文本到文本的表述性危害:以相关学术研究为依据进行基准化分析 如 WinoBiasBBQ 数据集
  • 记忆:自动评估训练数据的记忆,包括 个人身份信息泄露的风险
  • 大规模伤害:针对“危险功能”的测试、例如化学品、 生物、放射和核 (CBRN) 风险。

评估结果

道德和安全评估的结果在可接受的阈值范围内 符合适用于儿童和青少年等类别的内部政策 安全、内容安全、代表性伤害、记忆、大规模伤害。 除了可靠的内部评估结果外,众所周知,安全领域的成果也在发挥作用 例如:BBQ、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 如此处所示

Gemma 1.0

基准 指标 Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity 平均值 6.86 7.90
BOLD 45.57 49.08
双乌鸦 top-1 45.82 51.33
BBQ Ambig 1-shot,Top-1 62.58 92.54
烧烤消歧 top-1 54.62 71.99
Winogender top-1 51.25 日 54.17
TruthfulQA 44.84 31.81
威诺比亚 1_2 56.12 59.09
威诺比亚 2_2 91.10 92.23
Toxigen 29.77 39.59

Gemma 1.1

基准 指标 Gemma 1.1 IT 2B Gemma 1.1 IT 70 亿
RealToxicity 平均值 7.03 8.04
BOLD 47.76
双乌鸦 top-1 45.89 49.67
BBQ Ambig 1-shot,Top-1 58.97 86.06
烧烤消歧 top-1 53.90 85.08
Winogender top-1 50.14 日 57.64
TruthfulQA 44.24 45.34
威诺比亚 1_2 55.93 59.22 日
威诺比亚 2_2 89.46 89.2
Toxigen 29.64 38.75

使用和限制

这些模型存在一些限制,需要用户注意。

预期用途

开放式大型语言模型 (LLM) 在众多领域有着广泛的应用, 不同行业和领域。下面的潜在用途列表 全面。此列表旨在提供一些背景信息 模型创建者考虑作为模型一部分的 培训和发展。

  • 内容创作和交流 <ph type="x-smartling-placeholder">
      </ph>
    • 文本生成:这些模型可用于生成富有创意的文本格式 例如诗歌、脚本、代码、营销文案和电子邮件草稿。
    • 聊天机器人和对话式 AI:为客户的对话界面提供支持 虚拟助理或交互式应用等。
    • 文本摘要:生成文本语料库、研究的简明摘要 论文或报告。
  • 研究和教育 <ph type="x-smartling-placeholder">
      </ph>
    • 自然语言处理 (NLP) 研究:这些模型可用作 为研究人员实验 NLP 技术奠定了基础, 并为这一领域的发展做出贡献。
    • 语言学习工具:支持互动式语言学习体验, 帮助纠正语法或提供写作练习。
    • 知识探索:协助研究人员探索海量文字 来生成摘要或回答有关特定主题的问题。

限制

  • 训练数据 <ph type="x-smartling-placeholder">
      </ph>
    • 训练数据的质量和多样性对 模型的能力。训练数据中存在偏差或缺口可能会导致 对模型响应的限制。
    • 训练数据集的范围决定了模型可以学习的主题领域 处理方式。
  • 背景和任务的复杂性 <ph type="x-smartling-placeholder">
      </ph>
    • LLM 更擅长处理能以清晰提示为框架的任务, 操作说明。开放式任务或高度复杂的任务可能难度较大。
    • 模型的性能可能会受到所提供的上下文量的影响 (较长的上下文通常可以在一定程度上带来更好的输出)。
  • 语言歧义和细微差别 <ph type="x-smartling-placeholder">
      </ph>
    • 自然语言本质上很复杂。LLM 可能很难掌握 细微、讽刺或具象化的语言。
  • 事实准确性 <ph type="x-smartling-placeholder">
      </ph>
    • LLM 根据从他们的对话中学到的信息来生成回答。 但它们不是知识库。它们可能会 不正确或过时的事实陈述。
  • 常识 <ph type="x-smartling-placeholder">
      </ph>
    • LLM 依赖于语言中的统计模式。他们可能缺乏 在特定情况下运用常识推理。

道德注意事项和风险

大型语言模型 (LLM) 的发展引起了一些道德方面的担忧。 在创建开放式模型时,我们仔细考虑了以下方面:

  • 偏见和公平性 <ph type="x-smartling-placeholder">
      </ph>
    • 使用大规模的真实文本数据训练的 LLM 可以反映社会文化 嵌入在培训材料中的偏见。这些模型经过 审查、输入数据预处理描述和事后评估 。
  • 虚假信息和滥用 <ph type="x-smartling-placeholder">
      </ph>
    • LLM 可能会被滥用,以生成虚假、误导性或有害的文本。
    • 提供了关于如何以负责任的方式使用模型的准则,请参阅 Responsible Generative AI Toolkit
  • 公开透明、诚信负责: <ph type="x-smartling-placeholder">
      </ph>
    • 此模型卡片总结了架构 能力、限制和评估流程。
    • 以负责任的方式开发的开放式模式提供了 让开发者和研究人员能够使用 LLM 技术,从而推动创新 生成式 AI 生态系统。

发现风险并采取缓解措施:

  • 延续偏见:建议对客户进行持续监控 (使用评估指标和人工审核)和探索消除偏见 模型训练、微调和其他使用场景中用到的技术。
  • 有害内容生成:内容安全政策和准则 都是必不可少的。建议开发者谨慎行事并实施 根据具体产品政策采取适当的内容安全措施 和应用用例
  • 出于恶意目的滥用:技术限制以及开发者和 最终用户培训有助于缓解 LLM 的恶意应用行为。 可供用户举报滥用行为的教育资源和举报机制包括 。禁止使用 Gemma 模型 Gemma 使用限制政策
  • 侵犯隐私权:模型是在为了移除个人身份信息而被滤除的数据的基础上训练的 (个人身份信息)。我们鼓励开发者遵守 制定隐私保护法规和隐私保护技术。

优势

在发布时,这一系列模型提供高性能的开放式 针对 Responsible AI 针对 Responsible AI 而彻底设计的 与规模相近的模型进行比较。

这些模型使用本文档中介绍的基准评估指标, 已经证明可以优于其他规模相当的开放式模型 替代选项。