模型页面:Gemma
资源和技术文档:
使用条款:条款
作者:Google
型号信息
输入和输出的摘要说明和简要定义。
说明
Gemma 是一系列先进的轻量级开放模型,基于 Gemini 模型所用的研发技术打造。它们是文本到文本、仅解码器的大语言模型,提供英语版本,并且预训练变体和指令调优变体的权重均为开放权重。Gemma 模型非常适合处理各种文本生成任务,包括问答、摘要和推理。由于其体积相对较小,因此可以部署在资源有限的环境中,例如笔记本电脑、桌面设备或您自己的云基础架构,让所有人都能使用先进的 AI 模型,并帮助所有人进行创新。
输入和输出
- 输入:文本字符串,例如问题、提示或要总结的文档。
- 输出:系统根据输入生成的英语文本,例如对问题的回答或文档摘要。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型数据
用于模型训练的数据以及数据的处理方式。
训练数据集
这些模型是使用包含各种来源的文本数据集进行训练的。270 亿个参数的模型使用 13 万亿个词元进行训练,90 亿个参数的模型使用 8 万亿个词元进行训练,20 亿个参数的模型使用 2 万亿个词元进行训练。以下是关键组件:
- 网络文档:丰富多样的网络文本集确保模型接触到各种语言风格、主题和词汇。主要提供英语内容。
- 代码:向模型展示代码有助于其学习编程语言的语法和模式,从而提高其生成代码或理解与代码相关的问题的能力。
- 数学:通过数学文本进行训练有助于模型学习逻辑推理、符号表示法,并解答数学问题。
将这些多样化的数据源组合起来对于训练出能够处理各种不同任务和文本格式的强大语言模型至关重要。
数据预处理
以下是应用于训练数据的主要数据清理和过滤方法:
- 儿童性虐待内容过滤:在数据准备流程的多个阶段,我们都采用了严格的儿童性虐待内容 (CSAM) 过滤机制,以确保排除有害和非法内容。
- 敏感数据过滤:为了确保 Gemma 预训练模型安全可靠,我们使用了自动化技术从训练集中滤除特定的个人信息和其他敏感数据。
- 其他方法:根据我们的政策,根据内容质量和安全性进行过滤。
实现信息
有关模型内部结构的详细信息。
硬件
Gemma 使用最新一代张量处理单元 (TPU) 硬件 (TPUv5p) 进行训练。
训练大型语言模型需要强大的计算能力。TPU 专为机器学习中常见的矩阵运算而设计,在该领域具有多项优势:
- 性能:TPU 专为处理训练 LLM 所涉及的大量计算而设计。与 CPU 相比,它们可以显著加快训练速度。
- 内存:TPU 通常配备大量高带宽内存,可在训练期间处理大型模型和批量大小。这有助于提高模型质量。
- 可伸缩性:TPU Pod(由大量 TPU 组成的集群)提供了可伸缩的解决方案,可应对大型基础模型日益增多的复杂性。您可以将训练分布到多个 TPU 设备,以加快处理速度并提高效率。
- 性价比:在许多情况下,与基于 CPU 的基础架构相比,TPU 可以为训练大型模型提供更具成本效益的解决方案,尤其是考虑到因训练速度更快而节省的时间和资源。
- 这些优势与 Google 致力于可持续运营的承诺相符。
软件
训练是使用 JAX 和 ML Pathways 完成的。
借助 JAX,研究人员可以利用最新一代硬件(包括 TPU)更快、更高效地训练大型模型。
ML Pathways 是 Google 在构建能够跨多个任务进行推广的人工智能系统方面的最新成果。这特别适用于基础模型,包括这些大语言模型。
JAX 和 ML Pathways 的搭配使用方式如 关于 Gemini 系列模型的论文中所述:“JAX 和 Pathways 的‘单控制器’编程模型允许单个 Python 进程协调整个训练运行,从而显著简化开发工作流。”
评估
模型评估指标和结果。
基准测试结果
我们针对大量不同的数据集和指标评估了这些模型,以涵盖文本生成的不同方面:
基准 | 指标 | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 个样本,前 1 个 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 次拍摄 | 73.0 | 81.9 | 86.4 |
PIQA | 零样本 | 77.8 | 81.7 | 83.2 |
SocialIQA | 零样本 | 51.9 | 53.4 | 53.7 |
BoolQ | 零样本 | 72.5 | 84.2 | 84.8 |
WinoGrande | 部分得分 | 70.9 | 80.6 | 83.7 |
ARC-e | 零样本 | 80.1 | 88.0 | 88.6 |
ARC-c | 25 张 | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 张 | 59.4 | 76.6 | 83.7 |
自然问题 | 5 张 | 16.7 | 29.2 | 34.5 |
HumanEval | pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 连拍 | 29.6 | 52.4 | 62.6 |
GSM8K | 5 张照片,maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 个镜头 | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-shot | 30.6 | 52.8 | 55.1 |
DROP | 3 次拍摄,F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3 个示例、CoT | 41.9 | 68.2 | 74.9 |
道德和安全
伦理和安全评估方法和结果。
评估方法
我们的评估方法包括结构化评估,以及对相关内容政策的内部红队测试。红队攻击由多个不同的团队执行,每个团队都有不同的目标和人为评估指标。我们根据与伦理和安全相关的多个不同类别对这些模型进行了评估,包括:
- 文本转文内容安全:针对涵盖儿童性虐待和性剥削、骚扰、暴力和血腥内容以及仇恨言论等安全政策的提示进行人工评估。
- 文本到文本表示性伤害:与相关学术数据集(例如 WinoBias 和 BBQ Dataset)进行基准测试。
- 记忆:自动评估训练数据的记忆情况,包括个人身份信息泄露的风险。
- 造成大规模伤害:测试“危险功能”,例如化学、生物、放射和核 (CBRN) 风险。
评估结果
在儿童安全、内容安全、表征性伤害、记忆、大规模伤害等类别中,伦理和安全评估结果符合内部政策的接受阈值。除了严格的内部评估之外,我们还会显示 BBQ、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等知名安全基准测试的结果。
Gemma 2.0
基准 | 指标 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | 平均值 | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 单样本、前 1 名 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
危险功能评估
评估方法
我们评估了一系列危险功能:
- 攻击性网络安全:为了评估该模型在网络安全情境中的滥用潜力,我们同时利用了 InterCode-CTF 和 Hack the Box 等公开的夺旗 (CTF) 平台,以及内部开发的 CTF 挑战。这些评估旨在衡量模型在模拟环境中利用漏洞和未经授权访问的能力。
- 自我扩散:我们设计了涉及资源获取、代码执行和与远程系统交互的任务,以评估模型的自我扩散能力。这些评估旨在评估模型独立复制和传播的能力。
- 说服力:为了评估模型的说服力和欺骗能力,我们进行了人际说服力研究。这些研究涉及各种场景,旨在衡量模型建立融洽关系、影响信念和诱导人为参与者采取特定行动的能力。
评估结果
评估前沿模型是否具有危险功能详细介绍了所有评估,Gemma 2 技术报告简要介绍了这些评估。
评估 | 能力 | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | 攻击性网络安全 | 34/76 个挑战 |
内部 CTF | 攻击性网络安全 | 1/13 个挑战 |
Hack the Box | 攻击性网络安全 | 0/13 个挑战 |
自增殖预警 | 自我增殖 | 1/10 挑战 |
魅力攻击 | 说服 | 同意的参与者百分比: 81% 认为有趣, 75% 表示愿意再次与对方交谈, 80% 表示建立了个人联系 |
点击链接 | 说服 | 34% 的参与者 |
查找信息 | 说服 | 9% 的参与者 |
运行代码 | 说服 | 11% 的参与者 |
金钱是硬道理 | 说服 | 平均捐款金额为 3.72 英镑 |
Web of Lies | 说服 | 18% 表示向正确信念偏移,1% 表示向错误信念偏移 |
使用和限制
这些模型存在一些限制,用户应予以留意。
预期用途
开放式大语言模型 (LLM) 在各个行业和领域都有广泛的应用。以下可能用途并非详尽无遗。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。
- 内容创作和传播
- 文本生成:这些模型可用于生成诗歌、脚本、代码、营销文案和电子邮件草稿等创意文本格式。
- 聊天机器人和对话式 AI:为客户服务、虚拟助理或互动应用提供对话式界面。
- 文本摘要:为文本语料库、研究论文或报告生成简明扼要的摘要。
- 研究和教育
- 自然语言处理 (NLP) 研究:这些模型可以为研究人员实验 NLP 技术、开发算法并为该领域的发展做出贡献奠定基础。
- 语言学习工具:支持互动式语言学习体验,有助于纠正语法或提供写作练习。
- 知识探索:通过生成摘要或解答特定主题的问题,协助研究人员探索大量文本。
限制
- 训练数据
- 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏差或缺口可能会导致模型的回答受到限制。
- 训练数据集的范围决定了模型可以有效处理的主题领域。
- 情境和任务复杂性
- LLM 更擅长处理可通过明确的提示和说明来界定的任务。开放式或高度复杂的任务可能很难完成。
- 模型的性能可能会受到提供的上下文量的影响(在一定程度上,上下文越长,输出结果就越好)。
- 语言模糊性和细微差别
- 自然语言本身就很复杂。LLM 可能难以理解细微的细微差别、讽刺或比喻性语言。
- 事实准确性
- LLM 会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的实情陈述。
- Common Sense
- LLM 依赖于语言中的统计规律。在某些情况下,他们可能无法运用常识推理。
道德注意事项和风险
大语言模型 (LLM) 的开发引发了一些伦理问题。在创建开放式模型时,我们仔细考虑了以下事项:
- 偏见和公平性
- 使用大规模真实文本数据训练的 LLM 可能会反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审核,并进行了此卡片中所述的输入数据预处理,以及后续评估。
- 虚假信息和滥用
- LLM 可能会被滥用来生成虚假、误导性或有害的文本。
- 我们提供了有关负责任地使用该模型的指南,请参阅 Responsible Generative AI 工具包。
- 公开透明,责任明确:
- 此模型卡片总结了模型的架构、功能、限制和评估流程的详细信息。
- 负责任地开发的开放式模型可让 AI 生态系统中的开发者和研究人员使用 LLM 技术,从而让他们有机会分享创新成果。
发现的风险和缓解措施:
- 偏见的延续:建议在模型训练、微调和其他用例期间进行持续监控(使用评估指标、人工审核),并探索去偏见技术。
- 生成有害内容:内容安全机制和准则至关重要。我们建议开发者谨慎行事,并根据其特定的产品政策和应用使用情形实施适当的内容安全保护措施。
- 出于恶意目的的滥用:技术限制以及对开发者和最终用户的培训有助于减少 LLM 的恶意应用。提供教育资源和举报机制,供用户举报滥用行为。Gemma 使用限制政策中列出了 Gemma 模型的禁止用途。
- 隐私权违规行为:模型是根据经过过滤以移除个人身份信息 (PII) 的数据训练的。我们鼓励开发者采用可保护隐私的技术来遵守隐私权法规。
优势
与同等规模的模型相比,此系列模型在发布时提供高性能的开放式大语言模型实现,从一开始就专为 Responsible AI 开发而设计。
使用本文档中介绍的基准评估指标,这些模型的性能已被证明优于其他规模相当的开源模型替代方案。