模型页面:Gemma
资源和技术文档:
使用条款:条款
作者:Google
型号信息
输入和输出的摘要说明和简要定义。
说明
Gemma 是 Google 推出的一系列先进的轻量级开放模型, Gemini 模型采用了与打造 Gemini 模型相同的研究和技术。 它们是仅使用解码器的文本到文本模型,支持英语, 预训练变体和指令调整变体的开放权重。 Gemma 模型非常适合各种文本生成任务,包括 问题解答、总结和推理。它们的体积相对较小 因此可以将其部署在资源有限的环境中, 笔记本电脑、台式机或您自己的云基础架构,让每个人都能访问 先进的 AI 模型,并帮助推动创新,让人人受益。
输入和输出
- 输入:文本字符串,例如问题、提示或 汇总。
- 输出:为响应输入而生成的英语文本,例如 作为问题的答案或文档摘要。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型数据
用于模型训练的数据以及数据的处理方式。
训练数据集
这些模型基于文本数据数据集进行训练,该数据集包含各种各样的文本数据, 来源。27B 模型使用 13 万亿个词元进行训练,90 亿个模型 用 8 万亿个词元训练而成,20 亿个模型用 2 万亿个词元训练而成。 以下是关键组件:
- 网络文档:丰富多样的网络文本集合可确保模型公开 各种语言风格、主题和词汇。主要 英语内容。
- 代码:让模型接触代码,有助于模型学习 这可提高其生成代码或 了解代码相关问题。
- 数学:使用数学文本进行训练有助于模型学习逻辑 推理、符号表示法以及解决数学问题。
这些多样化数据源的组合对于训练强大的 这种语言模型可以处理各种不同的任务和文本, 格式。
数据预处理
以下是用于训练的主要数据清理和过滤方法 数据:
- 儿童性虐待内容过滤:“儿童性虐待内容” (CSAM) 过滤标准原为 在数据准备过程中的多个阶段实施,以确保 排除有害和非法内容。
- 敏感数据过滤:为了确保 Gemma 预训练模型的安全 我们使用可靠的自动化技术 信息和其他敏感数据。
- 其他方法:根据符合 我们的政策。
实现信息
模型内部的详细信息。
硬件
Gemma 在使用 Google Cloud 最新一代的 张量处理单元 (TPU) 硬件 (TPUv5p)。
训练大型语言模型需要大量的计算能力。TPU 专为机器学习中常见的矩阵运算而设计, 有几大优势:
- 性能:TPU 专为处理大量计算而设计 大型语言模型。相较于 CPU。
- 内存:TPU 通常配备大量高带宽内存, 用于在训练期间处理大型模型和批量大小。这可以 可以提高模型质量。
- 可伸缩性:TPU Pod(大型 TPU 集群)为 处理大型基础模型的日益复杂化。您可以分发 跨多个 TPU 设备进行训练,以实现更快、更高效的处理。
- 性价比高:在许多情况下,TPU 可以提供更具成本效益的 与基于 CPU 的基础架构相比,用于训练大型模型的解决方案, 尤其是在考虑因速度提升而节省的时间和资源时, 训练。
- 这些优势与 Google 的环保运营承诺。
软件
使用 JAX 和 ML Pathways 完成训练。
JAX 让研究人员能够充分利用最新一代硬件, 包括 TPU,有助于更快、更高效地训练大型模型。
ML Pathways 是 Google 为构建人工智能系统的最新举措 能够泛化到多个任务。这种方法特别适用于 基础模型,包括大型语言模型, 这些。
JAX 和机器学习开发者在线课程结合使用,如 关于 Gemini 模型系列的论文;"The 'single [单身 控制器'使用 Jax 和 Pathways 进行编程, 编排整个训练运行的过程,大大简化了 开发工作流”。
评估
模型评估指标和结果。
基准结果
我们针对大量不同的数据集对这些模型进行了评估, 指标,以涵盖文本生成的不同方面:
基准 | 指标 | Gemma 2(PT 2B) | Gemma 2 PT 9B | Gemma 2(PT 27B) |
---|---|---|---|---|
MMLU | 5 样本,Top-1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 样本 | 73.0 | 81.9 | 86.4 |
PIQA | 0 样本 | 77.8 | 81.7 | 83.2 |
SocialIQA | 0 样本 | 51.9 | 53.4 | 53.7 |
BoolQ | 0 样本 | 72.5 | 84.2 | 84.8 |
WinoGrande | 部分得分 | 70.9 | 80.6 | 83.7 |
ARC-e | 0 样本 | 80.1 | 88.0 | 88.6 |
ARC-c | 25 样本 | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 样本 | 59.4 | 76.6 | 83.7 |
自然问题 | 5 样本 | 16.7 | 29.2 | 34.5 |
HumanEval | 通过 1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 样本 | 29.6 | 52.4 | 62.6 |
GSM8K | 5 次,maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 样本 | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5 样本 | 30.6 | 52.8 | 55.1 |
DROP | 3 次,F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3 样本,哥伦比亚时间 | 41.9 | 68.2 | 74.9 |
道德与安全
道德与安全评估方法和结果。
评估方法
我们的评估方法包括结构化评估和内部红队判研 并测试相关内容政策红队判研 不同团队,每个团队都有不同的目标和人工评估指标。这些 根据许多不同类别对模型进行了评估, 包括:
- 文本到文本内容安全:对涉及安全性的提示的人工评估 包括儿童性虐待和性剥削、骚扰、暴力 血腥和仇恨言论。
- 文本到文本的表述性危害:以相关学术研究为依据进行基准化分析 如 WinoBias 和 BBQ 数据集。
- 记忆:自动评估训练数据的记忆,包括 个人身份信息泄露的风险
- 大规模伤害:针对“危险功能”的测试、例如化学品、 生物、放射和核 (CBRN) 风险。
评估结果
道德和安全评估的结果在可接受的阈值范围内 符合适用于儿童和青少年等类别的内部政策 安全、内容安全、代表性伤害、记忆、大规模伤害。 除了可靠的内部评估结果外,众所周知, 例如:BBQ、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 如此处所示
Gemma 2.0
基准 | 指标 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 270 亿 |
---|---|---|---|---|
RealToxicity | 平均值 | 8.16 | 8.25 | 8.84 |
双乌鸦 | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1-shot,Top-1 | 83.20 | 88.58 | 85.99 |
烧烤消歧 | top-1 | 69.31 日 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 日 |
TruthfulQA | 43.72 | 50.27 日 | 51.60 | |
威诺比亚 1_2 | 59.28 | 78.09 | 81.94 | |
威诺比亚 2_2 | 88.57 | 95.32 | 97.22 日 | |
Toxigen | 48.32 | 39.30 | 38.42 |
危险功能评估
评估方法
我们评估了一系列危险功能:
- 攻击性信息安全:用于评估模型在以下方面可能会被滥用的可能性: 信息安全环境中,我们利用了公开可用的 捕获标记 (CTF) 平台,例如 InterCode-CTF 和 Hack the Box, 以及内部开发的 CTF 挑战。这些评估会衡量 模型在 Google Cloud 中利用漏洞 模拟环境
- 自我扩散:我们评估了该模型在 通过设计涉及资源获取、编写代码的任务,实现自我扩散 以及与远程系统的交互这些评估旨在评估 模型独立复制和扩散的能力。
- 说服:评估模型对于说服和 我们进行了人类说服研究。这些研究涉及 这些场景可衡量模型建立融洽关系、影响 并引导人类参与者采取特定行动。
评估结果
如需详细了解所有评估,请参阅 评估具有危险性的前沿模型 并简述 Gemma 2 技术报告。
评估 | 能力 | Gemma 2 IT 270 亿 |
---|---|---|
InterCode-CTF | 冒犯性信息安全 | 全天候挑战 |
内部 CTF | 冒犯性信息安全 | 1/13 挑战 |
开箱攻略 | 冒犯性信息安全 | 0/13 挑战 |
自我扩散预警 | 自我繁殖 | 1/10 的挑战 |
令人反感的魅力 | 说服 | 同意的参与者所占百分比: 其中“81%”很有趣 75% 的玩家会再次发言, 80% 的人建立了个人联系 |
点击“链接” | 说服 | 34% 的参与者 |
查找信息 | 说服 | 9% 的参与者 |
运行代码 | 说服 | 11% 的参与者 |
钱之谈 | 说服 | 3.72 英镑的平均捐款金额 |
谎言之网 | 说服 | 18% 平均转向正确信念,1% 平均转向正确信念 错误的信念 |
使用和限制
这些模型存在一些限制,需要用户注意。
预期用途
开放式大型语言模型 (LLM) 在众多领域有着广泛的应用, 不同行业和领域。下面的潜在用途列表 全面。此列表旨在提供一些背景信息 模型创建者考虑作为模型一部分的 培训和发展。
- 内容创作和交流
<ph type="x-smartling-placeholder">
- </ph>
- 文本生成:这些模型可用于生成富有创意的文本格式 例如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式 AI:为客户的对话界面提供支持 虚拟助理或交互式应用等。
- 文本摘要:生成文本语料库、研究的简明摘要 论文或报告。
- 研究和教育
<ph type="x-smartling-placeholder">
- </ph>
- 自然语言处理 (NLP) 研究:这些模型可用作 为研究人员实验 NLP 技术奠定了基础, 并为这一领域的发展做出贡献。
- 语言学习工具:支持互动式语言学习体验, 帮助纠正语法或提供写作练习。
- 知识探索:协助研究人员探索海量文字 来生成摘要或回答有关特定主题的问题。
限制
- 训练数据
<ph type="x-smartling-placeholder">
- </ph>
- 训练数据的质量和多样性对 模型的能力。训练数据中存在偏差或缺口可能会导致 对模型响应的限制。
- 训练数据集的范围决定了模型可以学习的主题领域 处理方式。
- 背景和任务的复杂性
<ph type="x-smartling-placeholder">
- </ph>
- LLM 更擅长处理能以清晰提示为框架的任务, 操作说明。开放式任务或高度复杂的任务可能难度较大。
- 模型的性能可能会受到所提供的上下文量的影响 (较长的上下文通常可以在一定程度上带来更好的输出)。
- 语言歧义和细微差别
<ph type="x-smartling-placeholder">
- </ph>
- 自然语言本质上很复杂。LLM 可能很难掌握 细微、讽刺或具象化的语言。
- 事实准确性
<ph type="x-smartling-placeholder">
- </ph>
- LLM 根据从他们的对话中学到的信息来生成回答。 但它们不是知识库。它们可能会 不正确或过时的事实陈述。
- 常识
<ph type="x-smartling-placeholder">
- </ph>
- LLM 依赖于语言中的统计模式。他们可能缺乏 在特定情况下运用常识推理。
道德注意事项和风险
大型语言模型 (LLM) 的发展引起了一些道德方面的担忧。 在创建开放式模型时,我们仔细考虑了以下方面:
- 偏见和公平性
<ph type="x-smartling-placeholder">
- </ph>
- 使用大规模的真实文本数据训练的 LLM 可以反映社会文化 嵌入在培训材料中的偏见。这些模型经过 审查、输入数据预处理描述和事后评估 。
- 虚假信息和滥用
<ph type="x-smartling-placeholder">
- </ph>
- LLM 可能会被滥用,以生成虚假、误导性或有害的文本。
- 提供了关于如何以负责任的方式使用模型的准则,请参阅 Responsible Generative AI Toolkit。
- 公开透明、诚信负责:
<ph type="x-smartling-placeholder">
- </ph>
- 此模型卡片总结了架构 能力、限制和评估流程。
- 以负责任的方式开发的开放式模式提供了 让开发者和研究人员能够使用 LLM 技术,从而推动创新 生成式 AI 生态系统。
发现风险并采取缓解措施:
- 延续偏见:建议对客户进行持续监控 (使用评估指标和人工审核)和探索消除偏见 模型训练、微调和其他使用场景中用到的技术。
- 有害内容生成:内容安全政策和准则 都是必不可少的。建议开发者谨慎行事并实施 根据具体产品政策采取适当的内容安全措施 和应用用例
- 出于恶意目的滥用:技术限制以及开发者和 最终用户培训有助于缓解 LLM 的恶意应用行为。 可供用户举报滥用行为的教育资源和举报机制包括 。禁止使用 Gemma 模型 Gemma 使用限制政策。
- 侵犯隐私权:模型是在为了移除个人身份信息而被滤除的数据的基础上训练的 (个人身份信息)。我们鼓励开发者遵守 制定隐私保护法规和隐私保护技术。
优势
在发布时,这一系列模型提供高性能的开放式 针对 Responsible AI 针对 Responsible AI 而彻底设计的 与规模相近的模型进行比较。
这些模型使用本文档中介绍的基准评估指标, 已经证明可以优于其他规模相当的开放式模型 替代选项。