Gemma 开放模型
一系列轻量级、先进的开放式模型,采用与创建 Gemini 模型相同的研究和技术构建而成
负责任的设计
这些模型结合了全面的安全措施,可通过精选数据集和严格的调优,帮助确保负责任、值得信赖的 AI 解决方案。
在规模上实现卓越性能
Gemma 模型在大小为 20 亿和 70 亿时,均实现了出色的基准测试结果,甚至超过了一些较大的开放模型。
框架灵活
使用 Keras 3.0,您可以无缝兼容 JAX、TensorFlow 和 PyTorch,从而能够根据您的任务轻松选择和切换框架。
Gemma 模型变体
面向开发者的快速入门指南
合作伙伴快速入门指南
基准
与 Llama 2 和 Mistral 7B 等热门模型相比,Gemma 在尺寸方面的优越性能设定了新标准。
5-shot、top-1
MMLU 的
MMLU 基准是一种测试,用于衡量大语言模型在预训练期间获得的知识和问题解决能力。
0 样本
HellaSwag
HellaSwag 基准测试通过选择故事的最逻辑结局,挑战语言模型理解和应用常识推理的能力。
0 样本
毕业认证 (PIQA)
PIQA 基准测试通过回答关于日常身体互动的问题,测试语言模型理解和应用物理常识的能力。
0 样本
SIQA
SIQA 基准通过询问有关人们的行为及其社会影响的问题,来评估语言模型对社交互动和社会常识的理解。
0 样本
布尔值
BoolQ 基准测试语言模型回答自然出现(在无提示和不受限制的设置中生成)是/否问题的能力,测试模型执行真实自然语言推理任务的能力。
部分评分
维诺格兰德
Winogrande 基准测试语言模型使用二元选项解决模糊的填空任务的能力,需要通用的常识推理。
7 张照片
CQA
CQA 基准用于评估语言模型在选择题方面的性能,需要不同类型的常识知识。
OBQA
OBQA 基准用于评估语言模型在进行多步推理、常识知识和富文本理解能力方面的高级问题回答能力,其模型基于开放式图书考试。
ARC-e
ARC-e 基准可测试语言模型的高级问答技能,测试真实的年级选择题科学题。
ARC-C
ARC-c 基准是 ARC-e 数据集中更集中的子集,仅包含常见算法(检索库和字词共现)算法错误回答的问题。
5 张照片
TriviaQA
TriviaQA 基准测试通过三分之三的问答来考查理解能力。
Pass@1
HumanEval
HumanEval 基准通过评估其解决方案是否通过编程问题的功能单元测试来测试语言模型的代码生成能力。
3 拍
MBPP
MBPP 基准用于测试语言模型解决基本 Python 编程问题的能力,侧重于基本编程概念和标准库用法。
maj@1
GSM8K
GSM8K 基准测试用于测试语言模型解决小学级数学问题(通常需要多步推理)的能力。
4 张照片
MATH
MATH 基准可评估语言模型解决复杂数学文字问题的能力,需要推理能力、解决多步问题以及理解数学概念。
AGIEval
AGIEval 基准根据从现实世界考试中衍生出的问题来测试语言模型的一般智力,旨在评估人类智力(大学入学考试、法律考试等)。
BBH
BBH (BIG-Bench Hard) 基准测试关注的是超出当前语言模型能力的任务,测试它们在各种推理和理解领域的极限。
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
Gemma
70 亿
Gemma
20 亿
米斯特拉尔
70 亿
LLAMA-2
130 亿
LLAMA-2
70 亿
*有关其他方法的效果详情,请参阅技术报告
Responsible AI 开发
《从设计上保证责任》
基于精心挑选的数据进行预训练,并在顶部优化安全性,帮助基于 Gemma 模型实现安全且负责任的 AI 开发。
可靠且透明的评估
全面评估和透明的报告揭示了模型限制,以便在每个应用场景下采用负责任的方法。
支持负责任开发
Responsible Generative AI Toolkit 可帮助开发者设计和实施 Responsible AI 最佳实践。
专为 Google Cloud 优化
借助 Google Cloud 上的 Gemma 模型,您可以使用 Vertex AI 的全托管式工具或 GKE 的自行管理方案,根据您的具体需求深入自定义模型,并将其部署到灵活且经济实惠的 AI 优化型基础架构中。
利用 Google Cloud 赠金,加速学术研究
利用 Google Cloud 中的 PaliGemma 模型推进您的研究。这波新一波的多模态开放模型扩展了我们对前沿研究的支持。立即申请获得 Google Cloud 赠金,推动您的研究不断取得突破,并为科学社区的进步做出贡献。
加入社区
与机器学习模型社区中的其他人联系、探索并分享您的知识。