Gemma 开放模型

一系列轻量级、先进的开放式模型,采用与创建 Gemini 模型相同的研究和技术构建而成

Gemma models 徽标

负责任的设计

这些模型结合了全面的安全措施,可通过精选数据集和严格的调优,帮助确保负责任、值得信赖的 AI 解决方案。

Gemma models 徽标

在规模上实现卓越性能

Gemma 模型在大小为 20 亿和 70 亿时,均实现了出色的基准测试结果,甚至超过了一些较大的开放模型。

Gemma models 徽标

框架灵活

使用 Keras 3.0,您可以无缝兼容 JAX、TensorFlow 和 PyTorch,从而能够根据您的任务轻松选择和切换框架。

基准

与 Llama 2 和 Mistral 7B 等热门模型相比,Gemma 在尺寸方面的优越性能设定了新标准。

5-shot、top-1

MMLU 的

MMLU 基准是一种测试,用于衡量大语言模型在预训练期间获得的知识和问题解决能力。

0 样本

HellaSwag

HellaSwag 基准测试通过选择故事的最逻辑结局,挑战语言模型理解和应用常识推理的能力。

0 样本

毕业认证 (PIQA)

PIQA 基准测试通过回答关于日常身体互动的问题,测试语言模型理解和应用物理常识的能力。

0 样本

SIQA

SIQA 基准通过询问有关人们的行为及其社会影响的问题,来评估语言模型对社交互动和社会常识的理解。

0 样本

布尔值

BoolQ 基准测试语言模型回答自然出现(在无提示和不受限制的设置中生成)是/否问题的能力,测试模型执行真实自然语言推理任务的能力。

部分评分

维诺格兰德

Winogrande 基准测试语言模型使用二元选项解决模糊的填空任务的能力,需要通用的常识推理。

7 张照片

CQA

CQA 基准用于评估语言模型在选择题方面的性能,需要不同类型的常识知识。

OBQA

OBQA 基准用于评估语言模型在进行多步推理、常识知识和富文本理解能力方面的高级问题回答能力,其模型基于开放式图书考试。

ARC-e

ARC-e 基准可测试语言模型的高级问答技能,测试真实的年级选择题科学题。

ARC-C

ARC-c 基准是 ARC-e 数据集中更集中的子集,仅包含常见算法(检索库和字词共现)算法错误回答的问题。

5 张照片

TriviaQA

TriviaQA 基准测试通过三分之三的问答来考查理解能力。

Pass@1

HumanEval

HumanEval 基准通过评估其解决方案是否通过编程问题的功能单元测试来测试语言模型的代码生成能力。

3 拍

MBPP

MBPP 基准用于测试语言模型解决基本 Python 编程问题的能力,侧重于基本编程概念和标准库用法。

maj@1

GSM8K

GSM8K 基准测试用于测试语言模型解决小学级数学问题(通常需要多步推理)的能力。

4 张照片

MATH

MATH 基准可评估语言模型解决复杂数学文字问题的能力,需要推理能力、解决多步问题以及理解数学概念。

AGIEval

AGIEval 基准根据从现实世界考试中衍生出的问题来测试语言模型的一般智力,旨在评估人类智力(大学入学考试、法律考试等)。

BBH

BBH (BIG-Bench Hard) 基准测试关注的是超出当前语言模型能力的任务,测试它们在各种推理和理解领域的极限。

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

70 亿

64.3 岁

Gemma

20 亿

42.3

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

81.2

Gemma

20 亿

土耳其里拉

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

77.2 岁

Gemma

70 亿

81.2

Gemma

20 亿

77.3 岁

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

土耳其里拉

Gemma

20 亿

土耳其里拉

米斯特拉尔

70 亿

47.0*

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

83.2

Gemma

20 亿

69.42 岁

米斯特拉尔

70 亿

83.2*

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

72.3 岁

Gemma

20 亿

65.4 岁

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

69.2 岁

Gemma

70 亿

71.3 岁

Gemma

20 亿

65.3 岁

米斯特拉尔

70 亿

66.3*

LLAMA-2

130 亿

67.3 岁

LLAMA-2

70 亿

57.8 岁

Gemma

70 亿

土耳其里拉

Gemma

20 亿

土耳其里拉

米斯特拉尔

70 亿

52.2 岁

LLAMA-2

130 亿

土耳其里拉

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

81.5

Gemma

20 亿

73.2 岁

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

77.3 岁

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

53.2 岁

Gemma

20 亿

42.06

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

49.4 岁

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

63.4 岁

Gemma

20 亿

53.2 岁

米斯特拉尔

70 亿

土耳其里拉

LLAMA-2

130 亿

79.6

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

32.3 岁

Gemma

20 亿

土耳其里拉

米斯特拉尔

70 亿

26.2 岁

LLAMA-2

130 亿

18.3 岁

LLAMA-2

70 亿

12.8

Gemma

70 亿

土耳其里拉

Gemma

20 亿

29.2

米斯特拉尔

70 亿

40.2*

LLAMA-2

130 亿

30.6

LLAMA-2

70 亿

20.8 岁

Gemma

70 亿

土耳其里拉

Gemma

20 亿

17.7

米斯特拉尔

70 亿

35.4*

LLAMA-2

130 亿

28.7 岁

LLAMA-2

70 亿

土耳其里拉

Gemma

70 亿

24.3 岁

Gemma

20 亿

11.8

米斯特拉尔

70 亿

12.7

LLAMA-2

130 亿

3.9

LLAMA-2

70 亿

2.5

Gemma

70 亿

土耳其里拉

Gemma

20 亿

24.2 岁

米斯特拉尔

70 亿

41.2*

LLAMA-2

130 亿

39.1 岁

LLAMA-2

70 亿

29.3 岁

Gemma

70 亿

55.1

Gemma

20 亿

35.2 岁

米斯特拉尔

70 亿

56.1*

LLAMA-2

130 亿

39.4 岁

LLAMA-2

70 亿

32.6

*有关其他方法的效果详情,请参阅技术报告

Responsible AI 开发

《从设计上保证责任》

基于精心挑选的数据进行预训练,并在顶部优化安全性,帮助基于 Gemma 模型实现安全且负责任的 AI 开发。

可靠且透明的评估

全面评估和透明的报告揭示了模型限制,以便在每个应用场景下采用负责任的方法。

支持负责任开发

Responsible Generative AI Toolkit 可帮助开发者设计和实施 Responsible AI 最佳实践。

Google Cloud 图标

专为 Google Cloud 优化

借助 Google Cloud 上的 Gemma 模型,您可以使用 Vertex AI 的全托管式工具或 GKE 的自行管理方案,根据您的具体需求深入自定义模型,并将其部署到灵活且经济实惠的 AI 优化型基础架构中。

利用 Google Cloud 赠金,加速学术研究

学术研究项目近期已结束申请期,授予 Google Cloud 赠金,用于支持研究人员使用 Gemma 模型推动科学发现的极限。我们非常期待看到该计划带来的突破性研究。

敬请关注未来的机会,利用 Google Cloud 推进您的研究。

加入社区

与机器学习模型社区中的其他人联系、探索并分享您的知识。

竞相打造最适合机器学习工程师的 AI 助理

Kaggle 正在举办竞赛,向参与者发起挑战,要求使用 Gemma 模型为机器学习工程任务构建出色的 AI 助理。获奖者名单将在 Google I/O 大会上公布。

加入竞赛
Kaggle 比赛奖杯