Gemma 开放模型
一系列先进的轻量级开放模型,利用与 Gemini 模型相同的技术和研究成果构建而成
隆重推出
Gemma 2
Gemma 2 经过重新设计,性能和效率均出类拔萃,经过优化,可在各种硬件上实现超快的推理。
5 样本
MMLU
MMLU 基准测试可衡量大语言模型在预训练期间获得的知识广度和问题解决能力。
25 样本
ARC-C
ARC-c 基准是 ARC-e 数据集中更具针对性的子集,仅包含常见(检索基准和字词共现)算法答错的问题。
5 样本
GSM8K
GSM8K 基准测试了语言模型解决经常需要多个推理步骤的小学阶段数学问题的能力。
3-5 样本
AGIEval
AGIEval 基准测试使用从旨在评估人类智力能力的真实考试中得到的问题,来测试语言模型的一般智力。
3 样本,哥伦比亚时间
BBH
BBH (BIG-Bench Hard) 基准测试侧重于被认为超出了当前语言模型能力的任务,会在各种推理和理解领域测试它们的极限。
3 次,F1
DROP
DROP 是一项阅读理解基准,需要对段落进行离散推理。
5 样本
威诺格兰德
Winogrande 基准测试了语言模型使用二元选项解决模糊填空任务的能力,需要广义常识推理。
10 样本
HellaSwag
HellaSwag 基准测试通过为故事选择最符合逻辑的结局,考验语言模型理解和应用常识推理的能力。
4 样本
数学
MATH 可评估语言模型解决复杂数学文字问题的能力,这需要推理、多步骤解决问题以及对数学概念的理解。
0 样本
ARC-e
ARC-e 基准测试是真实的小学水平的单选题科学题,用于测试语言模型的高级问答技能。
0 样本
PIQA
PIQA 基准测试通过回答日常身体互动问题来测试语言模型理解和应用身体常识知识的能力。
0 样本
SIQA
SIQA 基准评估了语言模型通过询问有关人们行为及其社会影响的问题,对社交互动和社会常识的理解。
0 样本
Boolq
BoolQ 基准测试语言模型回答自然出现的是/非问题的能力,从而测试模型执行现实世界的自然语言推理任务的能力。
5 样本
TriviaQA
TriviaQA 这项基准测试以三倍的“问答证据”属性来测试阅读理解能力。
5 样本
NQ
NQ(自然语言)基准测试了语言模型模拟实际问答场景、在整个维基百科文章中查找和理解答案的能力。
通过@1
HumanEval
HumanEval 基准测试通过评估语言模型的解决方案是否通过针对编程问题的功能单元测试来测试语言模型的代码生成能力。
3 样本
MBPP
MBPP 基准测试测试语言模型解决基本 Python 编程问题的能力,重点关注基本编程概念和标准库用法。
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
*这些是预训练模型的基准,请参阅技术报告,详细了解其他方法的性能。
Gemma 型号系列
面向开发者的快速入门指南
合作伙伴快速入门指南
Gemma 食谱
探索一系列实用食谱和示例,展示 Gemma 的强大功能和多功能性,例如使用 PaliGemma 制作图片标注、使用 CodeGemma 生成代码,以及使用经过微调的 Gemma 模型构建聊天机器人。
Responsible AI 开发
从设计上保证责任
使用经过精心挑选的数据进行预训练,并在最基础上针对安全性进行了调整,帮助利用 Gemma 模型以安全且负责任的方式开发 AI。
可靠透明的评估
全面的评估和透明的报告揭示了模型限制,为每个应用场景采用负责任的方法。
助力负责任的开发
Responsible AI 工具包支持开发者设计和实施 Responsible AI 最佳实践。
专为 Google Cloud 优化
借助 Google Cloud 上的 Gemma 模型,您可以使用 Vertex AI 的全代管式工具或 GKE 的自行管理方案,根据自己的具体需求对模型进行深度自定义,并将其部署到灵活且经济实惠的 AI 优化型基础架构中。
利用 Google Cloud 赠金加快学术研究
学术研究计划于近期结束了申请阶段,授予了 Google Cloud 赠金,以支持使用 Gemma 模型突破科学发现极限的研究人员。我们非常高兴看到这一计划所带来的开创性研究。
加入社区
与机器学习模型社区中的其他人交流、探索并分享您的知识。