Gemma 开放模型
一系列先进的轻量级开放模型,利用与 Gemini 模型相同的技术和研究成果构建而成
隆重推出
Gemma 2
Gemma 2 经过重新设计,可在各种硬件上实现极速推理,并提供出色的性能和无与伦比的效率。
5 连拍
MMLU
MMLU 基准测试用于衡量大语言模型在预训练期间获得的知识广度和问题解决能力。
25 张
ARC-C
ARC-c 基准是 ARC-e 数据集的更专注的子集,仅包含常见(基于检索和基于词语共现)算法回答错误的问题。
5 次样本
GSM8K
GSM8K 基准测试了语言模型解决经常需要多个推理步骤的小学阶段数学问题的能力。
3-5 个镜头
AGIEval
AGIEval 基准测试使用从实际考试中衍生的问题来测试语言模型的通用智能,这些考试旨在评估人类的智力能力。
3 个镜头,CoT
BBH
BBH(BIG-Bench Hard)基准测试侧重于测试当前语言模型无法完成的任务,在各种推理和理解领域测试其极限。
3 张照片,F1
DROP
DROP 是一项阅读理解基准,需要对段落进行离散推理。
5 连拍
Winogrande
Winogrande 基准测试了语言模型使用二元选项解决模糊填空任务的能力,需要广义常识推理。
10 样本
HellaSwag
HellaSwag 基准测试通过为故事选择最符合逻辑的结局,考验语言模型理解和应用常识推理的能力。
4 个镜头
MATH
MATH 用于评估语言模型解决复杂数学应用题的能力,这类题目需要推理、多步骤解题和理解数学概念。
0 样本
ARC-e
ARC-e 基准测试使用真实的小学级科学多选题来测试语言模型的高级问答能力。
零样本
PIQA
PIQA 基准测试通过回答有关日常物理互动的问题,测试语言模型理解和应用物理常识知识的能力。
零样本
SIQA
SIQA 基准测试会通过询问与人们的行为及其社会影响有关的问题,评估语言模型对社交互动和社会常识的理解。
0 样本
Boolq
BoolQ 基准测试语言模型回答自然出现的“是/否”问题的能力,从而测试模型执行现实世界自然语言推理任务的能力。
5 连拍
TriviaQA
TriviaQA 基准测试使用题目-答案-证据三元组来测试阅读理解能力。
5 次样本
NQ
NQ(自然问题)基准测试旨在测试语言模型在整个维基百科文章中查找和理解答案的能力,从而模拟真实问答场景。
pass@1
HumanEval
HumanEval 基准测试通过评估语言模型的解决方案是否通过编程问题的功能单元测试来测试语言模型的代码生成能力。
3 次
MBPP
MBPP 基准测试会测试语言模型解决基本 Python 编程问题的能力,重点关注编程基础知识和标准库用法。
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
*这些是预训练模型的基准,如需详细了解其他方法的效果,请参阅技术报告。
Gemma 模型系列
面向开发者的快速入门指南
合作伙伴快速入门指南
Gemma 食谱集
探索一系列实用方法和示例,展示 Gemma 在各种任务中的强大功能和多样用途,例如使用 PaliGemma 为图片添加文字说明、使用 CodeGemma 生成代码,以及使用经过微调的 Gemma 模型构建聊天机器人。
负责任 AI 开发
从设计上保证负责任
这些模型使用精心挑选的数据进行预训练,并经过安全调优,有助于依托 Gemma 模型实现安全且负责任的 AI 开发。
可靠透明的评估
全面的评估和透明的报告可揭示模型的局限性,以便针对每种使用情形采用负责任的方法。
助力负责任开发
Responsible Generative AI 工具包可帮助开发者设计和实现 Responsible AI 最佳实践。
专为 Google Cloud 优化
借助 Google Cloud 上的 Gemma 模型,您可以使用 Vertex AI 的全托管式工具或 GKE 的自助选项,根据自己的具体需求对模型进行深度自定义,并将其部署到灵活且经济高效的 AI 优化型基础架构。
利用 Google Cloud 赠金加速学术研究
学术研究计划的申请期刚刚结束,该计划通过奖励 Google Cloud 赠金,支持研究人员利用 Gemma 模型突破科学探索的界限。我们期待看到这项计划带来的突破性研究成果。
加入社区
与机器学习模型社区中的其他人建立联系、探索知识并分享您的知识。