Gemma 开放模型
一系列先进的轻量级开放模型,利用与 Gemini 模型相同的技术和研究成果构建而成
试用 Gemma 2
Gemma 2 经过重新设计,可在各种硬件上实现极速推理,并提供出色的性能和无与伦比的效率。
5 连拍
MMLU
MMLU 基准测试用于衡量大语言模型在预训练期间获得的知识广度和问题解决能力。
25 张
ARC-C
ARC-c 基准是 ARC-e 数据集的更专注的子集,仅包含常见(基于检索和基于词语共现)算法回答错误的问题。
5 连拍
GSM8K
GSM8K 基准测试语言模型解决小学数学问题的能力,这些问题通常需要多步推理。
3-5 个镜头
AGIEval
AGIEval 基准测试使用从实际考试中衍生的问题来测试语言模型的通用智能,这些考试旨在评估人类的智力能力。
3 个镜头,CoT
BBH
BBH(BIG-Bench Hard)基准测试侧重于测试当前语言模型无法完成的任务,在各种推理和理解领域测试其极限。
3 张照片,F1
DROP
DROP 是一项阅读理解基准测试,需要对段落进行离散推理。
5 连拍
Winogrande
Winogrande 基准测试语言模型解决含有二元选项的模糊填空任务的能力,需要进行泛化常识推理。
10 张照片
HellaSwag
HellaSwag 基准测试通过选择最合乎逻辑的故事结局,考验语言模型理解和运用常识推理的能力。
4 个镜头
MATH
MATH 用于评估语言模型解决复杂数学应用题的能力,这类题目需要推理、多步骤解题和理解数学概念。
零样本
ARC-e
ARC-e 基准测试使用真实的小学级科学多选题来测试语言模型的高级问答能力。
零样本
PIQA
PIQA 基准测试通过回答有关日常物理互动的问题,测试语言模型理解和应用物理常识知识的能力。
零样本
SIQA
SIQA 基准测试会通过询问与人们的行为及其社会影响有关的问题,评估语言模型对社交互动和社会常识的理解。
零样本
Boolq
BoolQ 基准测试语言模型回答自然出现的“是/否”问题的能力,从而测试模型执行真实自然语言推理任务的能力。
5 连拍
TriviaQA
TriviaQA 基准测试使用题目-答案-证据三元组来测试阅读理解能力。
5 连拍
NQ
NQ(自然问题)基准测试旨在测试语言模型在整个维基百科文章中查找和理解答案的能力,从而模拟真实问答场景。
pass@1
HumanEval
HumanEval 基准测试通过评估语言模型的解决方案是否通过编程问题的功能单元测试来测试语言模型的代码生成能力。
3 连拍
MBPP
MBPP 基准测试会测试语言模型解决基本 Python 编程问题的能力,重点关注编程基础知识和标准库用法。
100%
75%
50%
25%
0%
100%
75%
50%
25%
0%
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
LLAMA 3
8B
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
Gemma 1
25 亿
Gemma 2
26 亿
Mistral
70 亿
Gemma 1
70 亿
Gemma 2
90 亿
Gemma 2
270 亿
*这些是预训练模型的基准,如需详细了解其他方法的效果,请参阅技术报告。
研究模型
探索扩展的 Gemma 模型系列
探索 Gemmaverse
由社区创建的 Gemma 模型和工具构成的庞大生态系统,可为您的创新提供支持和灵感
解锁全球沟通
加入我们的全球 Kaggle 竞赛。针对特定语言或独特的文化方面创建 Gemma 模型变体