Gemma Open Models

一系列先進的輕巧開放模型,採用與建立 Gemini 模型相同的研究和技術打造而成

Gemma 模型標誌

負責任的設計

這些模型整合完善的安全措施,可透過精選資料集和嚴密的微調,確保負責任且值得信賴的 AI 解決方案。

Gemma 模型標誌

效能無與倫比

Gemma 模型能以 2B 和 7B 的尺寸達到優異的基準成果,甚至能表現出一些較大的開放模型。

Gemma 模型標誌

架構彈性

有了 Keras 3.0,您就能享有與 JAX、TensorFlow 和 PyTorch 的完美相容性,讓您根據工作需求輕鬆選擇及切換架構。

基準

Gemma 為 Llama 2 和 Mistral 7B 等熱門模型採用新的尺寸標準,呈現最先進的尺寸表現。

5 張鏡頭、Top-1

慕尼黑

MMLU 基準是一項測試,評估大型語言模型在預先訓練期間獲取的知識廣度及解決問題的能力。

0 樣本

HellaSwag

HellaSwag 基準面臨的挑戰,在於語言模型如何理解及應用一般合理推理,選擇最適合故事的結尾。

0 樣本

PIP 品質確保

PIQA 基準測試會測試語言模型回答日常身體互動相關問題,進而瞭解及應用物理常識知識的能力。

0 樣本

SIQA

SIQA 基準會透過詢問使用者的行為及其社會影響,評估語言模型對社交互動和社交常識的瞭解。

0 樣本

布爾克

BoolQ 基準測試會測試語言模型在自然發生 (在非提示且不受限制的設定中產生) 的答案,是非題,並測試模型執行自然語言推論工作的能力。

部分分數

維諾格蘭德

Winogrande 基準測試會測試語言模型能否利用二元選項,解析模糊空白工作,需要一般化常見推理。

7 選項

廠商品質確保

CQA 基準可評估語言模型在選擇題回答上的成效,需要不同類型的常見知識。

OBQA

OBQA 基準測試會評估語言模型能否運用多步驟推理、常見知識與豐富文字理解能力,以公開書測驗為模型,執行進階問題回答功能的能力。

ARC-e

ARC-e 基準測試能夠以真實一流的年級、選擇題科學問題來測試語言模型的進階問題回答技巧。

ARC-c

ARC-c 基準是 ARC-e 資料集的子集,只包含因為常見的 (擷取-基數和字詞 co-ocrence) 演算法錯誤回答的問題。

5 片

TriviaQA

TriviaQA 基準組測試閱讀理解能力的三元組。

Pass@1

HumanEval

HumanEval 基準測試會評估語言模型的解決方案是否通過程式設計問題的功能單元測試,藉此測試語言模型的程式碼產生能力。

3 片

MBPP

MBPP 基準測試語言模型解決基本 Python 程式設計問題的能力,主要著重於基礎程式設計概念和標準程式庫用法。

maj@1

GSM8K

GSM8K 基準測試可測試語言模型能否解決經常需要多個推理步驟的年級中級數學問題。

4 片

MATH

MATH 基準會評估語言模型解決複雜數學題的能力、需要推理、多步驟問題,以及對數學概念的瞭解。

AGIEval

AGIEval 基準測試會利用從真實世界考試衍生的問題,評估人類智慧能力 (大學入學考試、法律考試等),藉此測試語言模型的一般情報。

BBH

BBH (BIG-Bench Hard) 基準著重於評估現有語言模型無法發揮效用的工作,並在各種推理和理解領域測試這些限制。

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b 號

64.3

Gemma

2b

42.3

米斯特

7b 號

62.5

LLAMA-2

13b

54.8

LLAMA-2

7b 號

45.3

Gemma

7b 號

81.2

Gemma

2b

71.4

米斯特

7b 號

81.0

LLAMA-2

13b

80.7

LLAMA-2

7b 號

77.2

Gemma

7b 號

81.2

Gemma

2b

77.3

米斯特

7b 號

82.2

LLAMA-2

13b

80.5

LLAMA-2

7b 號

78.8

Gemma

7b 號

51.8

Gemma

2b

49.7

米斯特

7b 號

47.0*

LLAMA-2

13b

50.3

LLAMA-2

7b 號

48.3

Gemma

7b 號

83.2

Gemma

2b

69.42

米斯特

7b 號

83.2*

LLAMA-2

13b

81.7

LLAMA-2

7b 號

77.4

Gemma

7b 號

72.3

Gemma

2b

65.4

米斯特

7b 號

74.2

LLAMA-2

13b

72.8

LLAMA-2

7b 號

69.2

Gemma

7b 號

71.3

Gemma

2b

65.3

米斯特

7b 號

66.3*

LLAMA-2

13b

67.3

LLAMA-2

7b 號

57.8

Gemma

7b 號

52.8

Gemma

2b

47.8

米斯特

7b 號

52.2

LLAMA-2

13b

57.0

LLAMA-2

7b 號

58.6

Gemma

7b 號

81.5

Gemma

2b

73.2

米斯特

7b 號

80.5

LLAMA-2

13b

77.3

LLAMA-2

7b 號

75.2

Gemma

7b 號

53.2

Gemma

2b

42.06

米斯特

7b 號

歐元

LLAMA-2

13b

49.4

LLAMA-2

7b 號

歐元

Gemma

7b 號

63.4

Gemma

2b

53.2

米斯特

7b 號

62.5

LLAMA-2

13b

79.6

LLAMA-2

7b 號

72.1

Gemma

7b 號

32.3

Gemma

2b

3,200

米斯特

7b 號

26.2

LLAMA-2

13b

18.3

LLAMA-2

7b 號

12.8

Gemma

7b 號

44.4

Gemma

2b

29.2

米斯特

7b 號

40.2*

LLAMA-2

13b

30.6

LLAMA-2

7b 號

2,080

Gemma

7b 號

46.4

Gemma

2b

17.7

米斯特

7b 號

35.4*

LLAMA-2

13b

28.7

LLAMA-2

7b 號

14.6

Gemma

7b 號

24.3

Gemma

2b

1,180

米斯特

7b 號

12.7

LLAMA-2

13b

3.9

LLAMA-2

7b 號

2.5

Gemma

7b 號

41.7

Gemma

2b

24.2

米斯特

7b 號

41.2*

LLAMA-2

13b

39.1

LLAMA-2

7b 號

29.3

Gemma

7b 號

55.1

Gemma

2b

35.2

米斯特

7b 號

56.1*

LLAMA-2

13b

39.4

LLAMA-2

7b 號

32.6

*請參閱技術報告,進一步瞭解其他方法的成效

負責任的 AI 技術開發

實踐責任

以精心挑選的資料進行預先訓練,並以安全為主要考量,使用者可透過 Gemma 模型以安全且負責任的方式開發 AI。

穩健且透明的評估

全方位的評估和公開透明的報表都存在著模型限制,因此每個應用實例都應採取負責任的態度。

以負責任的態度發展

開發人員運用負責任的生成式 AI 工具包,設計及導入負責任的 AI 技術最佳做法。

Google Cloud 圖示

已針對 Google Cloud 完成最佳化調整

在 Google Cloud 中使用 Gemma 模型後,您就能運用 Vertex AI 全代管工具或 GKE 的自行管理選項,深入自訂模型,並部署至具成本效益的彈性 AI 最佳化基礎架構。

利用 Google Cloud 抵免額加快學術研究速度

學術研究計畫日前已結束,並贈送 Google Cloud 抵免額來支援研究人員使用 Gemma 模型拓展科學探索領域。我們很高興能看到這項計畫的突破性研究。

敬請期待日後的 Google Cloud 研究進展。

加入社群

與機器學習模型社群中的其他人交流、探索及分享知識。

攜手為機器學習工程師打造最優質的 AI 助理

Kaggle 目前舉辦了一場挑戰賽,邀請參賽者使用 Gemma 模型打造最佳的 AI 助理,協助處理機器學習工程工作。我們將在 Google I/O 大會上公布得獎名單,

參加競賽
Kaggle 競賽獎盃