Gemma 開放模型

一系列先進的開放式模型,與建立 Gemini 模型時使用的研究和技術相同

Gemma 模型標誌

負責任的設計

這類模型採用完善的安全防護措施,可透過精選資料集和嚴謹的調整措施,確保 AI 解決方案可靠且值得信賴。

Gemma 模型標誌

效能無與倫比

Gemma 模型採用 2B 和 70 億大小的基準,達到卓越的基準測試結果,甚至能勝過一些規模較大的開啟模型。

Gemma 模型標誌

架構彈性

Keras 3.0 與 JAX、TensorFlow 和 PyTorch 完美相容,你可以根據工作需求輕鬆選擇及切換架構。

基準

與 Llama 2 和 Mistral 7B 等熱門模型相比,Gemma 設立了新的標準來衡量尺寸成效。

5 張鏡頭,Top-1

MMLU

MMLU 基準測試旨在評估大型語言模型在預先訓練期間獲取的知識與問題解決能力,

0-shot

HellaSwag

HellaSwag 基準測試將選擇最符合邏輯的故事結尾為故事,來挑戰語言模型對於理解及應用常識的能力。

0-shot

PIQA

PIQA 基準會回答日常互動相關問題,藉此測試語言模型理解及應用物理常見知識的能力。

0-shot

SI 問答時間

SIQA benchmark 旨在透過詢問使用者行動及其對社會影響的問題,評估語言模型對社交互動的理解與社會常識。

0-shot

布林值

BoolQ 基準會測試語言模型自然回答 (在未提示且無提示的設定中產生) 是非題,以及模型執行真實自然語言推論工作的能力。

部分分數

維諾格蘭德

Winogrande 基準測試會測試語言模型能否透過二元選項,解決模稜兩可的空白工作,而需要一般通用推理。

7 鏡頭

獨立品質稽核員

品質確保基準 (CQA 基準) 會評估語言模型在選擇題回答上的成效,需要不同類型的共同知識。

OBQA

OBQA 基準是用於評估語言模型的進階問題回答能力,包含多步驟推理、常見知識和 RTF 理解程度,於開放書籍測驗後模擬。

ARC-e

ARC-e 基準是中學程度、選擇題、選擇題的科學題,可測試語言模型的進階問題回答技能。

ARC-c

ARC-c 基準是 ARC-e 資料集的子集較為重點,只會包含一般 (擷取基礎和字詞共發生) 演算法錯誤回答的問題。

5 鏡頭

TriviaQA

益智問答基準測試會使用題目回答三者來測試理解程度。

Pass@1

HumanEval

HumanEval 基準測試會評估該語言模型的解決方案是否通過了程式設計問題的函式單元測試,藉此測試該語言模型的程式碼產生功能。

3 鏡頭

MBPP

MBPP 基準測試會測試語言模型解決 Python 程式設計問題的能力,並著重在基本的程式設計概念和標準程式庫使用方式。

maj@1

GSM8K

GSM8K 基準測試可測試語言模型能否解決中學級數學問題,但通常需要多個推理步驟。

4 鏡頭

MATH

MATH 基準評估的是語言模型,用於解決複雜數學應用問題的能力、需要推論、多步驟解決問題,以及理解數學概念的能力。

AGIEval

AGIEval 基準測試使用實際測驗中得出的問題,評估人類的智能能力 (大學入學考試、法律考試等),藉此測試語言模型的一般情報。

BBH

BBH (BIG-Bench Hard) 基準評估著重於目前語言模型能力所認定的工作,以及測試不同推理與領域的限制。

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

70 億

64.3

Gemma

20 億

42.3

米斯特拉爾

70 億

62.5

LLAMA-2

13b

54.8

LLAMA-2

70 億

45.3 號

Gemma

70 億

81.2

Gemma

20 億

71.4

米斯特拉爾

70 億

81.0 版

LLAMA-2

13b

80.7

LLAMA-2

70 億

77.2

Gemma

70 億

81.2

Gemma

20 億

77.3

米斯特拉爾

70 億

82.2

LLAMA-2

13b

80.5

LLAMA-2

70 億

78.8

Gemma

70 億

51.8

Gemma

20 億

49.7

米斯特拉爾

70 億

47.0*

LLAMA-2

13b

50.3

LLAMA-2

70 億

48.3 號

Gemma

70 億

83.2

Gemma

20 億

69.42

米斯特拉爾

70 億

83.2*

LLAMA-2

13b

81.7

LLAMA-2

70 億

77.4

Gemma

70 億

72.3

Gemma

20 億

65.4

米斯特拉爾

70 億

74.2

LLAMA-2

13b

72.8

LLAMA-2

70 億

69.2

Gemma

70 億

71.3

Gemma

20 億

65.3

米斯特拉爾

70 億

66.3*

LLAMA-2

13b

67.3

LLAMA-2

70 億

57.8

Gemma

70 億

52.8

Gemma

20 億

47.8

米斯特拉爾

70 億

52.2

LLAMA-2

13b

57.0

LLAMA-2

70 億

58.6

Gemma

70 億

81.5

Gemma

20 億

73.2

米斯特拉爾

70 億

80.5

LLAMA-2

13b

77.3

LLAMA-2

70 億

75.2

Gemma

70 億

53.2

Gemma

20 億

42.06

米斯特拉爾

70 億

54.9 人

LLAMA-2

13b

49.4

LLAMA-2

70 億

45.9 人

Gemma

70 億

63.4

Gemma

20 億

53.2

米斯特拉爾

70 億

62.5

LLAMA-2

13b

79.6

LLAMA-2

70 億

72.1

Gemma

70 億

32.3

Gemma

20 億

22.0

米斯特拉爾

70 億

26.2

LLAMA-2

13b

18.3 號

LLAMA-2

70 億

12.8

Gemma

70 億

44.4

Gemma

20 億

29.2

米斯特拉爾

70 億

40.2*

LLAMA-2

13b

30.6

LLAMA-2

70 億

20.8

Gemma

70 億

46.4

Gemma

20 億

17.7

米斯特拉爾

70 億

35.4*

LLAMA-2

13b

28.7

LLAMA-2

70 億

14.6 節

Gemma

70 億

24.3

Gemma

20 億

11.8

米斯特拉爾

70 億

12.7

LLAMA-2

13b

3.9

LLAMA-2

70 億

2.5

Gemma

70 億

41.7 版

Gemma

20 億

24.2

米斯特拉爾

70 億

41.2*

LLAMA-2

13b

39.1

LLAMA-2

70 億

29.3 號

Gemma

70 億

55.1

Gemma

20 億

35.2

米斯特拉爾

70 億

56.1*

LLAMA-2

13b

39.4

LLAMA-2

70 億

32.6

*請參閱技術報告,進一步瞭解搭配其他方法的成效詳情

負責任的 AI 技術開發

設計責任

以精心挑選的資料進行預先訓練,並以安全性為優先考量,讓您能使用 Gemma 模型,以安全且負責任的方式開發 AI。

可靠且透明公開的評估

全方位的評估和透明化的報告,公開模型限制,讓每個用途都採用負責任的方法。

促進負責任的開發

負責任的生成式 AI 工具包可讓開發人員設計及導入負責任的 AI 技術最佳做法。

Google Cloud 圖示

已針對 Google Cloud 完成最佳化調整

透過 Google Cloud 上的 Gemma 模型,您可以根據特定需求深入自訂模型,方法是透過 Vertex AI 的全代管工具或 GKE 的自行管理選項,將模型部署至彈性且符合成本效益的 AI 最佳化基礎架構。

運用 Google Cloud 抵免額加快學術研究速度

學術研究計畫日前已結束申請,並授予 Google Cloud 抵免額,協助研究人員使用 Gemma 模型突破科學探索。我們很期待看見這項計畫帶來的突破性研究。

敬請密切關注未來是否有機會運用 Google Cloud 推動研究進展。

加入社群

與機器學習模型社群中的其他使用者交流、探索及分享知識。