Gemma オープンモデル

Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量で最先端のオープンモデルのファミリー

Gemma モデルのロゴ

責任に配慮した設計

包括的な安全対策が組み込まれ、これらのモデルにより、厳選されたデータセットと厳格なチューニングを通じて、責任ある信頼できる AI ソリューションが確保されます。

Gemma モデルのロゴ

規模において比類のないパフォーマンス

Gemma モデルは、2B と 7B のサイズで優れたベンチマーク結果を達成し、一部のより大規模なオープンモデルさえも上回ります。

Gemma モデルのロゴ

フレームワーク フレキシブル

Keras 3.0 を使用すると、JAX、TensorFlow、PyTorch とのシームレスな互換性を利用できるため、タスクに応じてフレームワークを簡単に選択して切り替えられるようになります。

ベンチマーク

Gemma は、Llama 2 や Mistral 7B などの人気モデルと比較して、サイズにおいて最先端のパフォーマンスの新たな基準を打ち立てました。

5 ショット、トップ 1

MMLU

MMLU ベンチマークは、事前トレーニング中に大規模言語モデルによって習得された幅広い知識と問題解決能力を測定するテストです。

ゼロショット

HellaSwag

HellaSwag ベンチマークは、ストーリーにとって最も論理的な結末を選択することで、常識的な推論を理解し、適用する能力を言語モデルの能力に試します。

ゼロショット

PIQA

PIQA ベンチマークは、日々の身体的なやり取りに関する質問に答えることで、言語モデルの身体的な常識的な知識を理解し応用する能力をテストします。

ゼロショット

SIQA

SIQA ベンチマークは、人々の行動と社会的影響について質問することで、言語モデルの社会的インタラクションと社会的常識に対する理解度を評価します。

ゼロショット

ブールク

BoolQ ベンチマークは、(プロンプトや制約のない設定で生成される)自然発生的な「はい/いいえ」の質問に答える言語モデルの能力をテストし、モデルが現実世界の自然言語推論タスクを実行する能力をテストします。

部分スコア

ウィノグランデ

Winogrande ベンチマークは、一般化された常識的な推論を必要とする、あいまいな穴埋めタスクをバイナリ オプションによって解決する言語モデルの能力をテストします。

7 ショット

CQA

CQA ベンチマークは、多肢選択式質問応答における言語モデルのパフォーマンスを評価します。これには、さまざまな種類の常識的な知識が必要です。

OBQA

OBQA ベンチマークは、公開本試験をモデルにして、複数ステップの推論、常識的知識、リッチテキスト理解度による高度な質問応答を実行する言語モデルの能力を評価します。

ARC-e

ARC-e ベンチマークは、本物の小学校レベルの多肢選択式科学の問題で、言語モデルの高度な質問応答スキルをテストします。

ARC-C

ARC-c ベンチマークは ARC-e データセットのより焦点を絞ったサブセットで、一般的な(検索ベースと単語の共起)アルゴリズムで誤って回答された質問のみが含まれています。

5 ショット

TriviaQA

TriviaQA ベンチマークは、質問と回答の 3 つのエビデンスで読解力をテストします。

pass@1

HumanEval

HumanEval ベンチマークは、言語モデルのコード生成能力をテストするために、そのソリューションがプログラミングの問題に対する機能単体テストに合格するかどうかを評価します。

スリーショット

MBPP

MBPP ベンチマークは、基本的なプログラミングの概念と標準的なライブラリの使用方法に重点を置き、基本的な Python プログラミングの問題を解決する言語モデルの能力をテストします。

maj@1

GSM8K

GSM8K ベンチマークは、複数の推論ステップを必要とすることが多い小学校レベルの数学の問題を、言語モデルが解く能力をテストします。

4 ショット

MATH

MATH ベンチマークは、推論、複数ステップの問題解決、数学的概念の理解を必要とする複雑な数学的文章問題を解く言語モデルの能力を評価します。

AGIEval

AGIEval ベンチマークは、人間の知的能力を評価するよう設計された実際の試験(大学入学試験、法学試験など)から導き出された問題を使用して、言語モデルの一般的な知性をテストします。

BBH

BBH(BIG-Bench Hard)ベンチマークは、現在の言語モデルの能力を超えると見なされるタスクに焦点を当て、さまざまな推論と理解の領域で限界をテストします。

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7b

64.3

Gemma

2b

42.3

Mistral

7b

62.5

LLAMA-2

130 億

54.8

LLAMA-2

7b

45.3

Gemma

7b

81.2

Gemma

2b

71.4

Mistral

7b

81.0

LLAMA-2

130 億

80.7

LLAMA-2

7b

77.2

Gemma

7b

81.2

Gemma

2b

77.3

Mistral

7b

82.2

LLAMA-2

130 億

80.5

LLAMA-2

7b

78.8

Gemma

7b

51.8

Gemma

2b

49.7

Mistral

7b

47.0*

LLAMA-2

130 億

50.3

LLAMA-2

7b

48.3

Gemma

7b

83.2

Gemma

2b

6,942

Mistral

7b

83.2*

LLAMA-2

130 億

81.7

LLAMA-2

7b

77.4

Gemma

7b

72.3

Gemma

2b

65.4

Mistral

7b

74.2

LLAMA-2

130 億

72.8

LLAMA-2

7b

69.2

Gemma

7b

71.3

Gemma

2b

65.3

Mistral

7b

66.3*

LLAMA-2

130 億

67.3

LLAMA-2

7b

57.8

Gemma

7b

52.8

Gemma

2b

47.8

Mistral

7b

52.2

LLAMA-2

130 億

57.0

LLAMA-2

7b

58.6

Gemma

7b

81.5

Gemma

2b

73.2

Mistral

7b

80.5

LLAMA-2

130 億

77.3

LLAMA-2

7b

75.2

Gemma

7b

53.2

Gemma

2b

4,206

Mistral

7b

54.9

LLAMA-2

130 億

49.4

LLAMA-2

7b

45.9

Gemma

7b

63.4

Gemma

2b

53.2

Mistral

7b

62.5

LLAMA-2

130 億

79.6

LLAMA-2

7b

72.1

Gemma

7b

32.3

Gemma

2b

22.0

Mistral

7b

2,620

LLAMA-2

130 億

18.3

LLAMA-2

7b

12.8

Gemma

7b

44.4

Gemma

2b

29.2

Mistral

7b

40.2*

LLAMA-2

130 億

30.6

LLAMA-2

7b

20.8

Gemma

7b

46.4

Gemma

2b

17.7

Mistral

7b

35.4*

LLAMA-2

130 億

28.7

LLAMA-2

7b

14.6

Gemma

7b

2,430

Gemma

2b

11.8

Mistral

7b

12.7

LLAMA-2

130 億

3.9

LLAMA-2

7b

2.5

Gemma

7b

41.7

Gemma

2b

24.2

Mistral

7b

41.2*

LLAMA-2

130 億

39.1

LLAMA-2

7b

2,930

Gemma

7b

55.1

Gemma

2b

35.2

Mistral

7b

56.1*

LLAMA-2

130 億

39.4

LLAMA-2

7b

32.6

*他の手法でのパフォーマンスの詳細については技術レポートを参照

責任ある AI 開発

設計による責任

慎重にキュレートされたデータで事前にトレーニングされ、安全性を考慮して調整されているため、Gemma モデルに基づく安全で責任ある AI 開発に役立ちます。

堅牢で透明性の高い評価

包括的な評価と透明性の高い報告により、各ユースケースに対して責任あるアプローチを採用するためのモデルの限界が明らかになります。

責任ある開発の促進

責任ある生成 AI ツールキットは、責任ある AI のベスト プラクティスを設計して実装する開発者をサポートします。

Google Cloud アイコン

Google Cloud 向けに最適化

Google Cloud で Gemma モデルを使用すると、Vertex AI のフルマネージド ツールや GKE のセルフマネージド オプションを使用して、特定のニーズに合わせてモデルを詳細にカスタマイズし、AI に最適化された柔軟で費用対効果の高いインフラストラクチャにデプロイできます。

Google Cloud クレジットで学術研究を加速

学術研究プログラムは最近、応募期間を終了し、Gemma モデルを使用して科学的発見の限界を押し上げる研究者を支援するために、Google Cloud クレジットを付与しました。この取り組みから生まれた画期的な研究を楽しみにしています。

Google Cloud で研究を前進させる今後の機会にぜひご期待ください。

コミュニティに参加する

ML モデル コミュニティで他のユーザーとつながり、探索し、知識を共有します。