Gemma Open モデル

Gemini モデルの作成に使用されたのと同じ研究とテクノロジーを基に構築された、軽量で最先端のオープンモデルのファミリーです。

Gemma モデルのロゴ

設計における責任

これらのモデルには包括的な安全対策が組み込まれており、厳選されたデータセットと厳密なチューニングを通じて、責任ある信頼できる AI ソリューションを確保できます。

Gemma モデルのロゴ

規模において比類のないパフォーマンス

Gemma モデルは、2B と 7B のサイズで優れたベンチマーク結果を達成し、一部の大規模なオープンモデルよりも優れています。

Gemma モデルのロゴ

フレームワーク フレキシブル

Keras 3.0 を使用すると、JAX、TensorFlow、PyTorch とシームレスに互換性があるため、タスクに応じてフレームワークを簡単に選択して切り替えられます。

ベンチマーク

Gemma は、Llama 2 や Mistral 7B などの人気モデルと比較して、サイズ面で最先端のパフォーマンスを実現します。

5 ショット、トップ 1

MMLU

MMLU ベンチマークは、事前トレーニング中に大規模言語モデルが習得した知識の幅と問題解決能力を測定するテストです。

ゼロショット

HellaSwag

HellaSwag ベンチマークは、ストーリーの最も論理的なエンディングを選択することで、言語モデルが常識的な推論を理解し、適用する能力に挑戦します。

ゼロショット

PIQA

PIQA ベンチマークでは、言語モデルの能力をテストします。このテストでは、日常的な身体的インタラクションに関する質問に答えることで、身体的な常識的な知識を理解し、応用する能力を評価します。

ゼロショット

SIQA

SIQA ベンチマークでは、人々の行動とその社会的影響について質問することで、言語モデルの社会的交流と社会的常識に関する理解度を評価します。

ゼロショット

ブールク

BoolQ ベンチマークでは、自然に発生する(プロンプトや制約のない設定で生成された)はい/いいえの質問に対して、言語モデルが回答する能力をテストし、モデルが現実世界の自然言語推論タスクを行う能力をテストします。

部分的スコアリング

ウィノグランデ

Winogrande ベンチマークでは、一般化された常識的な推論を必要とするバイナリ オプションを使用して、あいまいな穴埋めタスクを解決する言語モデルの能力をテストします。

7 枚

CQA

CQA ベンチマークでは、多肢選択式の質問応答における言語モデルの性能を評価します。これには、さまざまな常識的な知識が必要です。

OBQA

OBQA ベンチマークでは、オープンブック試験をモデルにした、言語モデルの多段階推論、常識的な知識、リッチテキストの理解度に基づく高度な質問応答能力を評価します。

ARC-e

ARC-e ベンチマークでは、小学校レベルの多肢選択式の科学問題を用いて、言語モデルの高度な質問応答スキルをテストします。

ARC-C

ARC-c ベンチマークは、ARC-e データセットのより焦点を絞ったサブセットで、一般的な(検索ベースと単語の共起)アルゴリズムで正しく回答されない質問のみが含まれています。

5 枚

TriviaQA

TriviaQA ベンチマークでは、質問、回答、裏付けとなる 3 つの質問で読解力をテストします。

pass@1

HumanEval

HumanEval ベンチマークは、言語モデルのコード生成能力をテストするために、そのソリューションがプログラミング問題の機能単体テストに合格しているかどうかを評価します。

3 ショット

MBPP

MBPP ベンチマークでは、基本的なプログラミングの概念と標準ライブラリの使用方法に焦点を当て、基本的な Python プログラミングの問題を解決する言語モデルの能力をテストします。

maj@1

GSM8K

GSM8K ベンチマークでは、複数の推論ステップが必要になることが多い小学校レベルの数学の問題を解決する言語モデルの能力をテストします。

4 ショット

MATH

MATH ベンチマークでは、推論、複数ステップの問題解決、数学的概念の理解を必要とする、複雑な数学の文章問題を解く言語モデルの能力を評価します。

AGIEval

AGIEval ベンチマークは、人間の知的能力を評価するように設計された実際の試験(大学入学試験、法科試験など)から派生した問題を使用して、言語モデルの一般的な知能をテストします。

BBH

BBH(BIG-Bench Hard)ベンチマークは、現在の言語モデルの能力を超えると考えられるタスクに焦点を当て、さまざまな推論と理解の分野で限界をテストします。

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

70 億

6,430 万台

Gemma

2b

42.3

Mistral

70 億

6,250

LLAMA-2

130 億

5,480

LLAMA-2

70 億

4,530 万台

Gemma

70 億

8,120 万台

Gemma

2b

7,140 万台

Mistral

70 億

8,100

LLAMA-2

130 億

8,070 万台

LLAMA-2

70 億

7,720 万台

Gemma

70 億

8,120 万台

Gemma

2b

7,730 万台

Mistral

70 億

8,220

LLAMA-2

130 億

80.5

LLAMA-2

70 億

7,880

Gemma

70 億

5,180 万台

Gemma

2b

4,970 万台

Mistral

70 億

47.0*

LLAMA-2

130 億

5,030 万台

LLAMA-2

70 億

4,830

Gemma

70 億

8,320

Gemma

2b

6,942 万台

Mistral

70 億

83.2*

LLAMA-2

130 億

8,170 万台

LLAMA-2

70 億

7,740 万台

Gemma

70 億

7,230

Gemma

2b

6,540 万台

Mistral

70 億

7,420

LLAMA-2

130 億

7,280 万台

LLAMA-2

70 億

69.2

Gemma

70 億

7,130 万台

Gemma

2b

6,530 万台

Mistral

70 億

66.3*

LLAMA-2

130 億

6,730 万台

LLAMA-2

70 億

5,780 万台

Gemma

70 億

5,280

Gemma

2b

4,780 万台

Mistral

70 億

5,220 万台

LLAMA-2

130 億

5,700

LLAMA-2

70 億

5,860

Gemma

70 億

81.5

Gemma

2b

7,320

Mistral

70 億

80.5

LLAMA-2

130 億

7,730 万台

LLAMA-2

70 億

7,520 万台

Gemma

70 億

53.2

Gemma

2b

4,206 万台

Mistral

70 億

5,490

LLAMA-2

130 億

4,940 万台

LLAMA-2

70 億

45.9

Gemma

70 億

6,340 万台

Gemma

2b

53.2

Mistral

70 億

6,250

LLAMA-2

130 億

79.6

LLAMA-2

70 億

7,210 万台

Gemma

70 億

3,230 万台

Gemma

2b

22.0

Mistral

70 億

2,620 万台

LLAMA-2

130 億

1,830 万台

LLAMA-2

70 億

12.8

Gemma

70 億

4,440 万台

Gemma

2b

29.2

Mistral

70 億

40.2*

LLAMA-2

130 億

30.6

LLAMA-2

70 億

2,080 万台

Gemma

70 億

4,640 万台

Gemma

2b

17.7

Mistral

70 億

35.4*

LLAMA-2

130 億

2,870 万台

LLAMA-2

70 億

14.6

Gemma

70 億

2,430 万台

Gemma

2b

11.8

Mistral

70 億

12.7

LLAMA-2

130 億

3.9

LLAMA-2

70 億

2.5

Gemma

70 億

4,170 万台

Gemma

2b

24.2

Mistral

70 億

41.2*

LLAMA-2

130 億

3,910 万台

LLAMA-2

70 億

2,930 万台

Gemma

70 億

55.1

Gemma

2b

3,520 万台

Mistral

70 億

56.1*

LLAMA-2

130 億

3,940 万台

LLAMA-2

70 億

32.6

*他の手法でのパフォーマンスの詳細については、技術レポートをご覧ください

責任ある AI の開発

責任を重視した設計

慎重にキュレートされたデータで事前にトレーニングされ、安全性を重視してチューニングされているため、Gemma モデルに基づく安全で責任ある AI 開発を支援します。

堅牢で透明性の高い評価

包括的な評価と透明性の高いレポートにより、各ユースケースに対して責任あるアプローチを採用するためのモデルの限界が明らかになります。

責任ある開発を支援

責任ある生成 AI ツールキットは、デベロッパーが責任ある AI のベスト プラクティスを設計して実装できるよう支援します。

Google Cloud アイコン

Google Cloud 向けに最適化

Google Cloud の Gemma モデルでは、Vertex AI のフルマネージド ツールまたは GKE のセルフマネージド オプションを使用して特定のニーズに合わせてモデルを細かくカスタマイズし、柔軟で費用対効果の高い AI に最適化されたインフラストラクチャにデプロイできます。

Google Cloud クレジットで学術研究を加速

先日、学術研究プログラムが申請期間を終了し、Gemma モデルを使用して科学的発見の限界を押し広げる研究者を支援するために Google Cloud クレジットが授与されました。この取り組みから生まれる画期的な研究を楽しみにしています。

今後も Google Cloud で研究を進める機会をぜひご期待ください。

コミュニティに参加

ML モデル コミュニティの他のユーザーとつながり、探求し、知識を共有できます。

ML エンジニアに最適な AI アシスタントの構築を競い合う

Kaggle は、参加者に Gemma モデルを使用して ML エンジニアリング タスクに最適な AI アシスタントを構築するコンテストを主催しています。受賞者は Google I/O で発表されます。

コンペティションに参加する
Kaggle コンテストのトロフィー