生成と調整の例については、Gemma クックブックリポジトリをご覧ください。詳細

このページは Cloud Translation API によって翻訳されました。

Gemma モデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

入力と出力の概要と簡単な定義。

説明

Gemma は、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量で最先端の Google オープンモデルのファミリーです。これらは、テキストからテキストへのデコーダ専用の大規模言語モデルであり、英語で利用できます。オープン重み、事前トレーニング済みバリアント、指示用にチューニングされたバリアントがあります。Gemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。比較的小型であるため、ノートパソコン、デスクトップ、独自のクラウドインフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスを民主化し、すべての人のためのイノベーションを促進できます。

入力と出力

入力: 質問、プロンプト、要約するドキュメントなどのテキスト文字列。
出力: 入力に応じて生成された英語のテキスト（質問への回答、ドキュメントの要約など）。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニングデータセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされており、合計 6 兆個のトークンがあります。主なコンポーネントは次のとおりです。

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。主に英語のコンテンツ。
コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習できるため、コードの生成やコード関連の質問の理解能力が向上します。
数学: 数学的なテキストをトレーニングすると、モデルは論理的推論、記号表現を学習し、数学的なクエリに対応できます。

これらの多様なデータソースを組み合わせることは、さまざまなタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするうえで重要です。

データの前処理

トレーニングデータに適用される主なデータのクリーンアップとフィルタリングの方法は次のとおりです。

CSAM フィルタリング: 有害で違法なコンテンツを排除するため、データ準備プロセスの複数の段階で厳格な CSAM（児童性的虐待のコンテンツ）フィルタリングが適用されました。
機密データのフィルタリング: Gemma の事前トレーニング済みモデルを安全かつ信頼できるものにするため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニングセットから除外しました。
その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づくフィルタリング。

実装情報

モデル内部の詳細。

ハードウェア

Gemma は、最新世代の Tensor Processing Unit（TPU）ハードウェア（TPUv5e）を使用してトレーニングされました。

大規模言語モデルのトレーニングには、膨大な計算能力が必要です。TPU は、機械学習で一般的な行列演算用に特別に設計されており、このドメインで次のような利点があります。

パフォーマンス: TPU は、LLM のトレーニングに関連する大量の計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
メモリ: TPU には多くの場合、大量の高帯域幅メモリが搭載されているため、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
スケーラビリティ: TPU Pod（TPU の大規模なクラスタ）は、大規模な基盤モデルの複雑さの増大に対応するスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散して、より高速で効率的な処理を行うことができます。
費用対効果: 多くのシナリオでは、特にトレーニングの高速化による時間とリソースの節約を考慮すると、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに費用対効果の高いソリューションを提供できます。
これらのメリットは、持続可能な運営に対する Google の取り組みと一致しています。

ソフトウェア

トレーニングには JAX と ML Pathways が使用されました。

JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模なモデルをより迅速かつ効率的にトレーニングできます。

ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。

JAX と ML Pathways は、Gemini モデルファミリーに関する論文で説明されているように一緒に使用されます。「JAX と Pathways の「単一コントローラ」プログラミングモデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面を網羅するために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

ベンチマーク	指標	Gemma PT 2B	Gemma PT 7B
MMLU	5 ショット、トップ 1	42.3	64.3
HellaSwag	ゼロショット	71.4	81.2
PIQA	ゼロショット	77.3	81.2
SocialIQA	ゼロショット	49.7	51.8
BoolQ	ゼロショット	69.4	83.2
WinoGrande	部分的なスコア	65.4	72.3
CommonsenseQA	7 ショット	65.3	71.3
OpenBookQA		47.8	52.8
ARC-e		73.2	81.5
ARC-c		42.1	53.2
TriviaQA	5 ショット	53.2	63.4
自然な質問	5 ショット	12.5	23.0
HumanEval	pass@1	22.0	32.3
MBPP	3 ショット	29.2	44.4
GSM8K	maj@1	17.7	46.4
MATH	4 ショット	11.8	24.3
AGIEval		24.2	41.7
BIG-Bench		35.2	55.1
平均		44.9	56.4

倫理と安全性

倫理と安全性の評価方法と結果。

評価のアプローチ

Google の評価方法には、構造化評価と、関連するコンテンツポリシーの内部レッドチームテストが含まれます。レッドチームは、それぞれ異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全に関連する次のようなさまざまなカテゴリで評価されました。

テキストからテキストへのコンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力と残虐行為、ヘイトスピーチなどの安全性に関するポリシーを対象としたプロンプトの人間による評価。
テキストからテキストへの表現による有害性: WinoBias や BBQ Dataset などの関連する学術データセットと比較します。
メモリ化: 個人を特定できる情報の漏洩リスクなど、トレーニングデータのメモリ化の自動評価。
大規模な被害: 化学、生物、放射線、核（CBRN）リスクなどの「危険な機能」のテスト。

評価結果

倫理と安全性の評価の結果が、子どもの安全、コンテンツの安全性、表現による害、暗記、大規模な害などのカテゴリに関する内部ポリシーを満たす許容しきい値内である。堅牢な内部評価に加えて、BBQ、BOLD、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果もここに示されます。

Gemma 1.0

ベンチマーク	指標	Gemma 1.0 IT 2B	Gemma 1.0 IT 7B
RealToxicity	平均	6.86	7.90
太字		45.57	49.08
CrowS-Pairs	top-1	45.82	51.33
BBQ の曖昧性	1 ショット、トップ 1	62.58	92.54
BBQ の不一致	top-1	54.62	71.99
Winogender	top-1	51.25	54.17
TruthfulQA		44.84	31.81
Winobias 1_2		56.12	59.09
Winobias 2_2		91.10	92.23
Toxigen		29.77	39.59

Gemma 1.1

ベンチマーク	指標	Gemma 1.1 IT 2B	Gemma 1.1 IT 7B
RealToxicity	平均	7.03	8.04
太字		47.76
CrowS-Pairs	top-1	45.89	49.67
BBQ の曖昧性	1 ショット、トップ 1	58.97	86.06
BBQ の不一致	top-1	53.90	85.08
Winogender	top-1	50.14	57.64
TruthfulQA		44.24	45.34
Winobias 1_2		55.93	59.22
Winobias 2_2		89.46	89.2
Toxigen		29.64	38.75

使用と制限事項

これらのモデルには、ユーザーが認識しておくべき特定の制限があります。

用途

オープン大規模言語モデル（LLM）は、さまざまな業界やドメインで幅広く応用されています。次の使用例は、網羅的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。

コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティングコピー、メールの下書きなど、クリエイティブなテキスト形式を生成するために使用できます。
- chatbot と Conversational AI: カスタマーサービス、仮想アシスタント、インタラクティブアプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキストコーパス、研究論文、レポートの簡潔な要約を生成します。
研究と教育
- 自然言語処理（NLP）研究: これらのモデルは、研究者が NLP 手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- ナレッジ探索: 要約の生成や特定のトピックに関する質問への回答により、研究者が大量のテキストを探索できるように支援します。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの機能に大きく影響します。トレーニングデータにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニングデータセットの範囲によって、モデルが効果的に処理できる分野が決まります。
コンテキストとタスクの複雑さ
- LLM は、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量によって影響を受ける可能性があります（一般に、コンテキストが長くなると、ある程度までは出力が改善されます）。
言語の曖昧性とニュアンス
- 自然言語は本来複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのが難しい場合があります。
事実の正確性
- LLM はトレーニングデータセットから学習した情報に基づいてレスポンスを生成しますが、知識ベースではありません。不正確な事実や古い事実が生成される可能性があります。
常識
- LLM は言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠落している場合があります。

倫理的な考慮事項とリスク

大規模言語モデル（LLM）の開発には、いくつかの倫理的な懸念が伴います。オープンモデルを作成するにあたり、Google は以下の点を慎重に検討しました。

バイアスと公平性
- 大規模な現実世界のテキストデータでトレーニングされた LLM は、トレーニングマテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、このカードに記載されている入力データの前処理と事後評価が行われました。
誤った情報と不正使用
- LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
透明性と説明責任:
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

バイアスの継続: モデルのトレーニング、ファインチューニング、その他のユースケースで、継続的なモニタリング（評価指標、人間によるレビューを使用）とバイアス除去手法の調査を行うことをおすすめします。
有害なコンテンツの生成: コンテンツの安全性のためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクトポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツセーフティ保護対策を実装することをおすすめします。
悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。
プライバシー侵害: PII（個人を特定できる情報）が削除されたデータでモデルがトレーニングされています。デベロッパーは、プライバシー保護技術を使用してプライバシー規制を遵守することをおすすめします。

利点

リリース時点で、このモデルファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデル実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデルよりも優れたパフォーマンスを提供することが示されています。