モデルページ: Gemma
リソースと技術ドキュメント:
利用規約: 利用規約
作成者: Google
モデル情報
入力と出力の概要と簡単な定義。
説明
Gemma は、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量で最先端の Google オープンモデルのファミリーです。これらは、テキストからテキストへのデコーダ専用の大規模言語モデルであり、英語で利用できます。オープン重み、事前トレーニング済みバリアント、指示用にチューニングされたバリアントがあります。Gemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。比較的小型であるため、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスを民主化し、すべての人のためのイノベーションを促進できます。
入力と出力
- 入力: 質問、プロンプト、要約するドキュメントなどのテキスト文字列。
- 出力: 入力に応じて生成された英語のテキスト(質問への回答、ドキュメントの要約など)。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
モデルデータ
モデルのトレーニングに使用されたデータと、データの処理方法。
トレーニング データセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされており、合計 6 兆個のトークンがあります。主なコンポーネントは次のとおりです。
- ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。主に英語のコンテンツ。
- コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習できるため、コードの生成やコード関連の質問の理解能力が向上します。
- 数学: 数学的なテキストをトレーニングすると、モデルは論理的推論、記号表現を学習し、数学的なクエリに対応できます。
これらの多様なデータソースを組み合わせることは、さまざまなタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするうえで重要です。
データの前処理
トレーニング データに適用される主なデータのクリーンアップとフィルタリングの方法は次のとおりです。
- CSAM フィルタリング: 有害で違法なコンテンツを排除するため、データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが適用されました。
- 機密データのフィルタリング: Gemma の事前トレーニング済みモデルを安全かつ信頼できるものにするため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニング セットから除外しました。
- その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づくフィルタリング。
実装情報
モデル内部の詳細。
ハードウェア
Gemma は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5e)を使用してトレーニングされました。
大規模言語モデルのトレーニングには、膨大な計算能力が必要です。TPU は、機械学習で一般的な行列演算用に特別に設計されており、このドメインで次のような利点があります。
- パフォーマンス: TPU は、LLM のトレーニングに関連する大量の計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
- メモリ: TPU には多くの場合、大量の高帯域幅メモリが搭載されているため、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
- スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、大規模な基盤モデルの複雑さの増大に対応するスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散して、より高速で効率的な処理を行うことができます。
- 費用対効果: 多くのシナリオでは、特にトレーニングの高速化による時間とリソースの節約を考慮すると、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに費用対効果の高いソリューションを提供できます。
- これらのメリットは、持続可能な運営に対する Google の取り組みと一致しています。
ソフトウェア
トレーニングには JAX と ML Pathways が使用されました。
JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模なモデルをより迅速かつ効率的にトレーニングできます。
ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。
JAX と ML Pathways は、Gemini モデル ファミリーに関する論文で説明されているように一緒に使用されます。「JAX と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」
評価
モデル評価の指標と結果。
ベンチマークの結果
これらのモデルは、テキスト生成のさまざまな側面を網羅するために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。
ベンチマーク | 指標 | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 ショット、トップ 1 | 42.3 | 64.3 |
HellaSwag | ゼロショット | 71.4 | 81.2 |
PIQA | ゼロショット | 77.3 | 81.2 |
SocialIQA | ゼロショット | 49.7 | 51.8 |
BoolQ | ゼロショット | 69.4 | 83.2 |
WinoGrande | 部分的なスコア | 65.4 | 72.3 |
CommonsenseQA | 7 ショット | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5 ショット | 53.2 | 63.4 |
自然な質問 | 5 ショット | 12.5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3 ショット | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4 ショット | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
平均 | 44.9 | 56.4 |
倫理と安全性
倫理と安全性の評価方法と結果。
評価のアプローチ
Google の評価方法には、構造化評価と、関連するコンテンツ ポリシーの内部レッドチーム テストが含まれます。レッドチームは、それぞれ異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全に関連する次のようなさまざまなカテゴリで評価されました。
- テキストからテキストへのコンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力と残虐行為、ヘイトスピーチなどの安全性に関するポリシーを対象としたプロンプトの人間による評価。
- テキストからテキストへの表現による有害性: WinoBias や BBQ Dataset などの関連する学術データセットと比較します。
- メモリ化: 個人を特定できる情報の漏洩リスクなど、トレーニング データのメモリ化の自動評価。
- 大規模な被害: 化学、生物、放射線、核(CBRN)リスクなどの「危険な機能」のテスト。
評価結果
倫理と安全性の評価の結果が、子どもの安全、コンテンツの安全性、表現による害、暗記、大規模な害などのカテゴリに関する内部ポリシーを満たす許容しきい値内である。堅牢な内部評価に加えて、BBQ、BOLD、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果もここに示されます。
Gemma 1.0
ベンチマーク | 指標 | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | 平均 | 6.86 | 7.90 |
太字 | 45.57 | 49.08 | |
CrowS-Pairs | top-1 | 45.82 | 51.33 |
BBQ の曖昧性 | 1 ショット、トップ 1 | 62.58 | 92.54 |
BBQ の不一致 | top-1 | 54.62 | 71.99 |
Winogender | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
ベンチマーク | 指標 | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | 平均 | 7.03 | 8.04 |
太字 | 47.76 | ||
CrowS-Pairs | top-1 | 45.89 | 49.67 |
BBQ の曖昧性 | 1 ショット、トップ 1 | 58.97 | 86.06 |
BBQ の不一致 | top-1 | 53.90 | 85.08 |
Winogender | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
使用と制限事項
これらのモデルには、ユーザーが認識しておくべき特定の制限があります。
用途
オープン大規模言語モデル(LLM)は、さまざまな業界やドメインで幅広く応用されています。次の使用例は、網羅的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。
- コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティング コピー、メールの下書きなど、クリエイティブなテキスト形式を生成するために使用できます。
- chatbot と Conversational AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
- 研究と教育
- 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- ナレッジ探索: 要約の生成や特定のトピックに関する質問への回答により、研究者が大量のテキストを探索できるように支援します。
制限事項
- トレーニング データ
- トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニング データセットの範囲によって、モデルが効果的に処理できる分野が決まります。
- コンテキストとタスクの複雑さ
- LLM は、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量によって影響を受ける可能性があります(一般に、コンテキストが長くなると、ある程度までは出力が改善されます)。
- 言語の曖昧性とニュアンス
- 自然言語は本来複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのが難しい場合があります。
- 事実の正確性
- LLM はトレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、知識ベースではありません。不正確な事実や古い事実が生成される可能性があります。
- 常識
- LLM は言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠落している場合があります。
倫理的な考慮事項とリスク
大規模言語モデル(LLM)の開発には、いくつかの倫理的な懸念が伴います。オープンモデルを作成するにあたり、Google は以下の点を慎重に検討しました。
- バイアスと公平性
- 大規模な現実世界のテキストデータでトレーニングされた LLM は、トレーニング マテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、このカードに記載されている入力データの前処理と事後評価が行われました。
- 誤った情報と不正使用
- LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
- 透明性と説明責任:
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと軽減策:
- バイアスの継続: モデルのトレーニング、ファインチューニング、その他のユースケースで、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことをおすすめします。
- 有害なコンテンツの生成: コンテンツの安全性のためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツ セーフティ保護対策を実装することをおすすめします。
- 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。
- プライバシー侵害: PII(個人を特定できる情報)が削除されたデータでモデルがトレーニングされています。デベロッパーは、プライバシー保護技術を使用してプライバシー規制を遵守することをおすすめします。
利点
リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデル実装を提供します。
このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデルよりも優れたパフォーマンスを提供することが示されています。