Gemma 2 モデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

概要の説明と入力と出力の簡単な説明。

説明

Gemma は、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、Google の軽量で最先端のオープンモデルのファミリーです。テキストからテキストへのデコーダ専用の大規模言語モデルで、英語で利用できます。事前トレーニング済みバリアントと指示用調整バリアントの両方にオープン ウェイトがあります。Gemma モデルは、質問応答、要約、推論などのさまざまなテキスト生成タスクに適しています。比較的小さいサイズであるため、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなどのリソースが限られている環境にデプロイできるため、最先端の AI モデルに誰もがアクセスでき、すべての人のイノベーションを促進できます。

入力と出力

  • 入力: 質問、プロンプト、要約するドキュメントなどのテキスト文字列。
  • 出力: 質問への回答やドキュメントの要約など、入力に応じて生成された英語のテキスト。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされています。27B モデルは 13 兆のトークンでトレーニングされ、9B モデルは 8 兆のトークンでトレーニングされました。主なコンポーネントは次のとおりです。

  • ウェブ ドキュメント: ウェブテキストの多様なコレクションにより、モデルを幅広い言語スタイル、トピック、語彙に公開することが可能になります。主に英語のコンテンツです。
  • コード: モデルをコードに公開することで、モデルはプログラミング言語の構文とパターンを学習し、コードを生成する能力やコード関連の質問を理解する能力が向上します。
  • 数学: 数学テキストのトレーニングは、モデルが論理的推論とシンボリック表現を学習し、数学のクエリに対処するのに役立ちます。

これらの多様なデータソースの組み合わせは、さまざまなタスクとテキスト形式を処理できる強力な言語モデルをトレーニングするために不可欠です。

データの前処理

トレーニング データに適用される主なデータのクリーニングとフィルタリングの方法は次のとおりです。

  • CSAM フィルタリング: 有害なコンテンツと違法なコンテンツを確実に除外するために、データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが適用されました。
  • センシティブ データのフィルタリング: Gemma の事前トレーニング済みモデルの安全性と信頼性を高めるために、自動手法を使用して、トレーニング セットから特定の個人情報やその他の機密データを除外しました。
  • その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づくフィルタリング。

実装情報

モデルの内部構造の詳細。

ハードウェア

Gemma は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5p)を使用してトレーニングされています。

大規模言語モデルのトレーニングには、かなりの計算能力が必要です。ML で一般的な行列演算用に設計された TPU には、次のような利点があります。

  • パフォーマンス: TPU は、LLM のトレーニングに関連する大規模な計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
  • メモリ: TPU には、多くの場合、大容量の高帯域幅メモリが搭載されているため、トレーニング中に大規模なモデルやバッチサイズを処理できます。これにより、モデルの品質が向上します。
  • スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、複雑化する大規模な基盤モデルを処理するスケーラブルなソリューションを提供します。複数の TPU デバイスにトレーニングを分散することで、処理を高速化し、効率化できます。
  • 費用対効果: 多くのシナリオで、TPU は、特にトレーニングの高速化によって節約される時間とリソースを考慮すると、CPU ベースのインフラストラクチャと比較して、大規模モデルのトレーニングに対して費用対効果の高いソリューションを提供できます。
  • これらの利点は、サステナブルな運用に対する Google の取り組みと一致しています。

ソフトウェア

トレーニングは、JAXML パスウェイを使用して実施しました。

JAX を使用すると、研究者は TPU を含む最新世代のハードウェアを利用して、大規模モデルを迅速かつ効率的にトレーニングできます。

ML Pathways は、複数のタスクにわたって一般化できる人工インテリジェント システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。

Gemini モデル ファミリーに関する論文で説明されているように、JAX と ML の Pathway を組み合わせて使用します。「Jax と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

ベンチマーク 指標 Gemma PT 9B Gemma PT 27B
MMLU 5 ショット、トップ 1 71.3 75.2
HellaSwag 10 ショット 81.9 86.4
PIQA ゼロショット 81.7 83.2
SocialIQA ゼロショット 53.4 53.7
BoolQ ゼロショット 84.2 84.8
WinoGrande 部分スコア 80.6 83.7
ARC-e ゼロショット 88.0 88.6
ARC-c 25 ショット 68.4 71.4
TriviaQA 5 ショット 76.6 83.7
自然な質問 5 ショット 29.2 34.5
HumanEval パス@1 40.2 51.8
MBPP スリーショット 52.4 62.6
GSM8K 5 ショット、maj@1 68.6 74.0
MATH 4 ショット 36.6 42.3
AGIEval 3 ~ 5 ショット 52.8 55.1
BIG ベンチ 3 ショット、コットン 68.2 74.9

倫理と安全

倫理と安全性の評価のアプローチと結果

評価方法

Google の評価方法には、関連するコンテンツ ポリシーの体系的な評価と内部レッドチーム テストがあります。レッドチーム攻撃はいくつかの異なるチームによって実施され、それぞれに異なる目標と人間による評価指標があります。これらのモデルは、倫理と安全性に関連する次のようなさまざまなカテゴリに照らして評価されました。

  • Text-to-Text コンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力と流血、ヘイトスピーチなど、安全性ポリシーを含むプロンプトに対する人間による評価。
  • テキストからテキストへの代表的な有害性: WinoBiasBBQ データセットなどの関連する学術データセットに対してベンチマークを行います。
  • 記憶: 個人情報の漏洩リスクを含む、トレーニング データの記憶の自動評価。
  • 大規模な危害: 化学、生物、放射線、核(CBRN)のリスクなどの「危険な能力」に関するテスト。

評価結果

倫理と安全性の評価の結果は、子供の安全、コンテンツの安全性、表現上の危害、記憶、大規模な危害などのカテゴリについて、内部ポリシーを満たすための許容しきい値の範囲内にあります。堅牢な内部評価に加えて、BBQ、bold、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果を以下に示します。

Gemma 2.0

ベンチマーク 指標 Gemma 2 IT(90 億) Gemma 2 IT 27B
RealToxicity 平均 825 884
カラスペア top-1 37.47 3,667
バーベキュー アンビッグ ワンショット、トップ 1 88.58 85.99
BBQ の曖昧性除去 top-1 82.67 8,694
ウィノジェンダー top-1 7,917 7,722
TruthfulQA 5,027 5,160
ウィノビアス 1_2 7809 8,194
ウィノビアス 2_2 9,532 9,722
毒素 39:30 38.42

使用方法と制限事項

これらのモデルには、ユーザーが注意すべきいくつかの制限があります。

使用目的

オープン大規模言語モデル(LLM)には、さまざまな業界やドメインで幅広い用途があります。以下のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討したユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用して、詩、スクリプト、コード、マーケティング コピー、メールの下書きなどのクリエイティブなテキスト形式を生成できます。
    • chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話インターフェースを強化します。
    • テキスト要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法を試し、アルゴリズムを開発するための基盤として機能し、この分野の進歩に貢献します。
    • 言語学習ツール: 文法の訂正や作文の練習をサポートし、インタラクティブな言語学習体験をサポートします。
    • ナレッジ 探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大規模なテキストを探索できるようにします。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性はモデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルのレスポンスが制限される場合があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できるサブジェクト エリアが決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示で構成できるタスクに適しています。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響されます(一般的に、コンテキストが長いほど、ある時点まで出力の質が向上します)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのに苦労する可能性があります。
  • 事実の正確性
    • LLM は、トレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、ナレッジベースではありません。不正確または古い事実説明が生成される場合があります。
  • 常識
    • LLM は言語の統計パターンに依存しています。特定の状況で常識的な推論を適用できない可能性があります。

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理上の懸念があります。オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 大規模な現実世界のテキストデータでトレーニングされた LLM は、トレーニング資料に埋め込まれた社会文化的なバイアスを反映している可能性があります。これらのモデルは慎重な精査を受け、このカードで報告されている入力データの前処理と事後評価が行われています。
  • 誤った情報と誤用
    • LLM が悪用されて、誤ったテキスト、誤解を招くテキスト、有害なテキストが生成される可能性があります。
    • モデルの責任ある使用に関するガイドラインが示されています。責任ある生成 AI ツールキットをご覧ください。
  • 透明性とアカウンタビリティ:
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクとその軽減策:

  • バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)と、バイアス排除手法の探索が推奨されます。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインは不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリケーションのユースケースに基づいて、注意を払い、適切なコンテンツ安全保護対策を実装することをおすすめします。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育により、LLM の悪意のあるアプリケーションを軽減できます。不正使用を報告するための教育リソースと報告メカニズムも用意されています。Gemma モデルの使用禁止については、Gemma の使用禁止に関するポリシーをご覧ください。
  • プライバシーの侵害: モデルは、PII(個人を特定できる情報)を削除するようフィルタされたデータでトレーニングされています。デベロッパーは、プライバシー保護の手法を使用してプライバシーに関する規則を遵守することが推奨されます。

利点

リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデルの実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、他の同等のサイズのオープンモデルの代替モデルよりも優れたパフォーマンスを発揮することがわかりました。