Gemma のモデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

入力と出力の要約説明と簡単な定義。

説明

Gemma は、Google による軽量で最先端のオープンモデルのファミリーであり、Gemini モデルの作成に使用されたのと同じ研究とテクノロジーによって構築されています。これらは、テキストからテキストへのデコーダのみの大規模言語モデルで、英語で利用可能で、オープン ウェイト、事前トレーニング済みバリアント、指示調整済みバリアントを備えています。Gemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。比較的小さいサイズであるため、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなど、リソースが限られている環境にデプロイでき、最先端の AI モデルへのアクセスを民主化し、すべての人のイノベーションを促進できます。

入力と出力

  • 入力: 質問、プロンプト、要約対象のドキュメントなどのテキスト文字列。
  • 出力: 質問の回答やドキュメントの要約など、入力に応じて生成された英語のテキスト。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、合計 6 兆のトークンを含むさまざまなソースを含むテキストデータのデータセットでトレーニングされました。主なコンポーネントは次のとおりです。

  • ウェブ ドキュメント: 多様なウェブテキストのコレクションにより、幅広い言語スタイル、トピック、語彙にモデルを公開できます。主に英語のコンテンツです
  • コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習し、コードを生成する能力や、コード関連の質問を理解する能力が向上します。
  • 数学: 数学的なテキストをトレーニングすることで、モデルが論理的な推論や記号表現を学習し、数学的なクエリに対処できるようになります。

これらの多様なデータソースの組み合わせは、さまざまなタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするために不可欠です。

データの前処理

トレーニング データに適用される主なデータ クリーニングとフィルタリングの方法を以下に示します。

  • CSAM フィルタリング: 有害なコンテンツや違法なコンテンツを確実に除外するために、データ準備プロセスの複数の段階で、厳格な CSAM(児童性的虐待のコンテンツ)のフィルタリングが適用されています。
  • センシティブ データのフィルタリング: Gemma の事前トレーニング済みモデルの安全性と信頼性を高めるために、トレーニング セットから特定の個人情報やその他のセンシティブ データをフィルタリングするために自動化された手法が使用されました。
  • その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

実装情報

モデルの内部構造に関する詳細。

ハードウェア

Gemma は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5e)を使用してトレーニングされています。

大規模言語モデルのトレーニングには、かなりの計算能力が必要です。ML で一般的な行列演算用に特別に設計された TPU には、この分野でいくつかの利点があります。

  • パフォーマンス: TPU は、LLM のトレーニングに関連する大量の計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
  • メモリ: TPU には多くの場合、大量の高帯域幅メモリが搭載されており、トレーニング中に大規模なモデルやバッチサイズを処理できます。これはモデルの品質向上につながります。
  • スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、複雑さが増す大規模な基盤モデルに対処するためのスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散させることで、処理をより高速かつ効率的に行うことができます。
  • 費用対効果: 多くのシナリオでは、特にトレーニングの高速化によって節約される時間とリソースを考慮すると、TPU は CPU ベースのインフラストラクチャと比較して、大規模モデルのトレーニングに対してより費用対効果の高いソリューションを提供できます。
  • これらの利点は、サステナブルな運用に対する Google の取り組みと一致しています。

ソフトウェア

トレーニングには JAXML Pathways を使用。

JAX を使用すると、研究者は TPU を含む最新世代のハードウェアを利用して、大規模モデルを迅速かつ効率的にトレーニングできます。

ML Pathways は、複数のタスクを一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。

JAX と ML Pathways は、Gemini モデル ファミリーに関する論文で説明されているように、一緒に使用されます。Jax と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

ベンチマーク 指標 Gemma PT 2B Gemma PT 7B
MMLU 5 ショット、トップ 1 42.3 6,430 万台
HellaSwag ゼロショット 7,140 万台 8,120 万台
PIQA ゼロショット 7,730 万台 8,120 万台
SocialIQA ゼロショット 4,970 万台 5,180 万台
BoolQ ゼロショット 6,940 万台 8,320
WinoGrande 部分スコア 6,540 万台 7,230
CommonsenseQA 7 ショット 6,530 万台 7,130 万台
OpenBookQA 4,780 万台 5,280
ARC-e 7,320 81.5
ARC-c 4,210 万台 53.2
TriviaQA 5 ショット 53.2 6,340 万台
自然な質問 5 ショット 12.5 23.0
HumanEval パス@1 22.0 3,230 万台
MBPP 3 ショット 29.2 4,440 万台
GSM8K メジャー@1 17.7 4,640 万台
MATH 4 ショット 11.8 2,430 万台
AGIEval 24.2 4,170 万台
BIG-Bench 3,520 万台 55.1
普通 4,490 5,640

倫理と安全

倫理と安全性の評価のアプローチと結果。

評価方法

Google の評価方法には、体系的な評価と、関連するコンテンツ ポリシーに関する内部レッドチーム テストがあります。レッドチームは、それぞれ異なる目標と人間による評価指標を持つ多くのチームによって実施されました。これらのモデルは、次のような倫理と安全性に関連するさまざまなカテゴリに対して評価されました。

  • Text-to-Text コンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力や残虐行為、ヘイトスピーチなどの安全ポリシーに関するプロンプトに対する人間による評価。
  • Text-to-Text Representational Harms: WinoBiasBBQ データセットなどの関連する学術データセットに対してベンチマークを行います。
  • 記憶: 個人を特定できる情報の漏えいのリスクなど、トレーニング データの記憶の自動評価。
  • 大規模な危害: 化学、生物、放射線、核(CBRN)リスクなどの「危険な能力」をテストします。

評価結果

倫理と安全性の評価の結果は、子どもの安全、コンテンツの安全性、表現上の危害、記憶、大規模な危害などのカテゴリに関する社内ポリシーを満たすための許容しきい値の範囲内です。堅牢な内部評価に加え、BBQ、bold、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果もここに表示されています。

Gemma 1.0

ベンチマーク 指標 Gemma 1.0 IT 2B ジェマ 1.0 IT 7B
RealToxicity 平均 686 790 万台
太字 4,557 万台 4,908 万台
カラスペア top-1 4,582 万台 5,133 万台
BBQ Ambig ワンショット、トップ 1 6,258 万台 9,254 万台
BBQ の曖昧性除去 top-1 5,462 万台 7,199
ウィノジェンダー top-1 5,125 万台 5,417 万台
TruthfulQA 4,484 万台 3,181 万台
Winobias 1_2 5,612 万台 5,909 万台
Winobias 2_2 9,110 万台 9,223 万台
Toxigen 29.77 3,959 万台

Gemma 1.1

ベンチマーク 指標 Gemma 1.1 IT 2B ジェマ 1.1 IT 7B
RealToxicity 平均 703 万台 804 万台
太字 4,776 万台
カラスペア top-1 4,589 万台 4,967 万台
BBQ Ambig ワンショット、トップ 1 5,897 万台 8,606
BBQ の曖昧性除去 top-1 5,390 万台 8,508 万台
ウィノジェンダー top-1 5,014 万台 5,764 万台
TruthfulQA 4,424 万台 4,534 万台
Winobias 1_2 5,593 万台 5,922 万台
Winobias 2_2 8,946 万台 89.2
Toxigen 2,964 万台 3,875 万台

使用と制限事項

これらのモデルには、ユーザーが認識しておく必要がある特定の制限があります。

使用目的

オープン大規模言語モデル(LLM)は、さまざまな業界や分野で幅広い用途に利用されています。次のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した可能性のあるユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用すると、詩、スクリプト、コード、マーケティング コピー、メールの下書きなどのクリエイティブなテキスト形式を生成できます。
    • chatbot と対話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話インターフェースを強化します。
    • テキスト要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。
    • 言語学習ツール: 文法の訂正の支援や文章作成の練習により、インタラクティブな言語学習体験をサポートします。
    • ナレッジ探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索できるようにします。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルのレスポンスが制限される可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できるサブジェクト エリアが決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示で構成できるタスクに適しています。自由回答形式のタスクや非常に複雑なタスクは、簡単なことではありません。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響されます(一般的に、コンテキストが長くなるほど、特定のポイントまでより良い出力が得られます)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのに苦労することがあります。
  • 事実の正確性
    • LLM は、トレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、ナレッジベースではありません。不正確または古い事実の記述が生成される可能性があります。
  • Common Sense
    • LLM は言語の統計パターンに依存している。特定の状況では常識的な推論を適用する能力が欠けている可能性があります。

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発では、いくつかの倫理的懸念が生じます。オープンモデルを作成する際は、次の点について慎重に検討しました。

  • バイアスと公平性
    • 実際の大規模なテキストデータでトレーニングされた LLM には、トレーニング資料に埋め込まれた社会文化的バイアスが反映されることがあります。これらのモデルには、このカードに記載されている入力データの前処理と事後評価が慎重に行われています。
  • 誤った情報と不正使用
    • LLM は、虚偽のテキスト、誤解を招くテキスト、有害なテキストを生成するために悪用される可能性があります。
    • モデルを責任を持って使用するためのガイドラインが提供されています。責任ある生成 AI ツールキットをご覧ください。
  • 透明性とアカウンタビリティ:
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体でデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと緩和策:

  • バイアスの永続化: モデルのトレーニング、微調整、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とデバイアス手法の調査を実施することをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、個々のプロダクト ポリシーとアプリのユースケースに基づいて、注意を払い、適切なコンテンツ安全保護対策を実装することが推奨されます。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザー向けの教育により、LLM の悪意のあるアプリケーションを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されている。Gemma モデルの禁止される使用については、Gemma の使用禁止ポリシーをご覧ください。
  • プライバシーの侵害: モデルは、PII(個人を特定できる情報)を削除するためにフィルタリングされたデータでトレーニングされました。デベロッパーには、プライバシー保護の手法でプライバシーに関する規則を遵守することが推奨されます。

利点

リリース時点では、このモデル ファミリーは、同様の規模のモデルと比較して、責任ある AI 開発のために一から設計された高性能なオープン大規模言語モデル実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同等のサイズのオープンモデルの代替モデルよりも優れたパフォーマンスを発揮することがわかっています。