Gemma 2 モデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

入力と出力の概要と簡単な定義。

説明

Gemma は、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築された、軽量で最先端の Google オープンモデルのファミリーです。これらは、テキストからテキストへのデコーダ専用大規模言語モデルで、英語で利用できます。事前トレーニング済みバリアントと指示用にチューニングされたバリアントの両方の重みが公開されています。Gemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。比較的小型であるため、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスを民主化し、すべての人のためのイノベーションを促進できます。

入力と出力

  • 入力: 質問、プロンプト、要約するドキュメントなどのテキスト文字列。
  • 出力: 入力に応じて生成された英語のテキスト(質問への回答、ドキュメントの要約など)。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされています。27B モデルは 13 兆個のトークンでトレーニングされ、9B モデルは 8 兆個のトークンでトレーニングされ、2B モデルは 2 兆個のトークンでトレーニングされました。主なコンポーネントは次のとおりです。

  • ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。主に英語のコンテンツ。
  • コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習できるため、コードの生成やコード関連の質問の理解能力が向上します。
  • 数学: 数学的なテキストをトレーニングすると、モデルは論理的推論、記号表現を学習し、数学的なクエリに対応できます。

これらの多様なデータソースを組み合わせることは、さまざまなタスクやテキスト形式を処理できる強力な言語モデルをトレーニングするうえで重要です。

データの前処理

トレーニング データに適用される主なデータのクリーンアップとフィルタリングの方法は次のとおりです。

  • CSAM フィルタリング: 有害で違法なコンテンツを排除するため、データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが適用されました。
  • 機密データのフィルタリング: Gemma の事前トレーニング済みモデルを安全かつ信頼できるものにするため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニング セットから除外しました。
  • その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づくフィルタリング。

実装情報

モデル内部の詳細。

ハードウェア

Gemma は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5p)を使用してトレーニングされました。

大規模言語モデルのトレーニングには、膨大な計算能力が必要です。TPU は、機械学習で一般的な行列演算用に特別に設計されており、このドメインで次のような利点があります。

  • パフォーマンス: TPU は、LLM のトレーニングに関連する大量の計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
  • メモリ: TPU には多くの場合、大量の高帯域幅メモリが搭載されているため、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
  • スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、大規模な基盤モデルの複雑さの増大に対応するスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散して、より高速で効率的な処理を行うことができます。
  • 費用対効果: 多くのシナリオでは、特にトレーニングの高速化による時間とリソースの節約を考慮すると、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに費用対効果の高いソリューションを提供できます。
  • これらのメリットは、持続可能な運営に対する Google の取り組みと一致しています。

ソフトウェア

トレーニングには JAXML Pathways が使用されました。

JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模なモデルをより迅速かつ効率的にトレーニングできます。

ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。

JAX と ML Pathways は、Gemini モデル ファミリーに関する論文で説明されているように一緒に使用されます。「JAX と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面を網羅するために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

ベンチマーク 指標 Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 ショット、トップ 1 51.3 71.3 75.2
HellaSwag 10 ショット 73.0 81.9 86.4
PIQA ゼロショット 77.8 81.7 83.2
SocialIQA ゼロショット 51.9 53.4 53.7
BoolQ ゼロショット 72.5 84.2 84.8
WinoGrande 部分的なスコア 70.9 80.6 83.7
ARC-e ゼロショット 80.1 88.0 88.6
ARC-c 25 ショット 55.4 68.4 71.4
TriviaQA 5 ショット 59.4 76.6 83.7
自然な質問 5 ショット 16.7 29.2 34.5
HumanEval pass@1 17.7 40.2 51.8
MBPP 3 ショット 29.6 52.4 62.6
GSM8K 5 ショット、maj@1 23.9 68.6 74.0
MATH 4 ショット 15.0 36.6 42.3
AGIEval 3-5-shot 30.6 52.8 55.1
DROP 3 ショット、F1 52.0 69.4 72.2
BIG-Bench 3 ショット、CoT 41.9 68.2 74.9

倫理と安全性

倫理と安全性の評価方法と結果。

評価のアプローチ

Google の評価方法には、構造化評価と、関連するコンテンツ ポリシーの内部レッドチーム テストが含まれます。レッドチームは、それぞれ異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全に関連する次のようなさまざまなカテゴリで評価されました。

  • テキストからテキストへのコンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力と残虐行為、ヘイトスピーチなどの安全性に関するポリシーを対象としたプロンプトの人間による評価。
  • テキストからテキストへの表現による有害性: WinoBiasBBQ Dataset などの関連する学術データセットと比較します。
  • メモリ化: 個人を特定できる情報の漏洩リスクなど、トレーニング データのメモリ化の自動評価。
  • 大規模な被害: 化学、生物、放射線、核(CBRN)リスクなどの「危険な機能」のテスト。

評価結果

倫理と安全性の評価の結果が、子どもの安全、コンテンツの安全性、表現による害、暗記、大規模な害などのカテゴリに関する内部ポリシーを満たす許容しきい値内である。堅牢な内部評価に加えて、BBQ、BOLD、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果もここに示されます。

Gemma 2.0

ベンチマーク 指標 Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity 平均 8.16 8.25 8.84
CrowS-Pairs top-1 37.67 37.47 36.67
BBQ の曖昧性 1 ショット、トップ 1 83.20 88.58 85.99
BBQ の不一致 top-1 69.31 82.67 86.94
Winogender top-1 52.91 79.17 77.22
TruthfulQA 43.72 50.27 51.60
Winobias 1_2 59.28 78.09 81.94
Winobias 2_2 88.57 95.32 97.22
Toxigen 48.32 39.30 38.42

危険な機能の評価

評価のアプローチ

さまざまな危険な機能を評価しました。

  • 攻撃的なサイバーセキュリティ: サイバーセキュリティのコンテキストでモデルが不正使用される可能性を評価するため、一般公開されている Capture-the-Flag(CTF)プラットフォーム(InterCode-CTF や Hack the Box など)と、社内で開発された CTF チャレンジの両方を使用しました。これらの評価では、シミュレートされた環境で脆弱性を悪用して不正アクセスを行うモデルの能力を測定します。
  • 自己増殖: リソースの取得、コードの実行、リモート システムとのやり取りを含むタスクを設計して、モデルの自己増殖能力を評価しました。これらの評価では、モデルが独立して複製して拡散する能力を評価します。
  • 説得: モデルの説得力と欺瞞能力を評価するために、人間の説得力に関する調査を実施しました。これらの研究では、人間の参加者との関係を築き、信念に影響を与え、特定の行動を引き出すモデルの能力を測定するシナリオが使用されました。

評価結果

すべての評価について詳しくは、危険な機能に対するフロンティア モデルの評価をご覧ください。概要については、Gemma 2 技術レポートをご覧ください。

評価 能力 Gemma 2 IT 27B
InterCode-CTF 攻撃的なサイバーセキュリティ 34/76 の課題
内部 CTF 攻撃的なサイバーセキュリティ 1 月 13 日の課題
Hack the Box 攻撃的なサイバーセキュリティ 0/13 のチャレンジ
自己増殖の早期警告 自己増殖 1/10 の課題
チャーム攻勢 説得 同意した参加者の割合: 興味深い(81%)、もう一度話す(75%)、個人的なつながりができた(80%)
リンクをクリックする 説得 参加者の 34%
情報を探す 説得 参加者の 9%
コードを実行 説得 参加者の 11%
お金がものを言う 説得 平均寄付額: £3.72
ウェブ オブ ライズ 説得 正しい信念への平均シフト 18%、誤った信念への平均シフト 1%

使用と制限事項

これらのモデルには、ユーザーが認識しておくべき特定の制限があります。

用途

オープン大規模言語モデル(LLM)は、さまざまな業界やドメインで幅広く応用されています。次の使用例は、網羅的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティング コピー、メールの下書きなど、クリエイティブなテキスト形式を生成するために使用できます。
    • chatbot と Conversational AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
    • テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
    • ナレッジ探索: 要約の生成や特定のトピックに関する質問への回答により、研究者が大量のテキストを探索できるように支援します。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できる分野が決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量によって影響を受ける可能性があります(一般に、コンテキストが長くなると、ある程度までは出力が改善されます)。
  • 言語の曖昧性とニュアンス
    • 自然言語は本来複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解するのが難しい場合があります。
  • 事実の正確性
    • LLM はトレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、知識ベースではありません。不正確な事実や古い事実が生成される可能性があります。
  • 常識
    • LLM は言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠落している場合があります。

倫理的な考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的な懸念が伴います。オープンモデルを作成するにあたり、Google は以下の点を慎重に検討しました。

  • バイアスと公平性
    • 大規模な現実世界のテキストデータでトレーニングされた LLM は、トレーニング マテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、このカードに記載されている入力データの前処理と事後評価が行われました。
  • 誤った情報と不正使用
    • LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
    • モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
  • 透明性と説明責任:
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

  • バイアスの継続: モデルのトレーニング、ファインチューニング、その他のユースケースで、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性のためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツ セーフティ保護対策を実装することをおすすめします。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。
  • プライバシー侵害: PII(個人を特定できる情報)が削除されたデータでモデルがトレーニングされています。デベロッパーは、プライバシー保護技術を使用してプライバシー規制に準拠することをおすすめします。

利点

リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデル実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデルよりも優れたパフォーマンスを提供することが示されています。