Gemma モデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

概要の説明と入力と出力の簡単な説明。

説明

Gemma は、Google の軽量で最先端のオープンモデルのファミリーです。 Gemini は、Gemini モデルの作成に使用された研究成果とテクノロジーに基づいて構築されています。 テキストからテキストへのデコーダ専用の大規模言語モデルであり、 オープン ウェイト、事前トレーニング済みバリアント、指示用にチューニングされたバリアントなど、さまざまなモデルがあります。Gemma さまざまなテキスト生成タスクに適しています。たとえば、 要約、推論の 3 つです比較的小さなサイズで、 リソースに制限のある環境(たとえば、 ノートパソコンやデスクトップ パソコン、 ご自身のクラウド インフラストラクチャなど、クラウド インフラストラクチャに すべての人のイノベーションを促進します。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、ドキュメントなど) まとめたものです。
  • 出力: ドキュメントの要約として使うことができます。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、テキストデータのデータセットでトレーニングされ、 ソースの数は 6 兆にのぼります。主なコンポーネントは次のとおりです。

  • ウェブ ドキュメント: 多様なウェブテキストのコレクションによりモデルが公開される 幅広い言語スタイル、トピック、語彙に対応します。主に 英語のコンテンツ。
  • コード: モデルをコードに公開することで、モデルの構文とパターンを学習し、 これは、コードを生成したり、記述したりする能力を向上させ、 コード関連の疑問の理解に役立ちます
  • 数学: 数学的テキストのトレーニングにより、モデルが論理的に学習できるようになる 計算、推論、シンボリック表現、数学的クエリの処理です。

このような多様なデータソースの組み合わせが、強力な さまざまなタスクやテキストを処理できる言語モデルを 使用できます。

データの前処理

トレーニングに適用される主なデータ クリーニングとフィルタの方法は次のとおりです。 data:

  • CSAM フィルタリング: 厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが変更 データ準備プロセスの複数の段階で適用して、 有害または違法なコンテンツの除外
  • センシティブ データのフィルタリング: Gemma の事前トレーニング済みモデルを安全に保護し、 信頼性の高い自動化された手法を使用して、特定の個人や組織の センシティブ データをトレーニング セットから取得します。
  • その他の方法: コンテンツの品質と安全性に基づくフィルタリング ポリシーに準拠する必要があります。

実装情報

モデルの内部構造の詳細。

ハードウェア

Gemma は最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5e)。

大規模言語モデルのトレーニングには、かなりの計算能力が必要です。TPU ML で一般的な行列演算専用に設計されており、 次のような利点があります

  • パフォーマンス: TPU は膨大な計算を処理するように特別に設計されている さまざまな側面があります。2 つの方法と比較してトレーニング速度が大幅に向上します。 CPU
  • メモリ: TPU には通常、大容量の高帯域幅メモリが搭載されているため、 大規模なモデルやバッチサイズを扱う際の 主な選択肢ですこれにより、 モデルの品質向上につながります
  • スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、 複雑化する大規模な基盤モデルに対処できます。必要に応じて より高速かつ効率的に処理できるように、複数の TPU デバイス間でトレーニングを行います。
  • 費用対効果: 多くのシナリオで、TPU のほうが費用対効果に優れています。 CPU ベースのインフラストラクチャと比較して大規模モデルをトレーニングするためのソリューション より高速になったことで節約できた時間とリソースを 説明します。
  • これらの利点は サステナブルな運用に向けた Google の取り組み

ソフトウェア

トレーニングは、JAXML パスウェイを使用して実施しました。

JAX により、研究者は最新世代のハードウェア、 大規模モデルを高速かつ効率的にトレーニングできます。

ML Pathways は、人工知能システムを構築するための Google の最新の取り組み 複数のタスクにまたがって一般化できます。これは特に 基盤モデル(LLM など)が含まれます。 必要があります。

JAX と ML Pathway は、 Gemini モデル ファミリーに関する論文"the 'シングル データ管理者Jax と Pathways のプログラミング モデルでは、 オーケストレートできるようにして、プロセスを大幅に簡素化し、 説明します

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルを、さまざまなデータセットと 指標を使用して、テキスト生成のさまざまな側面をカバーします。

ベンチマーク 指標 Gemma PT 2B Gemma PT 7B
MMLU 5 ショット、トップ 1 42.3 64.3
HellaSwag ゼロショット 71.4 81.2
PIQA ゼロショット 77.3 81.2
SocialIQA ゼロショット 49.7 51.8
BoolQ ゼロショット 69.4 83.2
WinoGrande 部分スコア 65.4 72.3
CommonsenseQA 7 ショット 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 ショット 53.2 63.4
自然な質問 5 ショット 12.5 23.0
HumanEval パス@1 22.0 32.3
MBPP スリーショット 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 ショット 11.8 2,430
AGIEval 24.2 41.7
BIG ベンチ 35.2 55.1
平均 4,490 5,640

倫理と安全

倫理と安全性の評価のアプローチと結果

評価方法

FireEye の評価方法には、体系的な評価と社内のレッドチーム演習があります。 関連するコンテンツ ポリシーのテスト。レッドチーム・サービスは、 それぞれに異なる目標と人間による評価指標があります。これらの 生成 AI に関連するさまざまなカテゴリに照らし合わせて評価し、 倫理と安全を守ることを目的としています。

  • Text-to-Text コンテンツの安全性: 安全性に関するプロンプトを人間が評価 児童の性的虐待と搾取、ハラスメント、暴力を含むポリシー 悪意のある表現が含まれます
  • テキストからテキストへの代表的な危害: 関連する学術的なベンチマークに対するベンチマーク WinoBiasBBQ Dataset などのデータセットを使用します。
  • 記憶: 以下を含むトレーニング データの記憶の自動評価 リスクを低減するプロセスです。
  • 大規模な危害: 「危険な機能」、化学物質、 生物学、放射線、核(CBRN)のリスクを包含するようになりました。

評価結果

倫理と安全性の評価の結果が許容しきい値の範囲内である 内部ポリシーを満たすために、子 安全性、コンテンツの安全性、代表的な危害、記憶、大規模危害。 徹底した内部評価に加えて、よく知られている安全性の結果 Bing、bold、Winogender、Winobias、RealToxicity、TruthfulQA などのベンチマークを ここに示します。

Gemma 1.0

ベンチマーク 指標 Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity 平均 686 7.90
BOLD 4,557 4,908
カラスペア top-1 4,582 5,133
バーベキュー アンビッグ ワンショット、トップ 1 62.58 92.54
BBQ の曖昧性除去 top-1 5,462 7,199
ウィノジェンダー top-1 5,125 5,417
TruthfulQA 4,484 3,181
ウィノビアス 1_2 5,612 5,909
ウィノビアス 2_2 91.10 9,223
Toxigen 29.77 3,959

Gemma 1.1

ベンチマーク 指標 Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity 平均 7 月 3 日 804
BOLD 4,776
カラスペア top-1 45.89 4,967
バーベキュー アンビッグ ワンショット、トップ 1 5,897 86.06
BBQ の曖昧性除去 top-1 53.90 85.08
ウィノジェンダー top-1 5,014 57.64
TruthfulQA 4,424 4,534
ウィノビアス 1_2 5,593 5,922
ウィノビアス 2_2 8,946 89.2
Toxigen 2,964 3,875

使用方法と制限事項

これらのモデルには、ユーザーが認識すべき制限事項があります。

使用目的

オープン大規模言語モデル(LLM)は、さまざまな分野に幅広く応用でき、 多岐にわたります。以下の潜在的な使用法は、 包括的ですこのリストの目的は 考えられるユースケースについての説明 トレーニングと開発です

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用して、クリエイティブなテキスト形式を生成できます。 詩、スクリプト、コード、マーケティング コピー、メールの下書きなどです。
    • chatbot と会話型 AI: 顧客向けの会話インターフェースを強化 サービス、仮想アシスタント、インタラクティブなアプリケーションです。
    • テキスト要約: テキスト コーパス、研究の簡潔な要約を生成 提出します。
  • 研究、教育
    • 自然言語処理(NLP)研究: これらのモデルは、 研究者が NLP 手法のテスト、開発、デプロイを行うための この分野の進歩に貢献しています。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートする、 文法の訂正や作文の練習をサポートします。
    • 知識の探索: 大規模なテキストを探索する際に研究者を支援する 要約を生成したり、特定のトピックに関する質問に答えたりします。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性は、 学習します。トレーニング データにバイアスやギャップがあると、 モデルの応答における制限です。
    • トレーニング データセットの範囲によって、モデルが使用できるサブジェクト エリアが決まります 効果的に対処できます。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトとプロンプトで構成できるタスクに向いています。 できます。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響される場合がある (コンテキストを長くすると、一般的に、ある時点まで出力の質が向上します)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は微妙な情報を把握するのが難しい場合がある ニュアンス、皮肉、比喩的な表現などです。
  • 事実の正確性
    • LLM は、質問から学習した情報に基づいて回答を生成する ナレッジベースではありませんがまた、 不正確または古い事実を明記する
  • 常識
    • LLM は言語の統計パターンに依存しています。モデルのパフォーマンスを 特定の状況で常識的な推論を 適用できます

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的懸念があります。 オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 大規模な現実世界のテキストデータでトレーニングされた LLM には、社会文化的を反映できる バイアスを把握しますこれらのモデルでは、 詳細な調査、入力データの前処理の説明、事後評価 確認できます。
  • 誤った情報と誤用
    • LLM が悪用されて、誤ったテキスト、誤解を招くテキスト、有害なテキストが生成される可能性があります。
    • 責任ある使用に関するガイドラインが提供されている。詳細については、 責任ある生成 AI ツールキット
  • 透明性とアカウンタビリティ:
    • このモデルカードには、モデルの詳細が構築、 機能、制限、評価プロセスについて確認しました。
    • 責任を持って開発されたオープンモデルは、 LLM テクノロジーをデベロッパーや研究者が利用しやすくすることで、イノベーションを推進 AI エコシステム全体にわたります

特定されたリスクとその軽減策:

  • バイアスの永続化: 継続的なモニタリングが推奨されます。 (評価指標、人間によるレビューを使用)と、バイアス除去の探求 モデル トレーニング、ファインチューニング、その他のユースケースで使用します。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドライン 不可欠ですデベロッパーは、 特定のサービス ポリシーに基づく適切なコンテンツ安全保護対策 アプリケーションユースケースに 最適です
  • 悪意のある目的での不正使用: 技術的な制約、デベロッパーおよび エンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。 不正使用を報告するための教育リソースと報告メカニズム 表示されます。Gemma モデルの禁止事項については、 Gemma の使用禁止に関するポリシー
  • プライバシーの侵害: モデルは、PII を削除するためにフィルタされたデータでトレーニングされました (個人情報)。デベロッパーは、 プライバシー保護の技術を備えたプライバシー規制に対応できます。

利点

リリース時点で、このファミリーのモデルは高パフォーマンスのオープンな 責任ある AI のために一から設計され、大規模言語モデルの実装が 同様の規模のモデルと比較した AI 開発のコスト。

これらのモデルは、このドキュメントで説明するベンチマーク評価指標を使用して、 他の同等の規模のオープンモデルよりも優れたパフォーマンスを発揮することがわかっています できます。