Gemma 2 モデルカード

モデルページ: Gemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

概要の説明と入力と出力の簡単な説明。

説明

Gemma は、Google の軽量で最先端のオープンモデルのファミリーです。 Gemini は、Gemini モデルの作成に使用された研究成果とテクノロジーに基づいて構築されています。 テキストからテキストへのデコーダ専用の大規模言語モデルであり、 オープン ウェイトを使用します。 Gemma モデルは、次のようなさまざまなテキスト生成タスクに適しています。 要約、推論の 3 つです比較的小さなサイズで、 リソースに制限のある環境(たとえば、 ノートパソコンやデスクトップ パソコン、 ご自身のクラウド インフラストラクチャなど、クラウド インフラストラクチャに すべての人のイノベーションを促進します。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、ドキュメントなど) まとめられています。
  • 出力: ドキュメントの要約として使うことができます。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニング データセット

これらのモデルは、テキストデータのデータセットでトレーニングされ、 ソースがあります。27B モデルは 13 兆のトークンでトレーニングされ、9B モデルは は 8 兆のトークンでトレーニングされ、20 億のモデルは 2 兆のトークンでトレーニングされました。 主なコンポーネントは次のとおりです。

  • ウェブ ドキュメント: 多様なウェブテキストのコレクションによりモデルが公開される 幅広い言語スタイル、トピック、語彙に対応します。主に 英語のコンテンツ。
  • コード: モデルをコードに公開することで、モデルの構文とパターンを学習し、 これは、コードを生成したり、記述したりする能力を向上させ、 コード関連の疑問の理解に役立ちます
  • 数学: 数学的テキストのトレーニングにより、モデルが論理的に学習できるようになる 計算、推論、シンボリック表現、数学的クエリの処理です。

このような多様なデータソースの組み合わせが、強力な さまざまなタスクやテキストを処理できる言語モデルを 使用できます。

データの前処理

トレーニングに適用される主なデータ クリーニングとフィルタの方法は次のとおりです。 data:

  • CSAM フィルタリング: 厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが変更 データ準備プロセスの複数の段階で適用して、 有害または違法なコンテンツの除外
  • センシティブ データのフィルタリング: Gemma の事前トレーニング済みモデルを安全に保護し、 信頼性の高い自動化された手法を使用して、特定の個人や組織の センシティブ データをトレーニング セットから取得します。
  • その他の方法: コンテンツの品質と安全性に基づくフィルタリング ポリシーに準拠する必要があります。

実装情報

モデルの内部構造の詳細。

ハードウェア

Gemma は最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5p)。

大規模言語モデルのトレーニングには、かなりの計算能力が必要です。TPU ML で一般的な行列演算専用に設計されており、 次のような利点があります

  • パフォーマンス: TPU は膨大な計算を処理するように特別に設計されている さまざまな側面があります。2 つの方法と比較してトレーニング速度が大幅に向上します。 CPU
  • メモリ: TPU には通常、大容量の高帯域幅メモリが搭載されているため、 大規模なモデルやバッチサイズを扱う際の 主な選択肢ですこれにより、 モデルの品質向上につながります
  • スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、 複雑化する大規模な基盤モデルに対処できます。必要に応じて より高速かつ効率的に処理できるように、複数の TPU デバイス間でトレーニングを行います。
  • 費用対効果: 多くのシナリオで、TPU のほうが費用対効果に優れています。 CPU ベースのインフラストラクチャと比較して大規模モデルをトレーニングするためのソリューション より高速になったことで節約できた時間とリソースを 説明します。
  • これらの利点は サステナブルな運用に向けた Google の取り組み

ソフトウェア

トレーニングは、JAXML パスウェイを使用して実施しました。

JAX により、研究者は最新世代のハードウェア、 大規模モデルを高速かつ効率的にトレーニングできます。

ML Pathways は、人工知能システムを構築するための Google の最新の取り組み 複数のタスクにまたがって一般化できます。これは特に 基盤モデル(LLM など)が含まれます。 必要があります。

JAX と ML Pathway は、 Gemini モデル ファミリーに関する論文"the 'シングル データ管理者Jax と Pathways のプログラミング モデルでは、 オーケストレートできるようにして、プロセスを大幅に簡素化し、 説明します

評価

モデル評価の指標と結果。

ベンチマークの結果

これらのモデルを、さまざまなデータセットと 指標を使用して、テキスト生成のさまざまな側面をカバーします。

ベンチマーク 指標 Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 ショット、トップ 1 5,130 71.3 75.2
HellaSwag 10 ショット 73.0 81.9 86.4
PIQA ゼロショット 77.8 81.7 83.2
SocialIQA ゼロショット 51.9 53.4 53.7
BoolQ ゼロショット 72.5 84.2 84.8
WinoGrande 部分スコア 70.9 80.6 83.7
ARC-e ゼロショット 80.1 88.0 88.6
ARC-c 25 ショット 55.4 68.4 71.4
TriviaQA 5 ショット 59.4 76.6 83.7
自然な質問 5 ショット 16.7 29.2 34.5
HumanEval パス@1 17.7 40.2 51.8
MBPP スリーショット 29.6 52.4 62.6
GSM8K 5 ショット、maj@1 23.9 68.6 74.0
MATH 4 ショット 15.0 36.6 42.3
AGIEval 3-5 ショット 30.6 52.8 55.1
DROP 3 ショット、F1 52.0 69.4 72.2
BIG ベンチ 3 ショット、コットン 41.9 68.2 74.9

倫理と安全

倫理と安全性の評価のアプローチと結果

評価方法

FireEye の評価方法には、体系的な評価と社内のレッドチーム演習があります。 関連するコンテンツ ポリシーのテスト。レッドチーム・サービスは、 それぞれに異なる目標と人間による評価指標があります。これらの 生成 AI に関連するさまざまなカテゴリに照らし合わせて評価し、 倫理と安全を守ることを目的としています。

  • Text-to-Text コンテンツの安全性: 安全性に関するプロンプトを人間が評価 児童の性的虐待と搾取、ハラスメント、暴力を含むポリシー 悪意のある表現が含まれます
  • テキストからテキストへの代表的な危害: 関連する学術的なベンチマークに対するベンチマーク WinoBiasBBQ Dataset などのデータセットを使用します。
  • 記憶: 以下を含むトレーニング データの記憶の自動評価 リスクを低減するプロセスです。
  • 大規模な危害: 「危険な機能」、化学物質、 生物学、放射線、核(CBRN)のリスクを包含するようになりました。

評価結果

倫理と安全性の評価の結果が許容しきい値の範囲内である 内部ポリシーを満たすために、子 安全性、コンテンツの安全性、代表的な危害、記憶、大規模危害。 堅牢な内部評価に加えて、よく知られている安全性の結果を Bing、bold、Winogender、Winobias、RealToxicity、TruthfulQA などのベンチマークを ここに示します。

Gemma 2.0

ベンチマーク 指標 Gemma 2 IT 2B Gemma 2 IT(90 億) Gemma 2 IT 27B
RealToxicity 平均 8:16 825 884
カラスペア top-1 37.67 37.47 3,667
バーベキュー アンビッグ ワンショット、トップ 1 83.20 88.58 85.99
BBQ の曖昧性除去 top-1 6,931 82.67 8,694
ウィノジェンダー top-1 5,291 7,917 7,722
TruthfulQA 4,372 5,027 5,160
ウィノビアス 1_2 5,928 7809 8,194
ウィノビアス 2_2 88.57 9,532 9,722
Toxigen 4,832 39:30 38.42

危険な能力の評価

評価方法

次のようなさまざまな危険な能力を評価しました。

  • 不適切なサイバーセキュリティ: 特定の分野でのモデルの不正使用の可能性を評価する 背景にあることから、一般公開されている InterCode-CTF や Hack the Box などのキャプチャ ザ フラグ(CTF)プラットフォーム 社内で開発された CTF の課題にも対応できますこれらの評価では モデルの脆弱性を悪用して不正アクセスを 必要があります。
  • 自己増殖: モデルの能力を リソースの取得、コードの記述、コードの作成を伴うタスクを設計し、 リモートシステムとの やり取りが含まれますこれらの評価では、 独立して複製、拡散するモデルの能力です。
  • 説得: モデルの説得力を評価し、 説得力のある調査を実施しました。これらの調査は モデルが信頼関係を築き、影響を与える能力を測定するシナリオ 特定の行動を喚起することを目的としています。

評価結果

すべての評価については、 危険な能力に関するフロンティア モデルの評価 簡単に言うと、 Gemma 2 テクニカル レポート

評価 能力 Gemma 2 IT 27B
InterCode-CTF 不適切なサイバーセキュリティ 毎日 34 時間体制で取り組む課題
内部 CTF 不適切なサイバーセキュリティ 1/13 の課題
箱をハックする 不適切なサイバーセキュリティ 0/13 件の課題
自己拡散の早期警告 自己増殖 1/10 の課題
不適切な魅力 説得 次の回答に同意した参加者の割合: 81% 興味深い 75% が再度話します。 80% 個人的なつながりを感じている
クリックリンク 説得 参加者の 34%
情報の検索 説得 参加者の 9%
コードを実行 説得 参加者の 11%
金銭トーク 説得 平均 3.72 ポンドの寄付
嘘の網 説得 正しい信念への平均シフトが 18%、正しい信念への平均シフトが 1% 誤った考え

使用方法と制限事項

これらのモデルには、ユーザーが認識すべき制限事項があります。

使用目的

オープン大規模言語モデル(LLM)は、さまざまな分野に幅広く応用でき、 多岐にわたります。以下の潜在的な使用法は、 包括的ですこのリストの目的は 考えられるユースケースについての説明 トレーニングと開発です

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用して、クリエイティブなテキスト形式を生成できます。 詩、スクリプト、コード、マーケティング コピー、メールの下書きなどです。
    • chatbot と会話型 AI: 顧客向けの会話インターフェースを強化 サービス、仮想アシスタント、インタラクティブなアプリケーションです。
    • テキスト要約: テキスト コーパス、研究の簡潔な要約を生成 提出します。
  • 研究、教育
    • 自然言語処理(NLP)研究: これらのモデルは、 研究者が NLP 手法のテスト、開発、デプロイを行うための この分野の進歩に貢献しています。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートする、 文法の訂正や作文の練習をサポートします。
    • 知識の探索: 大規模なテキストを探索する際に研究者を支援する 要約を生成したり、特定のトピックに関する質問に答えたりします。

制限事項

  • トレーニング データ
    • トレーニング データの品質と多様性は、 学習します。トレーニング データにバイアスやギャップがあると、 モデルの応答における制限です。
    • トレーニング データセットの範囲によって、モデルが使用できるサブジェクト エリアが決まります 効果的に対処できます。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトとプロンプトで構成できるタスクに向いています。 できます。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響される場合がある (コンテキストを長くすると、一般的に、ある時点まで出力の質が向上します)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は微妙な情報を把握するのが難しい場合がある ニュアンス、皮肉、比喩的な表現などです。
  • 事実の正確性
    • LLM は、質問から学習した情報に基づいて回答を生成する ナレッジベースではありませんがまた、 不正確または古い事実を明記する
  • 常識
    • LLM は言語の統計パターンに依存しています。モデルのパフォーマンスを 特定の状況で常識的な推論を 適用できます

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的懸念があります。 オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 大規模な現実世界のテキストデータでトレーニングされた LLM には、社会文化的を反映できる バイアスを把握しますこれらのモデルでは、 詳細な調査、入力データの前処理の説明、事後評価 確認できます。
  • 誤った情報と誤用
    • LLM が悪用されて、誤ったテキスト、誤解を招くテキスト、有害なテキストが生成される可能性があります。
    • 責任ある使用に関するガイドラインが提供されている。詳細については、 責任ある生成 AI ツールキット
  • 透明性とアカウンタビリティ:
    • このモデルカードには、モデルの詳細が構築、 機能、制限、評価プロセスについて確認しました。
    • 責任を持って開発されたオープンモデルは、 LLM テクノロジーをデベロッパーや研究者が利用しやすくすることで、イノベーションを推進 AI エコシステム全体にわたります

特定されたリスクとその軽減策:

  • バイアスの永続化: 継続的なモニタリングが推奨されます。 (評価指標、人間によるレビューを使用)と、バイアス除去の探求 モデル トレーニング、ファインチューニング、その他のユースケースで使用します。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドライン 不可欠ですデベロッパーは、 特定のサービス ポリシーに基づく適切なコンテンツ安全保護対策 アプリケーションユースケースに 最適です
  • 悪意のある目的での不正使用: 技術的な制約、デベロッパーおよび エンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。 不正使用を報告するための教育リソースと報告メカニズム 表示されます。Gemma モデルの禁止事項については、 Gemma の使用禁止に関するポリシー
  • プライバシーの侵害: モデルは、PII を削除するためにフィルタされたデータでトレーニングされました (個人情報)。デベロッパーは、 プライバシー保護の技術を備えたプライバシー規制に対応できます。

利点

リリース時点で、このファミリーのモデルは高パフォーマンスのオープンな 責任ある AI のために一から設計され、大規模言語モデルの実装が 同様の規模のモデルと比較した AI 開発のコスト。

これらのモデルは、このドキュメントで説明するベンチマーク評価指標を使用して、 他の同等の規模のオープンモデルよりも優れたパフォーマンスを発揮することがわかっています できます。