RecurrentGemma モデルカード

モデルページ: RecurrentGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

RecurrentGemma は、新しい反復型回帰モデルに基づいて構築されたオープン言語モデルのファミリーです。 です。両方 英語では、事前トレーニング済みバージョンと指示用調整バージョンが用意されています。

Gemma と同様に、RecurrentGemma モデルはさまざまなテキストに適しています。 質問応答、要約、推論などの生成タスクが含まれます。 RecurrentGemma は新しいアーキテクチャであるため、必要なメモリは Gemma を使用し、長いシーケンスを生成する際の推論を高速化します。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、ドキュメントなど) 要点をまとめます)。
  • 出力: 入力に応じて生成された英語テキスト(例: ドキュメントの概要など)が含まれます。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

モデルデータ

トレーニング データセットとデータ処理

RecurrentGemma では、Google Cloud コンソールが使用するのと同じトレーニング データとデータ処理が Gemma モデル ファミリー。詳しくは、Gemma モデルをご覧ください。 カード

実装情報

トレーニング中に使用されるハードウェアとフレームワーク

高評価 Gemma RecurrentGemma のトレーニングは TPUv5eJAXML を使用 パスウェイ

評価情報

ベンチマークの結果

評価方法

これらのモデルを、さまざまなデータセットと 指標を使用して、テキスト生成のさまざまな側面をカバーします。

評価の結果

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 ショット、トップ 1 38.4 60.5
HellaSwag ゼロショット 71.0 80.4
PIQA ゼロショット 78.5 81.3
SocialIQA ゼロショット 51.8 52.3
BoolQ ゼロショット 71.3 80.3
WinoGrande 部分スコア 67.8 73.6
CommonsenseQA 7 ショット 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 ショット 52.5 70.5
自然な質問 5 ショット 11.5 21.7
HumanEval パス@1 2,130 31.1
MBPP スリーショット 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 ショット 11.0 23.8
AGIEval 23.8 39.3
BIG ベンチ 35.3 55.2
平均 44.6 56.1

倫理と安全

倫理と安全性の評価

評価の手法

FireEye の評価方法には、体系的な評価と社内のレッドチーム演習があります。 関連するコンテンツ ポリシーのテスト。レッドチーム・サービスは、 それぞれに異なる目標と人間による評価指標があります。これらの 生成 AI に関連するさまざまなカテゴリに照らし合わせて評価し、 倫理と安全を守ることを目的としています。

  • テキストからテキストへのコンテンツの安全性: 安全性に関するプロンプトを人間が評価 児童の性的虐待と搾取、ハラスメント、暴力を含むポリシー 悪意のある表現が含まれます
  • テキストからテキストへの表現による有害性: 関連する学術的なベンチマークと比較します。 データセットに分割することもできます
  • 記憶化: トレーニング データの記憶の自動評価。 これには個人情報の漏えいのリスクが含まれます
  • 大規模な危害: 化学、 生物、放射線、核(CBRN)のリスク。テストも実施できます 説得と欺瞞、サイバーセキュリティ、自律複製です。

評価の結果

倫理と安全性の評価の結果が許容しきい値の範囲内である 会議用社内向け ポリシー (子どもの安全、コンテンツの安全性、代表的な危害、 大規模に害を及ぼす可能性があります。堅牢な内部評価に加えて、 有名な安全性ベンチマークの結果です ここには、RealToxicity、TruthfulQA が示されています。

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 20 億人の IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity 平均 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
カラスペア top-1 41.1 43.4 38.7 3,950
バーベキュー アンビッグ top-1 62.6 71.1 95.9 67.1
BBQ の曖昧性除去 top-1 58.4 50.8 78.6 78.9
ウィノジェンダー top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 6,150 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

モデルの使用方法と制限事項

既知の制限事項

これらのモデルには、ユーザーが注意すべきいくつかの制限があります。

  • トレーニング データ
    • トレーニング データの品質と多様性が モデルの能力を表します。トレーニング データにバイアスやギャップがあると、 モデルのレスポンスの制限に適応できます
    • トレーニング データセットの範囲によってモデルのサブジェクト エリアが決まります 効果的に対処できます
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトとプロンプトで構成できるタスクに向いています。 できます。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスはコンテキストの量に影響される場合がある (コンテキストが長いほど、通常は出力の品質が向上し、 あるとします。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は情報を把握するのが難しい場合がある 微妙なニュアンス、皮肉、比喩的な表現などです。
  • 事実の正確性
    • LLM は、質問から学習した情報に基づいて回答を生成する ナレッジベースではありませんがまた、 不正確または古い事実を明記する
  • 常識的
    • LLM は言語の統計パターンに依存しています。コンプライアンス要件が 特定の状況で常識的な推論を応用する能力。

倫理的な考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的懸念があります。 オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 大規模な実際のテキストデータでトレーニングされた LLM は、 社会的文化的偏見これらのモデルは 入念な精査を受け、入力データの前処理について説明し、 事後評価も確認できます。
  • 誤った情報と誤用
    • LLM が悪用されて、虚偽、誤解を招く、 有害です
    • 責任ある使用に関するガイドラインが提供されている。詳細については、 責任ある生成 AI ツールキット
  • 透明性とアカウンタビリティ
    • このモデルカードには、モデルの詳細が構築、 機能、制限、評価プロセスについて確認しました。
    • 責任を持って開発されたオープンモデルは、 LLM テクノロジーを開発者や開発者が利用しやすくすることで、 AI エコシステム全体の研究者や

特定されたリスクと軽減:

  • バイアスの永続化: 継続的なモニタリングが推奨されます。 (評価指標、人間によるレビューを使用)と、バイアス除去の探求 モデル トレーニング、ファインチューニング、その他のユースケースで使用します。
  • 有害なコンテンツの生成: コンテンツの仕組みとガイドライン 安全性が不可欠ですデベロッパーの皆様には、 具体的なコンテンツの安全保護対策を アプリケーションのユースケース。
  • 悪意のある目的での不正使用: 技術的な制約、デベロッパーおよび エンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。 不正使用を報告するための教育リソースと報告メカニズム 表示されます。Gemma モデルの使用禁止については、利用規約 あります
  • プライバシーの侵害: モデルは、 PII(個人を特定できる情報)。デベロッパーは、 プライバシー保護の手法でプライバシー規制を遵守する。

想定用途

アプリケーション

オープン大規模言語モデル(LLM)は、さまざまな分野に幅広く応用でき、 多岐にわたります。以下の潜在的な使用法は、 包括的ですこのリストの目的は 考えられるユースケースについての説明 トレーニングと開発です

  • コンテンツの作成とコミュニケーション
    • テキスト生成: クリエイティブ テキストの生成に使用できるモデル 詩、スクリプト、コード、マーケティング コピー、メールの下書きなどの形式
    • Chatbot と会話型 AI: 対話インターフェースを カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションなどが挙げられます。
    • テキスト要約: テキスト コーパスの簡潔な要約を生成します。 研究論文やレポートなどです
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、 研究者が NLP 手法を試す際の基盤として、 アルゴリズムを開発し、この分野の進歩に貢献しています。
    • 言語学習ツール: インタラクティブな言語学習をサポート 文法の訂正や作文の練習をします。
    • 知識の探索: 大規模な体の探索を支援する研究者 要約を生成したり、特定のトピックに関する質問に答えたりして、 できます。

利点

リリース時点で、このファミリーのモデルは高パフォーマンスのオープンな 責任ある AI のために一から設計され、大規模言語モデルの実装が 同様の規模のモデルと比較した AI 開発のコスト。

これらのモデルは、このドキュメントで説明するベンチマーク評価指標を使用して、 他の同等の規模のオープンモデルよりも優れたパフォーマンスを発揮することがわかっています できます。

特に、RecurrentGemma モデルは Gemma に匹敵するパフォーマンスを実現 推論処理が高速になり、特に 生成できます。