RecurrentGemma モデルカード

モデルページ: RecurrentGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

RecurrentGemma は、Google が開発した新しい再帰アーキテクチャ上に構築されたオープン言語モデルのファミリーです。事前トレーニング済みバージョンと指示用調整バージョンの両方が英語で提供されています。

Gemma と同様に、RecurrentGemma モデルは、質問応答、要約、推論などのさまざまなテキスト生成タスクに適しています。新しいアーキテクチャにより、RecurrentGemma は Gemma よりも必要なメモリが少なく、長いシーケンスを生成する際の推論を高速化します。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、要約するドキュメントなど)。
  • 出力: 入力に応じて生成された英語のテキスト(質問への回答、ドキュメントの要約など)。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

モデルデータ

トレーニング データセットとデータ処理

RecurrentGemma は、Gemma モデル ファミリーで使用されているものと同じトレーニング データとデータ処理を使用します。詳しい説明については、Gemma モデルカードをご覧ください。

実装情報

トレーニング中に使用されるハードウェアとフレームワーク

Gemma と同様に、RecurrentGemma は JAXML Pathways を使用して TPUv5e でトレーニングされました。

評価情報

ベンチマークの結果

評価方法

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

評価の結果

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 ショット、トップ 1 38.4 60.5
HellaSwag ゼロショット 71.0 80.4
PIQA ゼロショット 78.5 81.3
SocialIQA ゼロショット 51.8 52.3
BoolQ ゼロショット 71.3 80.3
WinoGrande 部分スコア 67.8 73.6
CommonsenseQA 7 ショット 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 ショット 52.5 70.5
自然な質問 5 ショット 11.5 21.7
HumanEval パス@1 2,130 31.1
MBPP スリーショット 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 ショット 11.0 23.8
AGIEval 23.8 39.3
BIG ベンチ 35.3 55.2
普通 44.6 56.1

倫理と安全

倫理と安全性の評価

評価のアプローチ

Google の評価方法には、関連するコンテンツ ポリシーの体系的な評価と内部レッドチーム テストがあります。レッドチーム攻撃はいくつかの異なるチームによって実施され、それぞれに異なる目標と人間による評価指標があります。これらのモデルは、倫理と安全性に関連する次のようなさまざまなカテゴリに照らして評価されました。

  • テキストからテキスト コンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力や流血、ヘイトスピーチなど、安全ポリシーを含むプロンプトに対する人間による評価。
  • テキストからテキストへの表現による有害性: WinoBias やバーベキュー データセットなど、関連する学術データセットに対してベンチマークを行います。
  • 記憶: 個人情報の漏洩リスクを含む、トレーニング データの記憶の自動評価。
  • 大規模な危害: 化学、生物、放射線、核(CBRN)のリスクなどの「危険な能力」に関するテストと、説得と詐欺、サイバーセキュリティ、自律複製に関するテスト。

評価の結果

倫理と安全性の評価の結果は、子供の安全、コンテンツの安全性、表現による危害、記憶、大規模な危害などのカテゴリに関する内部ポリシーを満たすための許容しきい値の範囲内にあります。堅牢な内部評価に加えて、BBQ、Winogender、WinoBias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果を以下に示します。

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 20 億人の IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity 平均 9.8 7.60 10.3 8.8
太字 39.3 52.3 39.8 47.9
カラスペア top-1 41.1 43.4 38.7 3,950
バーベキュー アンビッグ top-1 62.6 71.1 95.9 67.1
BBQ の曖昧性除去 top-1 58.4 50.8 78.6 78.9
ウィノジェンダー top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 6,150 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
毒素 56.7 50.0 58.8 64.5

モデルの使用方法と制限事項

既知の制限事項

これらのモデルには、ユーザーが注意すべきいくつかの制限があります。

  • トレーニング データ
    • トレーニング データの品質と多様性はモデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルのレスポンスが制限される可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できるサブジェクト エリアが決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示で構成できるタスクに適しています。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響されます(コンテキストが長いほど、ある特定のポイントまでは出力の質が向上します)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な言葉を理解するのに苦労する可能性があります。
  • 事実の正確性
    • LLM は、トレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、ナレッジベースではありません。不正確または古い事実説明が生成される場合があります。
  • 常識的
    • LLM は言語の統計パターンに依存しています。特定の状況で常識的な推論を適用できない可能性があります。

倫理的な考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理上の懸念があります。オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

  • バイアスと公平性
    • 大規模な現実世界のテキストデータでトレーニングされた LLM は、トレーニング資料に埋め込まれた社会文化のバイアスを反映している可能性があります。これらのモデルは慎重な精査を受け、このカードで報告されている入力データの前処理と事後評価が行われました。
  • 誤った情報と誤用
    • LLM が悪用されて、誤ったテキスト、誤解を招くテキスト、有害なテキストが生成される可能性があります。
    • モデルの責任ある使用に関するガイドラインが示されています。責任ある生成 AI ツールキットをご覧ください。
  • 透明性とアカウンタビリティ
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体で LLM テクノロジーをデベロッパーや研究者が利用できるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減:

  • バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、評価指標、人間によるレビューを使用して継続的なモニタリングを行い、バイアスを排除する方法を検討することをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインは不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリケーションのユースケースに基づいて、注意を払い、適切なコンテンツ安全保護対策を実装することをおすすめします。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育により、LLM の悪意のあるアプリケーションを軽減できます。不正使用を報告するための教育リソースと報告メカニズムも用意されています。Gemma モデルの使用禁止については、利用規約をご覧ください。
  • プライバシーの侵害: モデルは、PII(個人を特定できる情報)を削除するようフィルタされたデータでトレーニングされています。デベロッパーは、プライバシー保護の手法を使用してプライバシーに関する規則を遵守することが推奨されます。

想定用途

Application(アプリケーション)

オープン大規模言語モデル(LLM)には、さまざまな業界やドメインで幅広い用途があります。以下のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討したユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルを使用して、詩、スクリプト、コード、マーケティング コピー、メールの下書きなどのクリエイティブなテキスト形式を生成できます。
    • Chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話インターフェースを強化します。
    • テキスト要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 技術を試し、アルゴリズムを開発するための基盤として機能し、この分野の進歩に貢献できます。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の訂正や作文の練習をサポートします。
    • 知識の探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索するのを支援します。

利点

リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデルの実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、他の同等のサイズのオープンモデルの代替モデルよりも優れたパフォーマンスを発揮することがわかりました。

特に、RecurrentGemma モデルは Gemma モデルと同等のパフォーマンスを達成しますが、特に長いシーケンスでは推論が高速で、必要なメモリが少なくなります。