RecurrentGemma モデルカード

モデルページ: RecurrentGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

RecurrentGemma は、Google が開発した新しい再帰アーキテクチャ上に構築されたオープン言語モデルのファミリーです。事前トレーニング済みバージョンとインストラクション チューニング済みバージョンの両方が英語で利用できます。

Gemma と同様に、RecurrentGemma モデルは、質問応答、要約、推論などのさまざまなテキスト生成タスクに適しています。RecurrentGemma は新しいアーキテクチャにより、Gemma よりも必要なメモリが少なく、長いシーケンスを生成する際の推論が高速化されます。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、要約対象のドキュメントなど)。
  • 出力: 入力に応じて生成された英語のテキスト(質問の回答、ドキュメントの要約など)。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

モデルデータ

トレーニング データセットとデータ処理

RecurrentGemma は、Gemma モデル ファミリーで使用されるものと同じトレーニング データとデータ処理を使用します。詳細な説明については、Gemma モデルカードをご覧ください。

実装情報

トレーニング中に使用されたハードウェアとフレームワーク

Gemma と同様に、RecurrentGemma は JAXML Pathways を使用して TPUv5e でトレーニングされました。

評価情報

ベンチマークの結果

評価方法

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

評価結果

ベンチマーク 指標 RecurrentGemma 2B
MMLU 5 ショット、トップ 1 38.4
HellaSwag ゼロショット 7,100
PIQA ゼロショット 7,850 万台
SocialIQA ゼロショット 5,180 万台
BoolQ ゼロショット 7,130 万台
WinoGrande 部分スコア 6,780 万台
CommonsenseQA 7 ショット 6,370 万台
OpenBookQA 47.2
ARC-e 7,290 万台
ARC-c 42.3
TriviaQA 5 ショット 52.5
自然な質問 5 ショット 11.5
HumanEval パス@1 2,130 万台
MBPP 3 ショット 28.8
GSM8K メジャー@1 13.4
MATH 4 ショット 11.0
AGIEval 23.8
BIG-Bench 3,530 万台
普通 44.6

倫理と安全性

倫理と安全性の評価

評価のアプローチ

Google の評価方法には、体系的な評価と、関連するコンテンツ ポリシーに関する内部レッドチーム テストがあります。レッドチームは、それぞれ異なる目標と人間による評価指標を持つ多くのチームによって実施されました。これらのモデルは、次のような倫理と安全性に関連するさまざまなカテゴリに対して評価されました。

  • Text-to-Text コンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力や残虐行為、ヘイトスピーチなどの安全ポリシーに関するプロンプトに対する人間による評価。
  • テキストからテキストの表現的有害性: WinoBias や BBQ データセットなどの関連する学術データセットに対してベンチマークを行います。
  • 記憶: 個人を特定できる情報の漏洩のリスクなど、トレーニング データの記憶の自動評価。
  • 大規模な危害: 化学、生物、放射線、核(CBRN)リスクなどの「危険な能力」のテストと、説得と欺瞞、サイバーセキュリティ、自律レプリケーション テスト。

評価結果

倫理と安全性の評価の結果は、子供の安全、コンテンツの安全性、表現上の危害、記憶、大規模な危害などのカテゴリに関する内部ポリシーを満たすための許容しきい値の範囲内です。堅牢な内部評価に加え、BBQ、Winogender、Winobias、RealToxicity、TruthfulQA などのよく知られた安全ベンチマークの結果も示します。

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity 平均 9.8 7.6
太字 39.3 5,240 万台
カラスペア top-1 4,111 万台 4,340 万台
BBQ Ambig top-1 6,260 7,110 万台
BBQ の曖昧性除去 top-1 58.4 50.8
ウィノジェンダー top-1 55.1 54.7
TruthfulQA 35.1 42.7
Winobias 1_2 58.4 5,640 万台
Winobias 2_2 9,000 7,540 万台
Toxigen 5,670 万台 50.0

モデルの使用と制限事項

既知の制限事項

これらのモデルには、ユーザーが注意する必要がある特定の制限事項があります。

  • トレーニング データ
    • トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルのレスポンスが制限される可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できる対象領域が決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示で構成できるタスクに適しています。自由回答形式のタスクや非常に複雑なタスクは、簡単なことではありません。
    • モデルのパフォーマンスは、提供されるコンテキストの量に影響されます(一般に、コンテキストが長くなるほど、特定のポイントまでより良い出力が得られます)。
  • 言語のあいまいさとニュアンス
    • 自然言語は本質的に複雑です。LLM は微妙なニュアンス、皮肉、比喩的な言葉を理解するのに苦労することがあります。
  • 事実の正確性
    • LLM は、トレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、ナレッジベースではありません。不正確または古い事実の記述が生成される可能性があります。
  • 常識
    • LLM は言語の統計パターンに依存している。特定の状況では常識的な推論を適用する機能がない可能性があります。

倫理的考慮事項とリスク

大規模言語モデル(LLM)の開発では、いくつかの倫理的懸念が生じます。オープンモデルを作成する際は、次の点について慎重に検討しました。

  • バイアスと公平性
    • 実際の大規模なテキストデータでトレーニングされた LLM には、トレーニング資料に埋め込まれた社会文化的バイアスが反映される可能性があります。これらのモデルには、このカードに記載されている入力データの前処理と事後評価が慎重に行われています。
  • 誤った情報と不正使用
    • LLM は、虚偽のテキスト、誤解を招くテキスト、有害なテキストを生成するために悪用される可能性があります。
    • モデルを責任を持って使用するためのガイドラインが提供されています。責任ある生成 AI ツールキットをご覧ください。
  • 透明性とアカウンタビリティ
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体でデベロッパーや研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

リスクの特定と軽減:

  • バイアスの永続化: モデルのトレーニング、微調整、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とデバイアス手法の調査を実施することをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインは不可欠です。デベロッパーには、特定のプロダクト ポリシーとアプリのユースケースに基づいて、注意を払い、適切なコンテンツ安全保護対策を実装することが推奨されます。
  • 悪意のある目的での不正使用: 技術的な制限、デベロッパーとエンドユーザー向けの教育により、LLM の悪意のあるアプリケーションを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されている。Gemma モデルの禁止された使用については、利用規約をご覧ください。
  • プライバシーの侵害: モデルは、PII(個人を特定できる情報)を削除するためにフィルタリングされたデータでトレーニングされました。デベロッパーには、プライバシー保護の手法によってプライバシーに関する規則を遵守することが推奨されます。

使用目的

アプリケーション

オープン大規模言語モデル(LLM)は、さまざまな業界や分野で幅広い用途に利用されています。次のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した可能性のあるユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキストの生成: これらのモデルを使用すると、詩、台本、コード、マーケティング コピー、メールの下書きなどのクリエイティブ テキスト形式を生成できます。
    • chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話インターフェースを強化します。
    • テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法のテストやアルゴリズムの開発を行い、この分野の発展に貢献するための基盤として機能します。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の訂正の支援やライティングの練習を行います。
    • ナレッジ探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、大量のテキストを探索する研究者を支援します。

利点

リリース時点では、このモデル ファミリーは、同様の規模のモデルと比較して、責任ある AI 開発のために一から設計された高性能なオープン大規模言語モデル実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同等のサイズのオープンモデルの代替モデルよりも優れたパフォーマンスを発揮することがわかっています。

特に、RecurrentGemma モデルは Gemma モデルと同等のパフォーマンスを達成しますが、推論中は高速で、特に長いシーケンスでは必要なメモリが少なくなります。