RecurrentGemma モデルカード

モデルページ: RecurrentGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

RecurrentGemma は、Google で開発された新しい再帰アーキテクチャ上に構築されたオープン言語モデルのファミリーです。事前トレーニング済みバージョンと指示によるチューニング済みバージョンの両方が英語で使用できます。

Gemma と同様に、RecurrentGemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。新しいアーキテクチャにより、RecurrentGemma は Gemma よりもメモリ使用量が少なく、長いシーケンスを生成する際の推論が高速になります。

入力と出力

  • 入力: テキスト文字列(質問、プロンプト、要約するドキュメントなど)。
  • 出力: 入力に応じて生成された英語のテキスト(質問の回答、ドキュメントの要約など)。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

モデルデータ

トレーニング データセットとデータ処理

RecurrentGemma は、Gemma モデル ファミリーで使用されているのと同じトレーニング データとデータ処理を使用します。詳細については、Gemma モデルカードをご覧ください。

実装情報

トレーニング中に使用されるハードウェアとフレームワーク

Gemma と同様に、RecurrentGemma は JAXML Pathways を使用して TPUv5e でトレーニングされています。

評価情報

ベンチマークの結果

評価のアプローチ

これらのモデルは、テキスト生成のさまざまな側面を網羅するために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

評価の結果

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 ショット、トップ 1 38.4 60.5
HellaSwag ゼロショット 71.0 80.4
PIQA ゼロショット 78.5 81.3
SocialIQA ゼロショット 51.8 52.3
BoolQ ゼロショット 71.3 80.3
WinoGrande 部分的なスコア 67.8 73.6
CommonsenseQA 7 ショット 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 ショット 52.5 70.5
自然な質問 5 ショット 11.5 21.7
HumanEval pass@1 21.3 31.1
MBPP 3 ショット 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 ショット 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
平均 44.6 56.1

倫理と安全

倫理と安全性の評価

評価のアプローチ

Google の評価方法には、構造化評価と、関連するコンテンツ ポリシーの内部レッドチーム テストが含まれます。レッドチームは、それぞれ異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全に関連する次のようなさまざまなカテゴリで評価されました。

  • テキスト間コンテンツの安全性: 児童の性的虐待と搾取、ハラスメント、暴力や残虐行為、ヘイトスピーチなどの安全性に関するポリシーを対象としたプロンプトの人間による評価。
  • テキストからテキストへの表現による有害性: WinoBias や BBQ Dataset などの関連する学術データセットと比較します。
  • 記憶: 個人情報漏洩のリスクなど、トレーニング データの記憶の自動評価。
  • 大規模な被害: 化学、生物、放射線、核(CBRN)リスクなどの「危険な機能」のテスト、説得と欺瞞、サイバーセキュリティ、自律的な複製のテスト。

評価の結果

倫理と安全性の評価の結果が、子どもの安全、コンテンツの安全性、表現による有害性、記憶、大規模な有害性などのカテゴリに関する社内ポリシーを満たす許容しきい値内である。堅牢な内部評価に加えて、BBQ、Winogender、WinoBias、RealToxicity、TruthfulQA などのよく知られた安全性ベンチマークの結果もここに示されています。

ベンチマーク 指標 RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity 平均 9.8 7.60 10.3 8.8
太字 39.3 52.3 39.8 47.9
CrowS-Pairs top-1 41.1 43.4 38.7 39.5
BBQ の曖昧性 top-1 62.6 71.1 95.9 67.1
BBQ の不一致 top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

モデルの使用と制限事項

既知の制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

  • トレーニング データ
    • トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できる分野が決まります。
  • コンテキストとタスクの複雑さ
    • LLM は、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
    • モデルのパフォーマンスは、提供されるコンテキストの量によって影響を受ける可能性があります(一般的に、コンテキストが長くなると、ある程度までは出力が改善されます)。
  • 言語の曖昧さとニュアンス
    • 自然言語は本来複雑です。LLM は、微妙なニュアンス、皮肉、比喩的な表現を理解できないことがあります。
  • 事実の正確性
    • LLM はトレーニング データセットから学習した情報に基づいてレスポンスを生成しますが、知識ベースではありません。不正確な事実や古い事実が生成される可能性があります。
  • 常識
    • LLM は、言語の統計パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠落している場合があります。

倫理的な考慮事項とリスク

大規模言語モデル(LLM)の開発には、いくつかの倫理的な懸念が伴います。オープンモデルを作成するにあたり、Google は以下の点を慎重に検討しました。

  • バイアスと公平性
    • 大規模な実際のテキストデータでトレーニングされた LLM は、トレーニング マテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、このカードに入力データの前処理と事後評価が記載されています。
  • 誤った情報と不正使用
    • LLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
    • モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
  • 透明性とアカウンタビリティ
    • このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
    • 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーと研究者が LLM テクノロジーにアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと緩和策:

  • バイアスの固定化: モデルのトレーニング、ファインチューニングなどのユースケースで、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことをおすすめします。
  • 有害なコンテンツの生成: コンテンツの安全性に関するメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツ セーフティ保護対策を実装することをおすすめします。
  • 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育により、LLM の悪意のあるアプリケーションを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが用意されています。Gemma モデルの禁止されている使用方法については、利用規約をご覧ください。
  • プライバシー侵害: PII(個人を特定できる情報)が削除されるようにフィルタされたデータでモデルがトレーニングされています。デベロッパーは、プライバシー保護技術を使用してプライバシー規制に準拠することをおすすめします。

想定される用途

アプリケーション

オープン大規模言語モデル(LLM)は、さまざまな業界やドメインで幅広く応用されています。次の使用例は、網羅的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。

  • コンテンツの作成とコミュニケーション
    • テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティング コピー、メールの下書きなど、クリエイティブなテキスト形式の生成に使用できます。
    • Chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
    • テキスト要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
  • 研究と教育
    • 自然言語処理(NLP)研究: これらのモデルは、研究者が NLP 手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。
    • 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
    • ナレッジ探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索できるように支援します。

利点

リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高パフォーマンスのオープン大規模言語モデル実装を提供します。

このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデルよりも優れたパフォーマンスを提供することが示されています。

特に、RecurrentGemma モデルは Gemma モデルと同等のパフォーマンスを達成しますが、推論時の速度が速く、特に長いシーケンスではメモリが少なくて済みます。