生成と調整の例については、Gemma クックブックリポジトリをご覧ください。詳細

このページは Cloud Translation API によって翻訳されました。

RecurrentGemma モデルカード

モデルページ: RecurrentGemma

リソースと技術ドキュメント:

利用規約: 利用規約

作成者: Google

モデル情報

モデルの概要

説明

RecurrentGemma は、新しい反復型回帰モデルに基づいて構築されたオープン言語モデルのファミリーです。です。両方英語では、事前トレーニング済みバージョンと指示用調整バージョンが用意されています。

Gemma と同様に、RecurrentGemma モデルはさまざまなテキストに適しています。質問応答、要約、推論などの生成タスクが含まれます。 RecurrentGemma は新しいアーキテクチャであるため、必要なメモリは Gemma を使用し、長いシーケンスを生成する際の推論を高速化します。

入力と出力

入力: テキスト文字列（質問、プロンプト、ドキュメントなど）要点をまとめます）。
出力: 入力に応じて生成された英語テキスト（例: ドキュメントの概要など）が含まれます。

引用

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

モデルデータ

トレーニングデータセットとデータ処理

RecurrentGemma では、Google Cloud コンソールが使用するのと同じトレーニングデータとデータ処理が Gemma モデルファミリー。詳しくは、Gemma モデルをご覧ください。カード。

実装情報

トレーニング中に使用されるハードウェアとフレームワーク

高評価 Gemma RecurrentGemma のトレーニングは TPUv5e、 JAX と ML を使用パスウェイ。

評価情報

ベンチマークの結果

評価方法

これらのモデルを、さまざまなデータセットと指標を使用して、テキスト生成のさまざまな側面をカバーします。

評価の結果

ベンチマーク	指標	RecurrentGemma 2B	RecurrentGemma 9B
MMLU	5 ショット、トップ 1	38.4	60.5
HellaSwag	ゼロショット	71.0	80.4
PIQA	ゼロショット	78.5	81.3
SocialIQA	ゼロショット	51.8	52.3
BoolQ	ゼロショット	71.3	80.3
WinoGrande	部分スコア	67.8	73.6
CommonsenseQA	7 ショット	63.7	73.2
OpenBookQA		47.2	51.8
ARC-e		72.9	78.8
ARC-c		42.3	52.0
TriviaQA	5 ショット	52.5	70.5
自然な質問	5 ショット	11.5	21.7
HumanEval	パス@1	2,130	31.1
MBPP	スリーショット	28.8	42.0
GSM8K	maj@1	13.4	42.6
MATH	4 ショット	11.0	23.8
AGIEval		23.8	39.3
BIG ベンチ		35.3	55.2
平均		44.6	56.1

倫理と安全

倫理と安全性の評価

評価の手法

FireEye の評価方法には、体系的な評価と社内のレッドチーム演習があります。関連するコンテンツポリシーのテスト。レッドチーム・サービスは、それぞれに異なる目標と人間による評価指標があります。これらの生成 AI に関連するさまざまなカテゴリに照らし合わせて評価し、倫理と安全を守ることを目的としています。

テキストからテキストへのコンテンツの安全性: 安全性に関するプロンプトを人間が評価児童の性的虐待と搾取、ハラスメント、暴力を含むポリシー悪意のある表現が含まれます
テキストからテキストへの表現による有害性: 関連する学術的なベンチマークと比較します。データセットに分割することもできます
記憶化: トレーニングデータの記憶の自動評価。これには個人情報の漏えいのリスクが含まれます
大規模な危害: 化学、生物、放射線、核（CBRN）のリスク。テストも実施できます説得と欺瞞、サイバーセキュリティ、自律複製です。

評価の結果

倫理と安全性の評価の結果が許容しきい値の範囲内である会議用社内向けポリシー（子どもの安全、コンテンツの安全性、代表的な危害、大規模に害を及ぼす可能性があります。堅牢な内部評価に加えて、有名な安全性ベンチマークの結果ですここには、RealToxicity、TruthfulQA が示されています。

ベンチマーク	指標	RecurrentGemma 2B	RecurrentGemma 20 億人の IT	RecurrentGemma 9B	RecurrentGemma 9B IT
RealToxicity	平均	9.8	7.60	10.3	8.8
BOLD		39.3	52.3	39.8	47.9
カラスペア	top-1	41.1	43.4	38.7	3,950
バーベキューアンビッグ	top-1	62.6	71.1	95.9	67.1
BBQ の曖昧性除去	top-1	58.4	50.8	78.6	78.9
ウィノジェンダー	top-1	55.1	54.7	59.0	64.0
TruthfulQA		35.1	42.7	38.6	47.7
WinoBias 1_2		58.4	56.4	6,150	60.6
WinoBias 2_2		90.0	75.4	90.2	90.3
Toxigen		56.7	50.0	58.8	64.5

モデルの使用方法と制限事項

既知の制限事項

これらのモデルには、ユーザーが注意すべきいくつかの制限があります。

トレーニングデータ
- トレーニングデータの品質と多様性がモデルの能力を表します。トレーニングデータにバイアスやギャップがあると、モデルのレスポンスの制限に適応できます
- トレーニングデータセットの範囲によってモデルのサブジェクトエリアが決まります効果的に対処できます
コンテキストとタスクの複雑さ
- LLM は、明確なプロンプトとプロンプトで構成できるタスクに向いています。できます。終わりのないタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスはコンテキストの量に影響される場合がある（コンテキストが長いほど、通常は出力の品質が向上し、あるとします。
言語のあいまいさとニュアンス
- 自然言語は本質的に複雑です。LLM は情報を把握するのが難しい場合がある微妙なニュアンス、皮肉、比喩的な表現などです。
事実の正確性
- LLM は、質問から学習した情報に基づいて回答を生成するナレッジベースではありませんがまた、不正確または古い事実を明記する
常識的
- LLM は言語の統計パターンに依存しています。コンプライアンス要件が特定の状況で常識的な推論を応用する能力。

倫理的な考慮事項とリスク

大規模言語モデル（LLM）の開発には、いくつかの倫理的懸念があります。オープンモデルの作成にあたり、Google は次の点を慎重に考慮しました。

バイアスと公平性
- 大規模な実際のテキストデータでトレーニングされた LLM は、社会的文化的偏見これらのモデルは入念な精査を受け、入力データの前処理について説明し、事後評価も確認できます。
誤った情報と誤用
- LLM が悪用されて、虚偽、誤解を招く、有害です
- 責任ある使用に関するガイドラインが提供されている。詳細については、責任ある生成 AI ツールキット。
透明性とアカウンタビリティ
- このモデルカードには、モデルの詳細が構築、機能、制限、評価プロセスについて確認しました。
- 責任を持って開発されたオープンモデルは、 LLM テクノロジーを開発者や開発者が利用しやすくすることで、 AI エコシステム全体の研究者や

特定されたリスクと軽減：

バイアスの永続化: 継続的なモニタリングが推奨されます。（評価指標、人間によるレビューを使用）と、バイアス除去の探求モデルトレーニング、ファインチューニング、その他のユースケースで使用します。
有害なコンテンツの生成: コンテンツの仕組みとガイドライン安全性が不可欠ですデベロッパーの皆様には、具体的なコンテンツの安全保護対策をアプリケーションのユースケース。
悪意のある目的での不正使用: 技術的な制約、デベロッパーおよびエンドユーザーへの教育は、LLM の悪意のあるアプリケーションを軽減するのに役立ちます。不正使用を報告するための教育リソースと報告メカニズム表示されます。Gemma モデルの使用禁止については、利用規約あります。
プライバシーの侵害: モデルは、 PII（個人を特定できる情報）。デベロッパーは、プライバシー保護の手法でプライバシー規制を遵守する。

想定用途

アプリケーション

オープン大規模言語モデル（LLM）は、さまざまな分野に幅広く応用でき、多岐にわたります。以下の潜在的な使用法は、包括的ですこのリストの目的は考えられるユースケースについての説明トレーニングと開発です

コンテンツの作成とコミュニケーション
- テキスト生成: クリエイティブテキストの生成に使用できるモデル詩、スクリプト、コード、マーケティングコピー、メールの下書きなどの形式
- Chatbot と会話型 AI: 対話インターフェースをカスタマーサービス、仮想アシスタント、インタラクティブアプリケーションなどが挙げられます。
- テキスト要約: テキストコーパスの簡潔な要約を生成します。研究論文やレポートなどです
研究と教育
- 自然言語処理（NLP）研究: これらのモデルは、研究者が NLP 手法を試す際の基盤として、アルゴリズムを開発し、この分野の進歩に貢献しています。
- 言語学習ツール: インタラクティブな言語学習をサポート文法の訂正や作文の練習をします。
- 知識の探索: 大規模な体の探索を支援する研究者要約を生成したり、特定のトピックに関する質問に答えたりして、できます。

利点

リリース時点で、このファミリーのモデルは高パフォーマンスのオープンな責任ある AI のために一から設計され、大規模言語モデルの実装が同様の規模のモデルと比較した AI 開発のコスト。

これらのモデルは、このドキュメントで説明するベンチマーク評価指標を使用して、他の同等の規模のオープンモデルよりも優れたパフォーマンスを発揮することがわかっていますできます。

特に、RecurrentGemma モデルは Gemma に匹敵するパフォーマンスを実現推論処理が高速になり、特に生成できます。

RecurrentGemma モデルカード

モデル情報

モデルの概要

説明

入力と出力

引用

モデルデータ

トレーニング データセットとデータ処理

実装情報

トレーニング中に使用されるハードウェアとフレームワーク

評価情報

ベンチマークの結果

評価方法

評価の結果

倫理と安全

倫理と安全性の評価

評価の手法

評価の結果

モデルの使用方法と制限事項

既知の制限事項

倫理的な考慮事項とリスク

想定用途

アプリケーション

利点

トレーニングデータセットとデータ処理