モデルページ: Gemma
リソースと技術ドキュメント:
利用規約: 利用規約
作成者: Google DeepMind
モデル情報
入力と出力の概要と簡単な定義。
説明
Gemma は軽量な最先端のオープンモデルのファミリーであり、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築されています。Gemma 3 モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前トレーニング済みバリアントと指示用にチューニングされたバリアントの両方の重みはオープンです。Gemma 3 は、128,000 トークンの大きなコンテキスト ウィンドウを備え、140 を超える言語で多言語をサポートしています。また、以前のバージョンよりも多くのサイズが用意されています。Gemma 3 モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクと画像理解タスクに適しています。比較的小型であるため、ノートパソコン、デスクトップ、独自のクラウド インフラストラクチャなど、リソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスが民主化され、すべての人のためのイノベーションの促進に役立ちます。
入力と出力
- 入力: - 要約する質問、プロンプト、ドキュメントなどのテキスト文字列
- 896 x 896 ピクセルの解像度に正規化され、それぞれ 256 個のトークンにエンコードされた画像
- 4B、12B、27B サイズの場合は 128,000 トークン、1B サイズの場合は 32,000 トークンの合計入力コンテキスト
 
- 出力: - 入力に応じて生成されたテキスト(質問への回答、画像コンテンツの分析、ドキュメントの要約など)
- 出力コンテキストの合計: 40 億、120 億、270 億バイトの場合は最大 128,000 トークン、10 億バイトの場合はリクエストあたり 32,000 トークン(リクエスト入力トークンを除く)
 
引用
@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}
モデルデータ
モデルのトレーニングに使用されたデータと、データの処理方法。
トレーニング データセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされています。27B モデルは 14 兆個のトークンでトレーニングされ、12B モデルは 12 兆個のトークンでトレーニングされ、4B モデルは 4 兆個のトークンでトレーニングされ、1B モデルは 2 兆個のトークンでトレーニングされました。トレーニング データの知識のカットオフ日は 2024 年 8 月です。主なコンポーネントは次のとおりです。
- ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニング データセットには、140 を超える言語のコンテンツが含まれています。
- コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習できるため、コードの生成とコード関連の質問の理解能力が向上します。
- 数学: 数学的なテキストでトレーニングを行うと、モデルは論理的推論、記号表現を学習し、数学的なクエリに対応できます。
- 画像: 幅広い画像により、モデルは画像分析と画像データ抽出タスクを実行できます。
これらの多様なデータソースを組み合わせることは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダル モデルをトレーニングするために重要です。
データの前処理
トレーニング データに適用される主なデータのクリーンアップとフィルタリングの方法は次のとおりです。
- CSAM フィルタリング: 有害で違法なコンテンツを確実に除外するため、データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが適用されています。
- 機密データのフィルタリング: Gemma の事前トレーニング済みモデルを安全かつ信頼性の高いものにするため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニング セットから除外しました。
- その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づくフィルタリング。
実装情報
モデル内部の詳細。
ハードウェア
Gemma は、Tensor Processing Unit(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされました。視覚言語モデル(VLM)のトレーニングには、膨大な計算能力が必要です。TPU は、機械学習で一般的なマトリックス演算用に特別に設計されており、この分野で次のような利点があります。
- パフォーマンス: TPU は、VLM のトレーニングに関連する大量の計算を処理するように特別に設計されています。CPU と比較してトレーニングを大幅に高速化できます。
- メモリ: TPU には多くの場合、大量の高帯域幅メモリが搭載されているため、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
- スケーラビリティ: TPU Pod(TPU の大規模なクラスタ)は、大規模な基盤モデルの複雑さの増大に対応するためのスケーラブルなソリューションを提供します。トレーニングを複数の TPU デバイスに分散すると、より高速で効率的な処理が可能になります。
- 費用対効果: 多くのシナリオでは、特にトレーニングの高速化によって節約される時間とリソースを考慮すると、TPU は CPU ベースのインフラストラクチャよりも大規模なモデルのトレーニングに費用対効果の高いソリューションを提供できます。
- これらのメリットは、持続可能な運営に対する Google の取り組みと一致しています。
ソフトウェア
トレーニングには JAX と ML Pathways が使用されました。
JAX を使用すると、研究者は TPU などの最新世代のハードウェアを活用して、大規模なモデルをより迅速かつ効率的にトレーニングできます。ML Pathways は、複数のタスクにわたって一般化できる人工知能システムを構築するための Google の最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。
JAX と ML Pathways は、Gemini モデル ファミリーに関する論文で説明されているように一緒に使用されます。「JAX と Pathways の「単一コントローラ」プログラミング モデルにより、単一の Python プロセスでトレーニング実行全体をオーケストレートできるため、開発ワークフローが大幅に簡素化されます。」
評価
モデル評価の指標と結果。
ベンチマークの結果
これらのモデルは、テキスト生成のさまざまな側面を網羅するために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。IT とマークされた評価結果は、命令チューニング済みモデルのものです。PT とマークされた評価結果は、事前トレーニング済みモデルのものです。
推論と事実性
| ベンチマーク | n ショット | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B | 
|---|---|---|---|---|---|
| GPQA ダイヤモンド | ゼロショット | 19.2 | 30.8 | 40.9 | 42.4 | 
| SimpleQA | ゼロショット | 2.2 | 4.0 | 6.3 | 10.0 | 
| FACTS の接地 | - | 36.4 | 70.1 | 75.8 | 74.9 | 
| BIG-Bench Hard | ゼロショット | 39.1 | 72.2 | 85.7 | 87.6 | 
| BIG-Bench Extra Hard | ゼロショット | 7.2 | 11.0 | 16.3 | 19.3 | 
| IFEval | ゼロショット | 80.2 | 90.2 | 88.9 | 90.4 | 
| ベンチマーク | n ショット | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | 
|---|---|---|---|---|---|
| HellaSwag | 10 ショット | 62.3 | 77.2 | 84.2 | 85.6 | 
| BoolQ | ゼロショット | 63.2 | 72.3 | 78.8 | 82.4 | 
| PIQA | ゼロショット | 73.8 | 79.6 | 81.8 | 83.3 | 
| SocialIQA | ゼロショット | 48.9 | 51.9 | 53.4 | 54.9 | 
| TriviaQA | 5 ショット | 39.8 | 65.8 | 78.2 | 85.5 | 
| 自然な質問 | 5 ショット | 9.48 | 20.0 | 31.4 | 36.1 | 
| ARC-c | 25 ショット | 38.4 | 56.2 | 68.9 | 70.6 | 
| ARC-e | ゼロショット | 73.0 | 82.4 | 88.3 | 89.0 | 
| WinoGrande | 5 ショット | 58.2 | 64.7 | 74.3 | 78.8 | 
| BIG-Bench Hard | 少数ショット | 28.4 | 50.9 | 72.6 | 77.7 | 
| DROP | 1 回限り | 42.4 | 60.1 | 72.2 | 77.2 | 
STEM とコード
| ベンチマーク | n ショット | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B | 
|---|---|---|---|---|---|
| MMLU(Pro) | ゼロショット | 14.7 | 43.6 | 60.6 | 67.5 | 
| LiveCodeBench | ゼロショット | 1.9 | 12.6 | 24.6 | 29.7 | 
| Bird-SQL(開発版) | - | 6.4 | 36.3 | 47.9 | 54.4 | 
| 数学 | ゼロショット | 48.0 | 75.6 | 83.8 | 89.0 | 
| HiddenMath | ゼロショット | 15.8 | 43.0 | 54.5 | 60.3 | 
| MBPP | 3 ショット | 35.2 | 63.2 | 73.0 | 74.4 | 
| HumanEval | ゼロショット | 41.5 | 71.3 | 85.4 | 87.8 | 
| Natural2Code | ゼロショット | 56.0 | 70.3 | 80.7 | 84.5 | 
| GSM8K | ゼロショット | 62.8 | 89.2 | 94.4 | 95.9 | 
| ベンチマーク | n ショット | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | 
|---|---|---|---|---|
| MMLU | 5 ショット | 59.6 | 74.5 | 78.6 | 
| MMLU(Pro COT) | 5 ショット | 29.2 | 45.3 | 52.2 | 
| AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 | 
| MATH | 4 ショット | 24.2 | 43.3 | 50.0 | 
| GSM8K | 8 ショット | 38.4 | 71.0 | 82.6 | 
| GPQA | 5 ショット | 15.0 | 25.4 | 24.3 | 
| MBPP | 3 ショット | 46.0 | 60.4 | 65.6 | 
| HumanEval | ゼロショット | 36.0 | 45.7 | 48.8 | 
多言語対応
| ベンチマーク | n ショット | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B | 
|---|---|---|---|---|---|
| Global-MMLU-Lite | ゼロショット | 34.2 | 54.5 | 69.5 | 75.1 | 
| ECLeKTic | ゼロショット | 1.4 | 4.6 | 10.3 | 16.7 | 
| WMT24++ | ゼロショット | 35.9 | 46.8 | 51.6 | 53.4 | 
| ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | 
|---|---|---|---|---|
| MGSM | 2.04 | 34.7 | 64.3 | 74.3 | 
| Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 | 
| WMT24++(ChrF) | 36.7 | 48.4 | 53.9 | 55.7 | 
| FloRes | 29.5 | 39.2 | 46.0 | 48.8 | 
| XQuAD(すべて) | 43.9 | 68.0 | 74.5 | 76.8 | 
| ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 | 
| IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 | 
マルチモーダル
| ベンチマーク | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B | 
|---|---|---|---|
| MMMU(val) | 48.8 | 59.6 | 64.9 | 
| DocVQA | 75.8 | 87.1 | 86.6 | 
| InfoVQA | 50.0 | 64.9 | 70.6 | 
| TextVQA | 57.8 | 67.7 | 65.1 | 
| AI2D | 74.8 | 84.2 | 84.5 | 
| ChartQA | 68.8 | 75.7 | 78.0 | 
| VQAv2(val) | 62.4 | 71.6 | 71.0 | 
| MathVista(testmini) | 50.0 | 62.9 | 67.6 | 
| ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | 
|---|---|---|---|
| COCOcap | 102 | 111 | 116 | 
| DocVQA(val) | 72.8 | 82.3 | 85.6 | 
| InfoVQA(val) | 44.1 | 54.8 | 59.4 | 
| MMMU(ポルトガル語) | 39.2 | 50.3 | 56.1 | 
| TextVQA(val) | 58.9 | 66.5 | 68.6 | 
| RealWorldQA | 45.5 | 52.2 | 53.9 | 
| ReMI | 27.3 | 38.5 | 44.8 | 
| AI2D | 63.2 | 75.2 | 79.0 | 
| ChartQA | 63.6 | 74.7 | 76.3 | 
| VQAv2 | 63.9 | 71.2 | 72.9 | 
| BLINK | 38.0 | 35.9 | 39.6 | 
| OKVQA | 51.0 | 58.7 | 60.2 | 
| TallyQA | 42.5 | 51.8 | 54.3 | 
| SpatialSense VQA | 50.9 | 60.0 | 59.4 | 
| CountBenchQA | 26.1 | 17.8 | 68.0 | 
倫理と安全性
倫理と安全性の評価方法と結果。
評価のアプローチ
Google の評価方法には、構造化評価と、関連するコンテンツ ポリシーの内部レッドチーム テストが含まれます。レッドチームは、それぞれ異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全に関連する次のようなさまざまなカテゴリで評価されました。
- 子どもの安全: 児童性的虐待や搾取など、子どもの安全に関するポリシーを対象としたテキスト間および画像間プロンプトの評価。
- コンテンツの安全性: ハラスメント、暴力や残虐行為、ヘイトスピーチなどの安全性に関するポリシーを対象とした、テキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
- 表現による有害性: バイアス、ステレオタイプ、有害な関連付けや不正確さなど、安全性に関するポリシーを対象としたテキスト間および画像間プロンプトの評価。
Google では、開発レベルの評価に加えて、「保証評価」も実施しています。これは、責任ガバナンス意思決定のための「第三者」内部評価です。リリースに関する意思決定に役立てるため、モデル開発チームとは別に実施されます。大まかな検出結果はモデルチームにフィードバックされますが、過剰適合を防ぎ、結果が意思決定に役立つように、プロンプトセットは保持されます。保証評価の結果は、リリース審査の一環として責任と安全性に関する評議会に報告されます。
評価結果
安全性テストのすべての分野で、子供の安全、コンテンツの安全性、表現による有害性のカテゴリにおいて、以前の Gemma モデルと比較して大幅な改善が見られました。すべてのテストは、モデルの機能と動作を評価するために安全フィルタなしで実施されました。テキストからテキストへの変換と画像からテキストへの変換の両方で、すべてのモデルサイズで、モデルはポリシー違反を最小限に抑え、根拠のない推論に関して以前の Gemma モデルのパフォーマンスを大幅に改善しました。評価の制限事項として、英語のプロンプトのみを使用したことが挙げられます。
使用と制限事項
これらのモデルには、ユーザーが認識しておくべき特定の制限があります。
用途
オープンな視覚言語モデル(VLM)は、さまざまな業界や分野で幅広く応用されています。次の使用例のリストは包括的なものではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として検討した、考えられるユースケースに関するコンテキスト情報を提供することです。
- コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティング コピー、メールの下書きなど、クリエイティブなテキスト形式を生成するために使用できます。
- chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
- テキスト要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
- 画像データの抽出: これらのモデルは、テキスト通信用の視覚データを抽出し、解釈して要約するために使用できます。
 
- 研究と教育
- 自然言語処理(NLP)と VLM の研究: これらのモデルは、研究者が VLM と NLP の手法をテストし、アルゴリズムを開発し、分野の発展に貢献するための基盤として使用できます。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- ナレッジ探索: 要約の生成や特定のトピックに関する質問への回答により、研究者が大量のテキストを探索できるように支援します。
 
制限事項
- トレーニング データ
- トレーニング データの品質と多様性は、モデルの機能に大きく影響します。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニング データセットの範囲によって、モデルが効果的に処理できる分野が決まります。
 
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム設定できるタスクに適しています。自由度の高いタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、指定されたコンテキストの量によって影響を受ける可能性があります(通常、コンテキストが長くなると、ある程度までは出力が改善されます)。
 
- 言語の曖昧性とニュアンス
- 自然言語は本来複雑です。モデルは、微妙なニュアンス、皮肉、比喩的な表現を理解できない場合があります。
 
- 事実の正確性
- モデルはトレーニング データセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。不正確な事実や古い事実が生成される可能性があります。
 
- 常識
- モデルは言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠落している可能性があります。
 
倫理的な考慮事項とリスク
視覚言語モデル(VLM)の開発には、いくつかの倫理的な懸念があります。オープンモデルを作成するにあたり、Google は次の点を慎重に検討しました。
- バイアスと公平性
- 大規模な現実世界のテキストデータと画像データでトレーニングされた VLM は、トレーニング マテリアルに埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは慎重に精査され、このカードに記載されている入力データの前処理と事後評価を受けています。
 
- 誤った情報と不正使用
- VLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
 
- 透明性と説明責任:
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスの詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM 技術を利用できるようにすることで、イノベーションを共有する機会を提供します。
 
特定されたリスクと軽減策:
- バイアスの継続: モデルのトレーニング、ファインチューニング、その他のユースケースで、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことをおすすめします。
- 有害なコンテンツの生成: コンテンツの安全性に関するメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリのユースケースに基づいて、慎重に適切なコンテンツ セーフティ保護対策を実装することをおすすめします。
- 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーへの教育は、VLM の悪意のあるアプリケーションを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されています。Gemma モデルの禁止されている使用については、Gemma の使用禁止に関するポリシーをご覧ください。
- プライバシー侵害: 特定の個人情報やその他の機密データが削除されるようにフィルタされたデータでモデルがトレーニングされていました。デベロッパーは、プライバシー保護技術を使用してプライバシー規制に準拠することを推奨されます。
利点
リリース時点で、このモデル ファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高性能のオープン ビジョン言語モデル実装を提供します。
このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデルよりも優れたパフォーマンスを提供することが示されています。