Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 モデルカード

Gemma 4 バナー

Hugging Face | GitHub | リリースブログ | ドキュメント
ライセンス: Apache 2.0 | 作成者: Google DeepMind

Gemma は、Google DeepMind が構築したオープンモデルのファミリーです。Gemma 4 モデルはマルチモーダルで、テキストと画像の入力を処理し（E2B、E4B、12B モデルでは音声もサポート）、テキスト出力を生成します。このリリースには、事前トレーニング済みと指示チューニング済みの両方のバリエーションでオープンウェイトモデルが含まれています。Gemma 4 は、最大 256K トークンのコンテキストウィンドウを備え、140 を超える言語で多言語サポートを維持しています。

高密度アーキテクチャと Mixture-of-Experts（MoE）アーキテクチャの両方を備えた Gemma 4 は、テキスト生成、コーディング、推論などのタスクに適しています。モデルは、E2B、E4B、12B、26B A4B、31B の 5 つのサイズで利用できます。サイズが多様であるため、ハイエンドのスマートフォンからノートパソコン、サーバーまで、さまざまな環境にデプロイでき、最先端の AI へのアクセスを民主化できます。

Gemma 4 では、次のような機能とアーキテクチャの重要な進歩が導入されています。

推論 - ファミリー内のすべてのモデルは、構成可能な思考モードを備えた高性能の推論者として設計されています。
拡張マルチモーダル - テキスト、画像（可変のアスペクト比と解像度をサポート）、動画、音声（E2B、E4B、12B モデルにネイティブに搭載）を処理します。
多様で効率的なアーキテクチャ - スケーラブルなデプロイ用に、さまざまなサイズの Dense バリアントと Mixture-of-Experts（MoE）バリアントを提供します。
オンデバイス向けに最適化 - 小規模なモデルは、ノートパソコンやモバイルデバイスでの効率的なローカル実行を想定して特別に設計されています。
コンテキストウィンドウの拡大 - スモールモデルは 128K のコンテキストウィンドウを備え、ミディアムモデルは 256K をサポートしています。
コーディングとエージェント機能の強化 - ネイティブ関数呼び出しのサポートとともに、コーディングベンチマークで著しい改善を実現し、高性能な自律エージェントを強化します。
ネイティブシステムプロンプトのサポート - Gemma 4 では system ロールのネイティブサポートが導入され、より構造化された制御可能な会話が可能になります。

モデルの概要

Gemma 4 モデルは、モバイルデバイスやエッジデバイス（E2B、E4B）からコンシューマー GPU やワークステーション（12B、26B A4B、31B）までのデプロイシナリオを対象に、各サイズで最先端のパフォーマンスを実現するように設計されています。推論、エージェントワークフロー、コーディング、マルチモーダル理解に適しています。

このモデルは、ローカルスライディングウィンドウアテンションとグローバルアテンションをインターリーブするハイブリッドアテンションメカニズムを採用しており、最終レイヤは常にグローバルになります。このハイブリッド設計により、複雑な長文コンテキストタスクに必要な深い認識を犠牲にすることなく、軽量モデルの処理速度とメモリ使用量の少なさを実現します。長いコンテキストのメモリを最適化するために、グローバルレイヤは統合されたキーと値を使用し、比例 RoPE（p-RoPE）を適用します。

高密度モデル

プロパティ	E2B	E4B	12B Unified	31B Dense
合計パラメータ数	23 億（エンベディングありの場合は 51 億）	45 億個の有効なパラメータ（エンベディングありの場合は 80 億個）	119 億 5,000 万	307 億
レイヤ	35	42	48	60
スライディングウィンドウ	512 トークン	512 トークン	1,024 トークン	1,024 トークン
コンテキストの長さ	128K トークン	128K トークン	256K トークン	256K トークン
語彙サイズ	262,000	262,000	262,000	262,000
サポートされているモダリティ	テキスト、画像、音声	テキスト、画像、音声	テキスト、画像、音声	テキスト、画像
Vision エンコーダパラメータ	約 1 億 5,000 万	約 1 億 5,000 万	-	約 5 億 5,000 万回
音声エンコーダパラメータ	約 3 億	約 3 億	-	音声が聞こえない

E2B と E4B の「E」は「有効」パラメータを表します。小型モデルには、オンデバイスデプロイでのパラメータ効率を最大化するために、レイヤごとのエンベディング（PLE）が組み込まれています。PLE は、モデルにレイヤやパラメータを追加するのではなく、各デコーダレイヤにすべてのトークンに対して独自の小さなエンベディングを与えます。これらのエンベディングテーブルは大きいですが、高速ルックアップにのみ使用されます。そのため、有効なパラメータ数は合計よりもはるかに少なくなります。

Gemma 4 12B Unified の「Unified」は、エンコーダなしのアーキテクチャを指します。他の Gemma 4 モデルは、専用のエンコーダを使用してマルチモーダルデータを処理してから LLM に渡します。Gemma 4 12B では、これらのエンコーダが完全に排除され、軽量な線形レイヤを介して、生の画像パッチと音声波形が LLM のエンベディング空間に直接投影されます。この統合アプローチにより、すべてのモダリティが単一のデコーダのみの Transformer に直接流れ込み、マルチモーダルレイテンシが短縮され、モデル全体を 1 回のパスでファインチューニングできます。

混合エキスパート（MoE）モデル

プロパティ	26B A4B MoE
合計パラメータ数	252 億
アクティブパラメータ	38 億
レイヤ	30
スライディングウィンドウ	1,024 トークン
コンテキストの長さ	256K トークン
語彙サイズ	262,000
エキスパートの数	8 個のアクティブなアイテム / 128 個のアイテム（1 個の共有アイテムを含む）
サポートされているモダリティ	テキスト、画像
Vision エンコーダパラメータ	約 5 億 5,000 万回

26B A4B の「A」は、モデルに含まれるパラメータの総数とは対照的に、「アクティブなパラメータ」を表します。推論時にパラメータの 4B サブセットのみを有効にすることで、Mixture-of-Experts モデルは合計 26B のパラメータよりもはるかに高速に実行されます。4B パラメータモデルとほぼ同じ速度で実行されるため、高密度 31B モデルと比較して高速な推論に最適です。

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。表にマークされている評価結果は、指示チューニングモデルのものです。

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B（思考なし）
MMLU Pro	85.2%	82.6%	77.2%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	77.5%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	72.0%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	1659	940	633	110
GPQA Diamond	84.3%	82.3%	78.8%	58.6%	43.4%	42.4%
Tau2（3 つの平均）	76.9%	68.2%	69.0%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	5.2%	-	-	-
検索付き HLE	26.5%	17.2%	-	-	-	-
BigBench Extra Hard	74.4%	64.8%	53.0%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	83.4%	76.6%	67.4%	70.7%
視覚
MMMU Pro	76.9%	73.8%	69.1%	52.6%	44.2%	49.7%
OmniDocBench 1.5（平均編集距離、低いほど良い）	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	79.7%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	48.7%	28.7%	23.5%	-
音声
CoVoST	-	-	38.5^*	35.54	33.47	-
FLEURS（数値が低いほど優れている）	-	-	0.069^*	0.08	0.09	-
長いコンテキスト
MRCR v2 8 針 128k（平均）	66.4%	44.1%	43.4%	25.4%	19.1%	13.5%

^*中国語は除く。

コア機能

Gemma 4 モデルは、テキスト、ビジョン、音声にわたる幅広いタスクを処理します。主な機能は次のとおりです。

思考 - モデルが回答する前にステップバイステップで思考できる組み込みの推論モード。
長いコンテキスト - 最大 128K トークン（E2B/E4B）と 256K トークン（12B/26B A4B/31B）のコンテキストウィンドウ。
画像理解 - オブジェクト検出、ドキュメント/PDF の解析、画面と UI の理解、グラフの理解、OCR（多言語対応を含む）、手書き文字認識、ポインティング。画像は、さまざまなアスペクト比と解像度で処理できます。
動画理解 - フレームのシーケンスを処理して動画を分析します。
インターリーブされたマルチモーダル入力 - 単一のプロンプト内で、テキストと画像を任意の順序で自由に組み合わせます。
関数呼び出し - 構造化されたツールの使用をネイティブでサポートし、エージェントワークフローを可能にします。
コーディング - コードの生成、補完、修正。
多言語対応 - 35 以上の言語をすぐにサポート。140 以上の言語で事前トレーニング済み。
音声（E2B、E4B、12B Unified のみ） - 複数の言語にわたる自動音声認識（ASR）と音声から翻訳テキストへの翻訳。

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニングデータセット

事前トレーニングデータセットは、2025 年 1 月のカットオフ日を含む、ウェブドキュメント、コード、画像、音声など、幅広いドメインとモダリティを網羅する大規模で多様なデータコレクションです。主なコンポーネントは次のとおりです。

ウェブドキュメント: ウェブテキストの多様なコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。トレーニングデータセットには、140 以上の言語のコンテンツが含まれています。
コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習し、コードを生成する能力とコード関連の質問を理解する能力が向上します。
数学: 数学のテキストでトレーニングすることで、モデルは論理的推論、記号表現、数学的なクエリへの対応を学習します。
画像: 幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。

これらの多様なデータソースの組み合わせは、さまざまなタスクやデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために不可欠です。

データの前処理

トレーニングデータに適用される主なデータクリーニングとフィルタリングの方法は次のとおりです。

CSAM フィルタリング: データ準備プロセスの複数の段階で厳格な CSAM（児童性的虐待のコンテンツ）フィルタリングを適用し、有害で違法なコンテンツを確実に除外しました。
センシティブデータフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他のセンシティブデータをトレーニングセットからフィルタリングしました。
その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

倫理と安全性

オープンモデルがエンタープライズインフラストラクチャの中心となるにつれて、来歴とセキュリティが最重要事項になります。Google DeepMind によって開発された Gemma 4 は、Google 独自の Gemini モデルと同じ厳格な安全性評価を受けています。

評価アプローチ

Gemma 4 モデルは、社内の安全性と責任ある AI チームと協力して開発されました。モデルの安全性を高めるため、自動評価と人間による評価の両方が実施されました。これらの評価は、Google の AI に関する原則と安全性ポリシーに沿ったもので、生成 AI モデルが次のような有害なコンテンツを生成することを防ぐことを目的としています。

児童性的虐待のコンテンツと搾取に関連するコンテンツ
危険なコンテンツ（自殺を助長するコンテンツ、現実世界で危害を及ぼす可能性のある行為を指示するコンテンツなど）
性的描写が露骨なコンテンツ
ヘイトスピーチ（例: 保護対象グループのメンバーを非人間的に扱う）
ハラスメント（人に対する暴力を推奨するなど）

評価結果

安全性テストのすべての分野で、以前の Gemma モデルと比較して、コンテンツの安全性のすべてのカテゴリで大幅な改善が見られました。全体として、Gemma 4 モデルは、不当な拒否を抑えながら、安全性の向上において Gemma 3 モデルと 3n モデルを大幅に上回っています。モデルの機能と動作を評価するため、すべてのテストは安全フィルターなしで実施されました。テキストからテキストへの変換と画像からテキストへの変換の両方で、すべてのモデルサイズにおいて、モデルはポリシー違反を最小限に抑え、以前の Gemma モデルのパフォーマンスを大幅に上回りました。

使用と制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

使用目的

マルチモーダルモデル（ビジョン、言語、音声の処理が可能）は、さまざまな業界やドメインで幅広い用途があります。以下に示す用途のリストはすべてを網羅しているわけではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースのコンテキスト情報を提供することです。

コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルを使用して、詩、スクリプト、コード、マーケティングコピー、メールの下書きなどのクリエイティブなテキスト形式を生成できます。
- chatbot と会話型 AI: カスタマーサービス、仮想アシスタント、インタラクティブアプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキストコーパス、研究論文、レポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルを使用して、テキスト通信用の視覚データを抽出、解釈、要約できます。
- 音声処理とインタラクション: E2B、E4B、12B モデルは音声入力を分析して解釈し、音声によるインタラクションと文字起こしを可能にします。
研究と教育
- 自然言語処理（NLP）と VLM の研究: これらのモデルは、研究者が VLM と NLP の手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として使用できます。
- Language Learning Tools: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- ナレッジ探索: 大量のテキストを探索する研究者を支援します。要約を生成したり、特定のトピックに関する質問に回答したりします。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニングデータにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニングデータセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレームワーク化できるタスクで優れたパフォーマンスを発揮します。オープンエンドのタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります（一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解するのが難しい場合があります。
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。不正確または古い事実に基づくステートメントが生成される可能性があります。
Common Sense
- モデルは言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的考慮事項とリスク

視覚言語モデル（VLM）の開発には、いくつかの倫理的な懸念があります。オープンモデルの作成にあたっては、次の点を慎重に検討しました。

バイアスと公平性
- 大規模な実際のテキストと画像データでトレーニングされた VLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。このカードで報告されているように、Gemma 4 モデルは、これらのバイアスのリスクを軽減するために、綿密な精査、入力データの事前処理、トレーニング後の評価を受けています。
誤った情報と不正使用
- VLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
透明性と説明責任
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM テクノロジーを利用できるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクトポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を講じることをおすすめします。
悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーの教育により、VLM の悪意のあるアプリケーションに対するリスクを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。
プライバシー侵害: 特定の個人情報やその他のセンシティブデータを除去するためにフィルタされたデータでモデルがトレーニングされました。デベロッパーは、プライバシーの保護技術を使用してプライバシーに関する規則を遵守することが推奨されます。
バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング（評価指標、人間によるレビューを使用）とバイアス除去手法の探索を行うことが推奨されます。

メリット

リリース時点で、このモデルファミリーは、同様のサイズのモデルと比較して、責任ある AI 開発向けにゼロから設計された高性能のオープンビジョン言語モデル実装を提供します。

Gemma 4 モデルカード

モデルの概要

高密度モデル

混合エキスパート（MoE）モデル

ベンチマークの結果

コア機能

おすすめの方法

1. サンプリングパラメータ

2. 思考モードの構成

3. マルチターンの会話

4. モダリティの順序

5. 可変画像解像度

6. 音声

7. 音声と動画の長さ

モデルデータ

トレーニングデータセット

データの前処理

倫理と安全性

評価アプローチ

評価結果

使用と制限事項

使用目的

制限事項

倫理的考慮事項とリスク

メリット

Gemma 4 モデルカード

モデルの概要

高密度モデル

混合エキスパート（MoE）モデル

ベンチマークの結果

コア機能

おすすめの方法

1. サンプリング パラメータ

2. 思考モードの構成

3. マルチターンの会話

4. モダリティの順序

5. 可変画像解像度

6. 音声

7. 音声と動画の長さ

モデルデータ

トレーニング データセット

データの前処理

倫理と安全性

評価アプローチ

評価結果

使用と制限事項

使用目的

制限事項

倫理的考慮事項とリスク

メリット

1. サンプリングパラメータ

トレーニングデータセット