
Hugging Face |
GitHub |
リリースブログ |
ドキュメント
ライセンス: Apache 2.0 | 作成者: Google DeepMind
Gemma は、Google DeepMind によって構築されたオープンモデルのファミリーです。Gemma 4 モデルはマルチモーダルで、テキストと画像の入力を処理し(音声は小規模モデルでサポート)、テキスト出力を生成します。このリリースには、事前トレーニング済みと指示チューニング済みの両方のバリエーションでオープンウェイト モデルが含まれています。Gemma 4 は、最大 256,000 トークンのコンテキスト ウィンドウを備え、140 を超える言語で多言語サポートを維持しています。
高密度アーキテクチャと Mixture-of-Experts(MoE)アーキテクチャの両方を備えた Gemma 4 は、テキスト生成、コーディング、推論などのタスクに適しています。モデルは、E2B、E4B、26B A4B、31B の 4 つの異なるサイズで利用できます。サイズが多様であるため、ハイエンドのスマートフォンからノートパソコンやサーバーまで、さまざまな環境にデプロイでき、最先端の AI へのアクセスを民主化できます。
Gemma 4 では、機能とアーキテクチャの重要な進歩が導入されています。
推論 - ファミリー内のすべてのモデルは、構成可能な思考モードを備えた高性能の推論者として設計されています。
拡張マルチモーダル - テキスト、画像(可変アスペクト比と解像度をサポート)、動画、音声(E2B モデルと E4B モデルにネイティブに搭載)を処理します。
多様で効率的なアーキテクチャ - スケーラブルなデプロイ用に、さまざまなサイズの Dense バリアントと Mixture-of-Experts(MoE)バリアントを提供します。
オンデバイス向けに最適化 - 小型モデルは、ノートパソコンやモバイル デバイスでの効率的なローカル実行を想定して特別に設計されています。
コンテキスト ウィンドウの拡大 - スモールモデルは 128K のコンテキスト ウィンドウを備え、ミディアム モデルは 256K をサポートしています。
コーディングとエージェント機能の強化 - ネイティブ関数呼び出しのサポートとともに、コーディング ベンチマークで著しい改善を実現し、高性能な自律型エージェントを強化します。
ネイティブ システム プロンプトのサポート - Gemma 4 では
systemロールのネイティブ サポートが導入され、より構造化された制御可能な会話が可能になります。
モデルの概要
Gemma 4 モデルは、モバイル デバイスやエッジデバイス(E2B、E4B)からコンシューマー GPU やワークステーション(26B A4B、31B)までのデプロイ シナリオを対象に、各サイズで最先端のパフォーマンスを実現するように設計されています。推論、エージェント ワークフロー、コーディング、マルチモーダル理解に適しています。
このモデルは、ローカル スライディング ウィンドウ アテンションとグローバル アテンションをインターリーブするハイブリッド アテンション メカニズムを採用しており、最終レイヤは常にグローバルになります。このハイブリッド設計により、複雑な長文コンテキスト タスクに必要な深い認識を犠牲にすることなく、軽量モデルの処理速度とメモリ使用量の小ささを実現します。長いコンテキストのメモリを最適化するために、グローバル レイヤは統合されたキーと値を使用し、比例 RoPE(p-RoPE)を適用します。
高密度モデル
| プロパティ | E2B | E4B | 31B Dense |
|---|---|---|---|
| 合計パラメータ数 | 23 億(エンベディングありの場合は 51 億) | 45 億(エンベディングありの場合は 80 億) | 307 億 |
| レイヤ | 35 | 42 | 60 |
| スライディング ウィンドウ | 512 トークン | 512 トークン | 1,024 トークン |
| コンテキストの長さ | 128K トークン | 128K トークン | 256K トークン |
| 語彙サイズ | 262,000 | 262,000 | 262,000 |
| サポートされているモダリティ | テキスト、画像、音声 | テキスト、画像、音声 | テキスト、画像 |
| Vision エンコーダ パラメータ | 約 1 億 5,000 万 | 約 1 億 5,000 万 | 約 5 億 5,000 万回 |
| 音声エンコーダ パラメータ | 約 3 億 | 約 3 億 | 音声が聞こえない |
E2B と E4B の「E」は「有効」パラメータを表します。小さいモデルには、オンデバイス デプロイでのパラメータ効率を最大化するために、レイヤごとのエンベディング(PLE)が組み込まれています。PLE は、モデルにレイヤやパラメータを追加するのではなく、各デコーダ レイヤにトークンごとに独自の小さなエンベディングを与えます。これらのエンベディング テーブルは大きいですが、高速ルックアップにのみ使用されます。そのため、有効なパラメータ数は合計よりもはるかに少なくなります。
混合エキスパート(MoE)モデル
| プロパティ | 26B A4B MoE |
|---|---|
| 合計パラメータ数 | 252 億 |
| アクティブ パラメータ | 38 億 |
| レイヤ | 30 |
| スライディング ウィンドウ | 1,024 トークン |
| コンテキストの長さ | 256K トークン |
| 語彙サイズ | 262,000 |
| エキスパートの数 | 8 個のアクティブなファイル / 128 個のファイル(1 個の共有ファイルを含む) |
| サポートされているモダリティ | テキスト、画像 |
| Vision エンコーダ パラメータ | 約 5 億 5,000 万回 |
26B A4B の「A」は、モデルに含まれるパラメータの総数とは対照的に、「アクティブなパラメータ」を表します。推論時にパラメータの 4B サブセットのみを有効にすることで、Mixture-of-Experts モデルは合計 26B のパラメータよりもはるかに高速に実行されます。そのため、4B パラメータ モデルとほぼ同じ速度で実行されるため、31B の高密度モデルと比較して高速な推論に最適です。
ベンチマークの結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。表にマークされている評価結果は、指示チューニング モデルのものです。
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B(思考なし) | |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2(3 回の平均) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| HLE no tools | 19.5% | 8.7% | - | - | - |
| 検索付き HLE | 26.5% | 17.2% | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| 視覚 | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5(平均編集距離、低いほど良い) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| 音声 | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS(数値が低いほど優れている) | - | - | 0.08 | 0.09 | - |
| 長いコンテキスト | |||||
| MRCR v2 8 針 128k(平均) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
コア機能
Gemma 4 モデルは、テキスト、ビジョン、音声にわたる幅広いタスクを処理します。主な機能は次のとおりです。
- 思考モード - 回答する前にモデルがステップバイステップで思考できる組み込みの推論モード。
- 長いコンテキスト - 最大 128K トークン(E2B/E4B)と 256K トークン(26B A4B/31B)のコンテキスト ウィンドウ。
- 画像理解 - オブジェクト検出、ドキュメント/PDF の解析、画面と UI の理解、グラフの理解、OCR(多言語対応を含む)、手書き文字認識、ポインティング。画像は、さまざまなアスペクト比と解像度で処理できます。
- 動画理解 - フレームのシーケンスを処理して動画を分析します。
- インターリーブ マルチモーダル入力 - 単一のプロンプト内で、テキストと画像を任意の順序で自由に組み合わせます。
- 関数呼び出し - 構造化されたツールの使用をネイティブにサポートし、エージェント ワークフローを可能にします。
- コーディング - コードの生成、補完、修正。
- 多言語対応 - 35 以上の言語をすぐにサポートし、140 以上の言語で事前トレーニングされています。
- 音声(E2B と E4B のみ) - 複数の言語にわたる自動音声認識(ASR)と音声から翻訳テキストへの翻訳。
スタートガイド
すべての Gemma 4 モデルは、最新バージョンの Transformers で使用できます。まず、環境に必要な依存関係をインストールします。
pip install -U transformers torch accelerate
すべてインストールしたら、次のコードを使用してモデルを読み込みます。
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
モデルが読み込まれたら、出力の生成を開始できます。
# Prompt
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse thinking
processor.parse_response(response)
推論を有効にするには、enable_thinking=True を設定します。parse_response 関数が思考出力を解析します。
おすすめの方法
最適なパフォーマンスを得るには、次の構成とベスト プラクティスを使用します。
1. サンプリング パラメータ
すべてのユースケースで次の標準化されたサンプリング構成を使用します。
temperature=1.0top_p=0.95top_k=64
2. 思考モードの構成
Gemma 3 と比較して、モデルは標準の system、assistant、user ロールを使用します。思考プロセスを適切に管理するには、次の制御トークンを使用します。
- 思考モードのトリガー: システム プロンプトの先頭に
<|think|>トークンを含めることで、思考モードが有効になります。思考を無効にするには、トークンを削除します。 - 標準生成: 思考モードが有効になっている場合、モデルは内部推論を出力し、その後に次の構造を使用して最終的な回答を出力します。
<|channel>thought\n[内部推論]<channel|> - 思考動作が無効の場合: E2B バリアントと E4B バリアントを除くすべてのモデルで、思考が無効になっている場合でも、モデルはタグを生成しますが、思考ブロックは空になります(
<|channel>thought\n<channel|>[最終回答])。
Transformers や llama.cpp などの多くのライブラリは、チャット テンプレートの複雑さを処理します。
3. マルチターンの会話
- 履歴に思考コンテンツがない: マルチターンの会話では、過去のモデル出力には最終的なレスポンスのみを含める必要があります。前のモデルターンの思考は、次のユーザーターンが始まる前に追加してはなりません。
4. モダリティ順序
- マルチモーダル入力で最適なパフォーマンスを得るには、プロンプトのテキストの前に画像や音声コンテンツを配置します。
5. 可変画像解像度
Gemma 4 は、可変アスペクト比に加えて、構成可能なビジュアル トークン バジェットを介して可変画像解像度をサポートしています。このバジェットは、画像の表現に使用されるトークンの数を制御します。トークン予算を増やすと、追加のコンピューティング コストが発生しますが、より多くの視覚的な詳細が保持されます。一方、予算を減らすと、きめ細かい理解を必要としないタスクの推論を高速化できます。
- サポートされているトークン バジェットは、70、140、280、560、1120 です。
- 分類、キャプション、動画理解など、きめ細かい詳細よりも高速な推論と多くのフレームの処理が重視される場合は、低い予算を使用します。
- OCR、ドキュメントの解析、小さなテキストの読み取りなどのタスクには、より高い予算を使用します。
6. 音声
音声処理には次のプロンプト構造を使用します。
- 音声認識(ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- 自動音声翻訳(AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. 音声と動画の長さ
すべてのモデルで画像入力をサポートし、動画をフレームとして処理できます。E2B モデルと E4B モデルは音声入力もサポートしています。音声の最大長は 30 秒です。動画は、画像が 1 秒あたり 1 フレームで処理されると仮定すると、最大 60 秒までサポートされます。
モデルデータ
モデルのトレーニングに使用されたデータと、データの処理方法。
トレーニング データセット
事前トレーニング データセットは、2025 年 1 月のカットオフ日を含む、ウェブ ドキュメント、コード、画像、音声など、幅広いドメインとモダリティを網羅する大規模で多様なデータ コレクションです。主なコンポーネントは次のとおりです。
- ウェブ ドキュメント: ウェブテキストの多様なコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。トレーニング データセットには、140 以上の言語のコンテンツが含まれています。
- コード: モデルをコードに公開すると、プログラミング言語の構文とパターンを学習し、コードを生成する能力とコード関連の質問を理解する能力が向上します。
- 数学: 数学のテキストでトレーニングすることで、モデルは論理的推論、記号表現、数学的クエリへの対応を学習します。
- 画像: 幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、さまざまなタスクやデータ形式を処理できる強力なマルチモーダル モデルをトレーニングするために不可欠です。
データの前処理
トレーニング データに適用される主なデータ クリーニングとフィルタリングの方法は次のとおりです。
- CSAM フィルタリング: データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングを適用し、有害で違法なコンテンツが除外されるようにしました。
- センシティブ データ のフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他のセンシティブ データをトレーニング セットからフィルタリングしました。
- その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。
倫理と安全性
オープンモデルがエンタープライズ インフラストラクチャの中心となるにつれて、来歴とセキュリティが最重要事項になります。Google DeepMind によって開発された Gemma 4 は、Google 独自の Gemini モデルと同じ厳格な安全性評価を受けています。
評価アプローチ
Gemma 4 モデルは、社内の安全性と責任ある AI チームとのパートナーシップで開発されました。モデルの安全性を向上させるため、自動評価と人間による評価の両方が実施されました。これらの評価は、Google の AI に関する原則と安全性ポリシーに沿ったもので、生成 AI モデルが次のような有害なコンテンツを生成することを防ぐことを目的としています。
- 児童性的虐待のコンテンツと搾取に関連するコンテンツ
- 危険なコンテンツ(自殺を助長するコンテンツ、現実世界で危害を及ぼす可能性のある行為を指示するコンテンツなど)
- 性的描写が露骨なコンテンツ
- ヘイトスピーチ(例: 保護対象グループのメンバーを非人間的に扱う)
- ハラスメント(人に対する暴力を推奨するなど)
評価結果
安全性テストのすべての分野で、以前の Gemma モデルと比較して、コンテンツの安全性のすべてのカテゴリで大幅な改善が見られました。全体として、Gemma 4 モデルは、不当な拒否を抑えながら、安全性の向上において Gemma 3 モデルと 3n モデルを大幅に上回っています。すべてのテストは、モデルの機能と動作を評価するために、安全フィルターなしで実施されました。テキストからテキストへの変換と画像からテキストへの変換の両方で、すべてのモデルサイズで、モデルはポリシー違反を最小限に抑え、以前の Gemma モデルのパフォーマンスを大幅に上回りました。
使用と制限事項
これらのモデルには、ユーザーが認識しておくべき制限事項があります。
使用目的
マルチモーダル モデル(ビジョン、言語、音声の処理が可能)は、さまざまな業界やドメインで幅広い用途があります。以下に示す用途のリストはすべてを網羅しているわけではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースのコンテキスト情報を提供することです。
- コンテンツの作成とコミュニケーション
- テキスト生成: これらのモデルを使用して、詩、スクリプト、コード、マーケティング コピー、メールのドラフトなどのクリエイティブなテキスト形式を生成できます。
- chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルを使用して、テキスト通信用の視覚データを抽出、解釈、要約できます。
- 音声処理とインタラクション: 小さいモデル(E2B と E4B)は、音声入力を分析して解釈し、音声駆動型のインタラクションと文字起こしを可能にします。
- 研究と教育
- 自然言語処理(NLP)と VLM の研究: これらのモデルは、研究者が VLM と NLP の手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として使用できます。
- 言語学習ツール: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- 知識の探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索するのを支援します。
制限事項
- トレーニング データ
- トレーニング データの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
- トレーニング データセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレームワーク化できるタスクで優れたパフォーマンスを発揮します。オープンエンドのタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解するのが難しい場合があります。
- 事実の正確性
- モデルはトレーニング データセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。不正確または古い事実に基づくステートメントが生成される可能性があります。
- 常識
- モデルは言語の統計パターンに依存します。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。
倫理的考慮事項とリスク
視覚言語モデル(VLM)の開発には、いくつかの倫理的な懸念があります。オープンモデルの作成にあたっては、次の点を慎重に検討しました。
- バイアスと公平性
- 大規模な実世界のテキストと画像データでトレーニングされた VLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。このカードで報告されているように、Gemma 4 モデルは、これらのバイアスのリスクを軽減するために、綿密な精査、入力データの事前処理、トレーニング後の評価が行われました。
- 誤った情報と不正使用
- VLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
- 透明性と説明責任
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM テクノロジーを利用できるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと軽減策:
- 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を慎重に実施することが推奨されます。
- 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーの教育により、VLM の悪意のあるアプリケーションに対するリスクを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。
- プライバシー侵害: 特定の個人情報やその他のセンシティブ データを除外するためにフィルタされたデータでモデルがトレーニングされました。デベロッパーは、プライバシーの保護技術を使用してプライバシーに関する規則を遵守することが推奨されます。
- バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことが推奨されます。
メリット
リリース時点で、このモデル ファミリーは、同サイズのモデルと比較して、責任ある AI 開発向けにゼロから設計された高性能のオープン ビジョン言語モデル実装を提供します。