Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma モデルカード

Hugging Face | GitHub | リリースブログ | ドキュメント
ライセンス: Apache 2.0 | 作成者: Google DeepMind

DiffusionGemma は、Google DeepMind によって構築された生成モデルです。26B A4B Mixture-of-Experts（MoE）Gemma 4 アーキテクチャに基づく DiffusionGemma は、離散拡散を使用してトークンを生成します。このオープンウェイトモデルはマルチモーダルで、テキスト、画像、動画の入力を処理してテキスト出力を生成します。

MoE 基盤上に構築された DiffusionGemma は、さまざまなハードウェア環境でデプロイ可能な状態を維持しながら、生成速度（トークン / 秒）を向上させるように設計されています。DiffusionGemma は、Gemma 4 のアーキテクチャと機能の進歩に基づいて構築されており、次のようなコア機能が導入されています。

Discrete Text Diffusion - トークンごとの自己回帰からブロック自己回帰マルチキャンバスサンプリングに移行します。トークンブロック（「キャンバス」）を並行して反復的にノイズ除去することでテキストを生成し、デコード速度を大幅に向上させます。
マルチモーダル入力処理 - インターリーブされたテキスト、画像（可変アスペクト比と解像度をサポート）、動画の入力を処理して、テキスト出力を生成します。
Encoder-Decoder アーキテクチャ - 自己回帰エンコーダを使用してプロンプトコンテキストを処理してキャッシュに保存し、生成キャンバスに双方向注意を適用するデコーダと組み合わせます。
Mixture-of-Experts（MoE）の効率性 - スパース MoE 設計（合計 128 個のうち 8 個のアクティブエキスパート）を活用して、ローカル実行に適した低メモリ使用量を維持しながら、強力な推論機能を提供します。
思考モード（推論） - 構成可能な思考モードを備えた、高性能な推論ツールとして設計されています。
小バッチサイズの推論向けに最適化 - 単一の高性能アクセラレータで低レイテンシかつ高速の生成を行うように特別に設計されています。
ネイティブシステムプロンプトのサポート - Gemma 4 と同様に、system ロールの更新をサポートし、より構造化された制御可能な会話を可能にします。

モデルの概要

DiffusionGemma は、標準の因果言語モデルの順次ボトルネックを軽減するように設計されています。推論速度に最適化されたエンコーダデコーダアーキテクチャを採用しています。

エンコーダはプレフィル容量で動作し、最初のプロンプトを処理して KV キャッシュを生成します。デコーダは、双方向アテンションを使用してトークンの入力ブロック（キャンバス）を処理し、クロスアテンションを介してキャッシュに保存されたコンテキストにアクセスします。

推論中、DiffusionGemma はマルチキャンバスサンプリングを活用します。モデルは一度に 1 つのトークンを生成するのではなく、拡散サンプラーを使用してトークンのブロック全体を反復的にノイズ除去します。キャンバスのノイズ除去が完了すると、エンコーダによって処理され、KV キャッシュに追加されます。その後、モデルは次のキャンバスを生成します。このブロック自己回帰アプローチにより、テキスト生成の高速化が実現します。

DiffusionGemma

ベンチマークの結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。表に示されている評価結果は、推奨の Entropy Bound（EB）サンプラー（下記のベストプラクティスを参照）を使用した、指示チューニング済みモデルのものです。

ベンチマーク	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 no tools	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
Codeforces ELO	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2（3 つの平均）	56.2%	68.2%
HLE no tools	11.0%	8.7%
検索付き HLE	11.9%	17.2%
BigBench Extra Hard	47.6%	64.8%
MMMLU	81.5%	86.3%
視覚
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5（平均編集距離、低いほど良い）	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
長いコンテキスト
MRCR v2 8 needle 128k（平均）	32.0%	44.1%

コア機能

DiffusionGemma は、テキストとビジョンにわたる幅広いタスクを処理します。主な機能は次のとおりです。

高速生成 - 拡散サンプリングによる 256 個のトークンの並列ノイズ除去により、フォワードパスごとに 15 ～ 20 個のトークンを生成することで低レイテンシを実現します。これにより、バッチサイズが小さい設定（H100、FP8）で、ユーザーあたりの生成速度が 1 秒あたり 1,100 個のトークンを超えることが可能になります。
適応型推論時間計算 - コードなどの単純なプロンプトや構造化されたタスクでは、ノイズ除去の手順が少なくて済むため、タスクの複雑さに基づいてトークン / 秒の速度を動的に調整できます。
思考 - モデルが回答する前にステップバイステップで思考できる組み込みの推論モード。
長いコンテキスト - 最大 256,000 トークンのコンテキストウィンドウ。
画像理解 - オブジェクト検出、ドキュメント/PDF の解析、画面と UI の理解、グラフの理解、OCR（多言語対応を含む）、手書き文字認識、ポインティング。画像は、さまざまなアスペクト比と解像度で処理できます。
動画理解 - フレームのシーケンスを処理して、動画コンテンツを分析して説明します。
インターリーブマルチモーダル入力 - コンテキストを重視した推論を行うために、1 つのプロンプト内で画像、動画、テキストを混在させます。
関数呼び出し - 構造化されたツールの使用をネイティブでサポートし、エージェントワークフローを可能にします。
コーディングと推論 - コードの生成、補完、段階的な論理的推論が可能です。
多言語対応 - 35 以上の言語をすぐにサポート。140 以上の言語で事前トレーニング済み。

モデルデータ

モデルのトレーニングに使用されたデータと、データの処理方法。

トレーニングデータセット

事前トレーニングデータセットは、2025 年 1 月をカットオフ日とする、ウェブドキュメント、コード、画像、音声など、幅広いドメインとモダリティを網羅する大規模で多様なデータコレクションです。主なコンポーネントは次のとおりです。

ウェブドキュメント: ウェブテキストの多様なコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。トレーニングデータセットには、140 以上の言語のコンテンツが含まれています。
コード: モデルにコードを公開すると、モデルはプログラミング言語の構文とパターンを学習し、コードを生成する能力とコード関連の質問を理解する能力が向上します。
数学: 数学のテキストでトレーニングすることで、モデルは論理的推論と記号表現を学習し、数学に関するクエリに対応できるようになります。
画像: 幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。

これらの多様なデータソースの組み合わせは、さまざまなタスクやデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために不可欠です。

データの前処理

トレーニングデータに適用される主なデータクリーニングとフィルタリングの方法は次のとおりです。

CSAM フィルタリング: 有害で違法なコンテンツを確実に除外するため、データ準備プロセスの複数の段階で厳格な CSAM（児童性的虐待のコンテンツ）フィルタリングが適用されました。
センシティブデータフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他のセンシティブデータをトレーニングセットからフィルタリングしました。
その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

倫理と安全性

オープンモデルがエンタープライズインフラストラクチャの中心となるにつれて、来歴とセキュリティが最重要事項になります。Google DeepMind によって開発された DiffusionGemma は、Google 独自の Gemini モデルと同じ厳格な安全性評価を受けています。

評価アプローチ

DiffusionGemma は、社内の安全性と責任ある AI チームとのパートナーシップにより開発されました。モデルの安全性を向上させるために、自動評価と人間による評価の両方が実施されました。これらの評価は、Google の AI 原則と安全性ポリシーに沿ったもので、生成 AI モデルが次のような有害なコンテンツを生成することを防ぐことを目的としています。

児童性的虐待のコンテンツと搾取に関連するコンテンツ
危険なコンテンツ（自殺を助長するコンテンツ、現実世界で危害を及ぼす可能性のある行為を指示するコンテンツなど）
性的描写が露骨なコンテンツ
ヘイトスピーチ（例: 保護対象グループのメンバーを非人間的に扱う）
ハラスメント（人に対する暴力を推奨するなど）

評価結果

安全性テストのすべての分野で、コンテンツの安全性のすべてのカテゴリにおいて、前世代の Gemma モデルと比較して大幅な改善が見られました。全体として、DiffusionGemma は Gemma 4 モデルと同様に、Gemma 3 モデルと 3n モデルよりも安全性の向上において大幅に優れており、不当な拒否を低く抑えています。すべてのテストは、モデルの生の能力とベースラインの動作を評価するために、安全フィルタなしで意図的に実施されました。テキストからテキストへの変換と画像からテキストへの変換の両方で、すべてのモデルサイズにおいて、モデルによるポリシー違反は最小限に抑えられ、以前の Gemma モデルと比較して大幅な改善が見られました。

使用と制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

使用目的

マルチモーダルモデル（ビジョン、言語、音声の処理が可能）は、さまざまな業界や分野で幅広い用途があります。以下に示す用途のリストはすべてを網羅しているわけではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースのコンテキスト情報を提供することです。

コンテンツの作成とコミュニケーション
- テキストの生成: 詩、スクリプト、コード、マーケティングコピー、メールの下書きなど、さまざまな形式のクリエイティブなテキストを生成します。
- Chatbot と会話型 AI: カスタマーサービス、仮想アシスタント、インタラクティブアプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキストコーパス、研究論文、レポートの簡潔な要約を生成します。
- 画像データの抽出: テキスト通信用の視覚データを抽出、解釈、要約します。
研究と教育
- 自然言語処理（NLP）と VLM の研究: 研究者が VLM と NLP の手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。
- Language Learning Tools: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- 知識の探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索するのを支援します。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニングデータのバイアスやギャップは、モデルのレスポンスの制限につながる可能性があります。
- トレーニングデータセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
コンテキストとタスクの複雑さ
- このモデルは、明確なプロンプトと指示で構成できるタスクで優れたパフォーマンスを発揮します。自由形式のタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります（一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解できない場合があります。
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。事実に関する不正確な記述や古い記述が生成されることがあります。
Common Sense
- このモデルは言語の統計パターンに依存しています。状況によっては、常識的な推論を適用できない場合があります。

倫理的考慮事項とリスク

オープンなビジョン言語モデルを作成するにあたり、次の点を慎重に検討しました。

バイアスと公平性
- 大規模な実際のテキストと画像データでトレーニングされた VLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。このカードで報告されているように、DiffusionGemma は、これらのバイアスのリスクを軽減するために、慎重な精査、入力データの前処理、トレーニング後の評価を受けました。
誤った情報と不正使用
- VLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
透明性と説明責任
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM テクノロジーを利用できるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと軽減策:

有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクトポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を慎重に実施することが推奨されます。
悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーの教育は、VLM の悪意のあるアプリケーションに対するリスクを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。
プライバシー侵害: モデルは、特定の個人情報やその他のセンシティブデータを除去するためにフィルタされたデータでトレーニングされました。デベロッパーは、プライバシーの保護技術を使用してプライバシーに関する規則を遵守することが推奨されます。
バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング（評価指標、人間によるレビューを使用）とバイアス除去手法の探索を行うことが推奨されます。

メリット

リリース時点で、これは低レイテンシで高性能なオープンビジョン言語モデルであり、開発者や拡散言語モデルの研究に関心のあるユーザーにとって魅力的な選択肢となります。このモデルは、同サイズのモデルと比較して、責任ある AI 開発のためにゼロから設計されています。

DiffusionGemma モデルカード

モデルの概要

DiffusionGemma

ベンチマークの結果

コア機能

おすすめの方法

1. 拡散サンプリングの設定

2. 思考モードの構成

3. マルチターンの会話

4. モダリティの順序

5. 可変画像解像度

6. 動画の長さ

モデルデータ

トレーニングデータセット

データの前処理

倫理と安全性

評価アプローチ

評価結果

使用と制限事項

使用目的

制限事項

倫理的考慮事項とリスク

メリット

DiffusionGemma モデルカード

モデルの概要

DiffusionGemma

ベンチマークの結果

コア機能

おすすめの方法

1. 拡散サンプリングの設定

2. 思考モードの構成

3. マルチターンの会話

4. モダリティの順序

5. 可変画像解像度

6. 動画の長さ

モデルデータ

トレーニング データセット

データの前処理

倫理と安全性

評価アプローチ

評価結果

使用と制限事項

使用目的

制限事項

倫理的考慮事項とリスク

メリット

トレーニングデータセット