Hugging Face |
GitHub |
リリースブログ |
ドキュメント
ライセンス: Apache 2.0 | 作成者: Google DeepMind
DiffusionGemma は、Google DeepMind によって構築された生成モデルです。26B A4B Mixture-of-Experts(MoE)Gemma 4 アーキテクチャに基づく DiffusionGemma は、離散拡散を使用してトークンを生成します。このオープン ウェイト モデルはマルチモーダルで、テキスト、画像、動画の入力を処理してテキスト出力を生成します。
MoE 基盤上に構築された DiffusionGemma は、さまざまなハードウェア環境でデプロイ可能な状態を維持しながら、生成速度(トークン / 秒)を向上させるように設計されています。DiffusionGemma は、Gemma 4 のアーキテクチャと機能の進歩に基づいて構築されており、次のようなコア機能が導入されています。
- Discrete Text Diffusion - トークンごとの自己回帰からブロック自己回帰マルチキャンバス サンプリングに移行します。トークン ブロック(「キャンバス」)を並行して反復的にノイズ除去することでテキストを生成し、デコード速度を大幅に向上させます。
- マルチモーダル入力処理 - インターリーブされたテキスト、画像(可変アスペクト比と解像度をサポート)、動画の入力を処理して、テキスト出力を生成します。
- Encoder-Decoder アーキテクチャ - 自己回帰エンコーダを使用してプロンプト コンテキストを処理してキャッシュに保存し、生成キャンバスに双方向注意を適用するデコーダと組み合わせます。
- Mixture-of-Experts(MoE)の効率性 - スパース MoE 設計(合計 128 個のうち 8 個のアクティブ エキスパート)を活用して、ローカル実行に適した低メモリ使用量を維持しながら、強力な推論機能を提供します。
- 思考モード(推論) - 構成可能な思考モードを備えた、高性能な推論ツールとして設計されています。
- 小バッチサイズの推論向けに最適化 - 単一の高性能アクセラレータで低レイテンシかつ高速の生成を行うように特別に設計されています。
- ネイティブ システム プロンプトのサポート - Gemma 4 と同様に、
systemロールの更新をサポートし、より構造化された制御可能な会話を可能にします。
モデルの概要
DiffusionGemma は、標準の因果言語モデルの順次ボトルネックを軽減するように設計されています。推論速度に最適化されたエンコーダ デコーダ アーキテクチャを採用しています。
エンコーダはプレフィル容量で動作し、最初のプロンプトを処理して KV キャッシュを生成します。デコーダは、双方向アテンションを使用してトークンの入力ブロック(キャンバス)を処理し、クロスアテンションを介してキャッシュに保存されたコンテキストにアクセスします。
推論中、DiffusionGemma はマルチキャンバス サンプリングを活用します。モデルは一度に 1 つのトークンを生成するのではなく、拡散サンプラーを使用してトークンのブロック全体を反復的にノイズ除去します。キャンバスのノイズ除去が完了すると、エンコーダによって処理され、KV キャッシュに追加されます。その後、モデルは次のキャンバスを生成します。このブロック自己回帰アプローチにより、テキスト生成の高速化が実現します。
DiffusionGemma
| 合計パラメータ数 | 252 億 | | アクティブなパラメータ数 | 38 億 | | レイヤ数 | 30 | | スライディング ウィンドウ | 1,024 トークン | | コンテキストの長さ | 最大 256,000 トークン | | キャンバスの長さ | 256 | | 語彙サイズ | 262,000 | | エキスパート数 | アクティブ 8 / 合計 128、共有 1 | | サポートされているモダリティ | テキスト、画像 | | ビジョン エンコーダ パラメータ数 | 約 5 億 5,000 万 |
ベンチマークの結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。表に示されている評価結果は、推奨の Entropy Bound(EB)サンプラー(下記のベスト プラクティスを参照)を使用した、指示チューニング済みモデルのものです。
| ベンチマーク | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 no tools | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA Diamond | 73.2% | 82.3% |
| Tau2(3 つの平均) | 56.2% | 68.2% |
| HLE no tools | 11.0% | 8.7% |
| 検索付き HLE | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| 視覚 | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5(平均編集距離、低いほど良い) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| 長いコンテキスト | ||
| MRCR v2 8 needle 128k(平均) | 32.0% | 44.1% |
コア機能
DiffusionGemma は、テキストとビジョンにわたる幅広いタスクを処理します。主な機能は次のとおりです。
- 高速生成 - 拡散サンプリングによる 256 個のトークンの並列ノイズ除去により、フォワード パスごとに 15 ~ 20 個のトークンを生成することで低レイテンシを実現します。これにより、バッチサイズが小さい設定(H100、FP8)で、ユーザーあたりの生成速度が 1 秒あたり 1,100 個のトークンを超えることが可能になります。
- 適応型推論時間計算 - コードなどの単純なプロンプトや構造化されたタスクでは、ノイズ除去の手順が少なくて済むため、タスクの複雑さに基づいてトークン / 秒の速度を動的に調整できます。
- 思考 - モデルが回答する前にステップバイステップで思考できる組み込みの推論モード。
- 長いコンテキスト - 最大 256,000 トークンのコンテキスト ウィンドウ。
- 画像理解 - オブジェクト検出、ドキュメント/PDF の解析、画面と UI の理解、グラフの理解、OCR(多言語対応を含む)、手書き文字認識、ポインティング。画像は、さまざまなアスペクト比と解像度で処理できます。
- 動画理解 - フレームのシーケンスを処理して、動画コンテンツを分析して説明します。
- インターリーブ マルチモーダル入力 - コンテキストを重視した推論を行うために、1 つのプロンプト内で画像、動画、テキストを混在させます。
- 関数呼び出し - 構造化されたツールの使用をネイティブでサポートし、エージェント ワークフローを可能にします。
- コーディングと推論 - コードの生成、補完、段階的な論理的推論が可能です。
- 多言語対応 - 35 以上の言語をすぐにサポート。140 以上の言語で事前トレーニング済み。
おすすめの方法
最適なパフォーマンスを得るには、次の構成とベスト プラクティスを使用します。
1. 拡散サンプリングの設定
すべてのユースケースで次の標準化されたサンプリング構成を使用します。
- 方法: エントロピー境界ノイズ除去と適応停止による拡散サンプリング。
- サンプリング構成:
- ノイズ除去ステップの最大数 = 48
- 温度スケジュール(ロジット シェーピング用): 0.8 → 0.4 の線形減衰
- トークン選択: 各ステップで、サンプラーは相互情報量の上限がエントロピーの上限(0.1)を下回るように、エントロピーが最も低いトークンを選択します。
- トークンの再ノイズ除去: サンプラーが選択されていないトークンを完全に再ノイズ除去します
- 適応的停止: 次の 2 つの条件が同時に満たされた場合にのみ、サンプリングが早期に終了します。
- 信頼度の高い予測: キャンバス全体のモデル エントロピーの平均がエントロピーのしきい値(0.005)を下回っている
- 安定した予測: 確率が最も高いトークンの予測が、2 つの連続するノイズ除去ステップで同一のままになる
2. 思考モードの構成
Gemma 4 モデルと同様に、標準の system、assistant、user ロールを使用します。思考プロセスを適切に管理するには、次の制御トークンを使用します。
- 思考のトリガー: 思考を有効にするには、システム プロンプトの先頭に
<|think|>トークンを含めます。思考を無効にするには、トークンを削除します(空の思考チャンネルが引き続き出力される場合があることに注意してください)。 - 標準生成: 思考が有効になっている場合、モデルは内部推論と最終的な回答を
<|channel>thought\n[内部推論]<channel|>という構造で出力します。 - 思考動作が無効の場合: 思考が無効の場合でも、モデルはタグを生成しますが、思考ブロックは空になります(
<|channel>thought\n<channel|>[最終回答])。
transformers などの多くのライブラリは、チャット テンプレートの複雑さを処理します。
3. マルチターンの会話
- 履歴に思考コンテンツがない: マルチターンの会話では、過去のモデル出力には最終的な回答のみを含める必要があります。以前のモデルターンの思考は、次のユーザーターンが始まる前に追加してはなりません。
4. モダリティの順序
- マルチモーダル入力で最適なパフォーマンスを得るには、プロンプトのテキストの前に画像コンテンツを配置します。
5. 可変画像解像度
可変アスペクト比に加えて、DiffusionGemma は構成可能なビジュアル トークン予算を通じて可変画像解像度をサポートしています。この予算は、画像の表現に使用されるトークンの数を制御します。トークン予算を増やすと、追加のコンピューティング コストが発生しますが、より多くの視覚的な詳細が保持されます。一方、予算を減らすと、きめ細かい理解を必要としないタスクの推論を高速化できます。
- サポートされているトークン バジェットは、70、140、280、560、1120 です。
- 分類、キャプション、動画理解など、高速な推論と多くのフレームの処理が詳細な情報よりも重要となる場合は、低い予算を使用します。
- OCR、ドキュメントの解析、小さなテキストの読み取りなどのタスクには、より高い予算を使用します。
6. 動画の長さ
すべてのモデルで画像入力をサポートしており、動画をフレームとして処理できます。動画は、画像が 1 フレーム / 秒で処理されると仮定して、最大 60 秒までサポートします。
モデルデータ
モデルのトレーニングに使用されたデータと、データの処理方法。
トレーニング データセット
事前トレーニング データセットは、2025 年 1 月をカットオフ日とする、ウェブ ドキュメント、コード、画像、音声など、幅広いドメインとモダリティを網羅する大規模で多様なデータ コレクションです。主なコンポーネントは次のとおりです。
- ウェブ ドキュメント: ウェブテキストの多様なコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。トレーニング データセットには、140 以上の言語のコンテンツが含まれています。
- コード: モデルにコードを公開すると、モデルはプログラミング言語の構文とパターンを学習し、コードを生成する能力とコード関連の質問を理解する能力が向上します。
- 数学: 数学のテキストでトレーニングすることで、モデルは論理的推論と記号表現を学習し、数学に関するクエリに対応できるようになります。
- 画像: 幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、さまざまなタスクやデータ形式を処理できる強力なマルチモーダル モデルをトレーニングするために不可欠です。
データの前処理
トレーニング データに適用される主なデータ クリーニングとフィルタリングの方法は次のとおりです。
- CSAM フィルタリング: 有害で違法なコンテンツを確実に除外するため、データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングが適用されました。
- センシティブ データ フィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他のセンシティブ データをトレーニング セットからフィルタリングしました。
- その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。
倫理と安全性
オープンモデルがエンタープライズ インフラストラクチャの中心となるにつれて、来歴とセキュリティが最重要事項になります。Google DeepMind によって開発された DiffusionGemma は、Google 独自の Gemini モデルと同じ厳格な安全性評価を受けています。
評価アプローチ
DiffusionGemma は、社内の安全性と責任ある AI チームとのパートナーシップにより開発されました。モデルの安全性を向上させるために、自動評価と人間による評価の両方が実施されました。これらの評価は、Google の AI 原則と安全性ポリシーに沿ったもので、生成 AI モデルが次のような有害なコンテンツを生成することを防ぐことを目的としています。
- 児童性的虐待のコンテンツと搾取に関連するコンテンツ
- 危険なコンテンツ(自殺を助長するコンテンツ、現実世界で危害を及ぼす可能性のある行為を指示するコンテンツなど)
- 性的描写が露骨なコンテンツ
- ヘイトスピーチ(例: 保護対象グループのメンバーを非人間的に扱う)
- ハラスメント(人に対する暴力を推奨するなど)
評価結果
安全性テストのすべての分野で、コンテンツの安全性のすべてのカテゴリにおいて、前世代の Gemma モデルと比較して大幅な改善が見られました。全体として、DiffusionGemma は Gemma 4 モデルと同様に、Gemma 3 モデルと 3n モデルよりも安全性の向上において大幅に優れており、不当な拒否を低く抑えています。すべてのテストは、モデルの生の能力とベースラインの動作を評価するために、安全フィルタなしで意図的に実施されました。テキストからテキストへの変換と画像からテキストへの変換の両方で、すべてのモデルサイズにおいて、モデルによるポリシー違反は最小限に抑えられ、以前の Gemma モデルと比較して大幅な改善が見られました。
使用と制限事項
これらのモデルには、ユーザーが認識しておくべき制限事項があります。
使用目的
マルチモーダル モデル(ビジョン、言語、音声の処理が可能)は、さまざまな業界や分野で幅広い用途があります。以下に示す用途のリストはすべてを網羅しているわけではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースのコンテキスト情報を提供することです。
- コンテンツの作成とコミュニケーション
- テキストの生成: 詩、スクリプト、コード、マーケティング コピー、メールの下書きなど、さまざまな形式のクリエイティブなテキストを生成します。
- Chatbot と会話型 AI: カスタマー サービス、仮想アシスタント、インタラクティブ アプリケーションの会話型インターフェースを強化します。
- テキストの要約: テキスト コーパス、研究論文、レポートの簡潔な要約を生成します。
- 画像データの抽出: テキスト通信用の視覚データを抽出、解釈、要約します。
- 研究と教育
- 自然言語処理(NLP)と VLM の研究: 研究者が VLM と NLP の手法を試し、アルゴリズムを開発し、この分野の発展に貢献するための基盤として機能します。
- Language Learning Tools: インタラクティブな言語学習体験をサポートし、文法の修正やライティングの練習を支援します。
- 知識の探索: 要約を生成したり、特定のトピックに関する質問に回答したりすることで、研究者が大量のテキストを探索するのを支援します。
制限事項
- トレーニング データ
- トレーニング データの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニング データのバイアスやギャップは、モデルのレスポンスの制限につながる可能性があります。
- トレーニング データセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
- コンテキストとタスクの複雑さ
- このモデルは、明確なプロンプトと指示で構成できるタスクで優れたパフォーマンスを発揮します。自由形式のタスクや非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(一般的に、コンテキストが長いほど、ある程度のところまでは出力が向上します)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解できない場合があります。
- 事実の正確性
- モデルはトレーニング データセットから学習した情報に基づいて回答を生成しますが、ナレッジベースではありません。事実に関する不正確な記述や古い記述が生成されることがあります。
- Common Sense
- このモデルは言語の統計パターンに依存しています。状況によっては、常識的な推論を適用できない場合があります。
倫理的考慮事項とリスク
オープンなビジョン言語モデルを作成するにあたり、次の点を慎重に検討しました。
- バイアスと公平性
- 大規模な実際のテキストと画像データでトレーニングされた VLM は、トレーニング資料に埋め込まれた社会文化的バイアスを反映する可能性があります。このカードで報告されているように、DiffusionGemma は、これらのバイアスのリスクを軽減するために、慎重な精査、入力データの前処理、トレーニング後の評価を受けました。
- 誤った情報と不正使用
- VLM は、虚偽、誤解を招く、有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインについては、責任ある生成 AI ツールキットをご覧ください。
- 透明性と説明責任
- このモデルカードには、モデルのアーキテクチャ、機能、制限事項、評価プロセスに関する詳細がまとめられています。
- 責任を持って開発されたオープンモデルは、AI エコシステム全体のデベロッパーや研究者が VLM テクノロジーを利用できるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと軽減策:
- 有害なコンテンツの生成: コンテンツの安全性を確保するためのメカニズムとガイドラインが不可欠です。デベロッパーは、特定のプロダクト ポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツの安全保護対策を慎重に実施することが推奨されます。
- 悪意のある目的での不正使用: 技術的な制限と、デベロッパーとエンドユーザーの教育は、VLM の悪意のあるアプリケーションに対するリスクを軽減するのに役立ちます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。
- プライバシー侵害: モデルは、特定の個人情報やその他のセンシティブ データを除去するためにフィルタされたデータでトレーニングされました。デベロッパーは、プライバシーの保護技術を使用してプライバシーに関する規則を遵守することが推奨されます。
- バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の探索を行うことが推奨されます。
メリット
リリース時点で、これは低レイテンシで高性能なオープン ビジョン言語モデルであり、開発者や拡散言語モデルの研究に関心のあるユーザーにとって魅力的な選択肢となります。このモデルは、同サイズのモデルと比較して、責任ある AI 開発のためにゼロから設計されています。