Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma モデルの概要

DiffusionGemma は、テキスト拡散（テキスト生成の非常に高速なアプローチ）を研究する試験運用中のオープンモデルです。26B（4B アクティブ）の Mixture-of-Experts（MoE）Gemma 4 アーキテクチャに基づいて、DiffusionGemma は離散拡散を使用してトークンを生成します。このオープンウェイトモデルはマルチモーダルで、テキスト、画像、動画の入力を処理してテキスト出力を生成します。

MoE 基盤上に構築された DiffusionGemma は、さまざまなハードウェア環境でデプロイ可能な状態を維持しながら、生成速度（トークン / 秒）を向上させるように設計されています。DiffusionGemma は、Gemma 4 のアーキテクチャと機能の進歩に基づいて構築されており、いくつかのコア機能が導入されています。

離散テキスト拡散: 従来の因果関係のあるトークン生成から、ブロック自己回帰マルチキャンバスサンプリングに移行します。このモデルは、トークンブロック（「キャンバス」）を並行して反復的にノイズ除去することでテキストを生成し、デコード速度を大幅に向上させます。
マルチモーダル処理: テキスト、画像（可変アスペクト比と解像度をサポート）、動画入力をネイティブに受け入れます（注: 音声入力はサポートされていません）。
Encoder-Decoder アーキテクチャ: 自己回帰エンコーダを使用してプロンプトコンテキストを処理してキャッシュに保存し、生成キャンバスに双方向の注意を適用するノイズ除去と組み合わせます。
Mixture-of-Experts（MoE）の効率性: 26B（4B アクティブ）MoE バリアントに基づくスパース MoE 設計を活用し、最小限のオーバーヘッドで深い推論機能を提供します。量子化すると、コンシューマー GPU の 18 GB の VRAM 制限内に収まるため、ローカル実行に最適です。
思考モード: 組み込みの構成可能な推論チャネルにより、モデルは最終的な回答を生成する前に段階的に思考できます。

従来のモデルとのトレードオフ

従来型の言語モデルは、数千件のリクエストをバッチ処理できるため、大規模なクラウドデプロイには非常に効率的ですが、単一ユーザー向けにローカルで実行すると、ハードウェアが十分に活用されません。DiffusionGemma は、一度に 1 つのトークンを生成するのではなく、256 トークンブロック全体を同時に生成することで、この問題を解決し、ローカルハードウェアのパフォーマンスを最大化します。

ただし、このアプローチは、コンシューマー向けの低同時実行ローカル使用を厳密に目的としています。並列デコードは高 QPS クラウドワークロードでは収益が減少するため、スループットの利点は単一アクセラレータの小規模から中規模のバッチサイズで最も大きくなります。

推奨されるサービング構成

レイテンシと品質を最適化するには、拡散サンプリング設定の次のデフォルトパラメータを使用してデプロイすることをおすすめします。

パラメータ	推奨値	関数	根拠
ノイズ除去ステップの最大数	48	キャンバスあたりのノイズ除去ステップ数の上限。	ノイズ除去ステップ数の安全な上限。適応停止が有効になっている場合、ノイズ除去は少ないステップで停止します。通常、タスクに応じて 12 ～ 16 ステップです。
温度スケジュール	リニア 0.8 -> 0.4	ノイズ除去ステップの関数として高い値から減っていく Temperature スケーリングスケジュール。	高い温度（0.8）は早期の探索を促し、低い温度（0.4）は最終的なトークンをロックします。
適応型早期停止	エントロピーのしきい値: 0.005	A) キャンバス全体のモデルエントロピーの平均がしきい値を下回っている場合、および B) 2 つの連続するノイズ除去予測が同一のままである場合、実行を早期に停止します。	コードなどの単純なプロンプトと構造化されたタスクでは、ノイズ除去の手順が少なく、タスクの複雑さに応じて動的なトークン / 秒の速度を実現できます。
トークンの選択	エントロピーの境界: 0.1	各ステップで、サンプラーは相互情報量の境界がエントロピーの境界を下回るように、エントロピーが最も低いトークンを選択します。サンプラーは、選択されていないトークンを完全に再ノイズ化します。	モデルが比較的確信しているトークンのみが選択され、キャンバスが調整されます。他のトークンは、後続のノイズ除去ステップで調整されます。

Hugging Face で入手する Kaggle で入手する Vertex でアクセスする

試験運用版モデルの重みにアクセスできます（Apache 2.0 ライセンスでリリース）。これにより、独自のプロジェクトやアプリケーションにデプロイできます。

DiffusionGemma アーキテクチャの詳細を確認する DiffusionGemma を試す

DiffusionGemma をファインチューニングする DiffusionGemma をデプロイする