Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 モデルの概要

Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルはオープンウェイトで提供され、責任ある商用利用が許可されています。そのため、独自のプロジェクトやアプリケーションでモデルをチューニングしてデプロイできます。

Gemma 4 モデルファミリーは、特定のハードウェア要件に合わせて調整された 4 つの異なるアーキテクチャで構成されています。

小規模サイズ: ウルトラモバイル、エッジ、ブラウザへのデプロイ（Google Pixel や Chrome など）向けに構築された 2B と 4B の有効なパラメータモデル。
高密度: 310 億のパラメータを持つ強力な高密度モデルで、サーバークラスのパフォーマンスとローカル実行のギャップを埋めます。
Mixture-of-Experts: 高スループットの高度な推論用に設計された、非常に効率的な 26B MoE モデル。
統合: マルチモーダルタスク用の 12B パラメータエンコーダの無料モデル。ビジョンエンコーダと音声エンコーダを入力の直接線形射影に置き換えました。

Gemma 4 モデルは、Kaggle と Hugging Face からダウンロードできます。Gemma 4 の技術的な詳細については、モデルカードと技術レポートをご覧ください。以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。

Kaggle で入手 Hugging Face で入手

機能

理由: ファミリー内のすべてのモデルは、構成可能な思考モードを備えた高性能な推論者として設計されています。
拡張マルチモーダル: テキスト、画像（可変アスペクト比と解像度をサポート、すべてのモデル）、動画、音声（E2B、E4B、12B モデルでネイティブにサポート）を処理します。
コンテキストウィンドウの拡大: 小規模モデルは 128K のコンテキストウィンドウを備え、中規模モデルは 256K をサポートしています。
コーディングとエージェント機能の強化: コーディングベンチマークで著しい改善を実現し、関数呼び出しのサポートを組み込むことで、高性能な自律型エージェントを実現します。
ネイティブシステムプロンプトのサポート: Gemma 4 では、システムロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
マルチトークン予測: すべての Gemma 4 モデル（E2B、E4B、12B、31B、26B A4B）には、投機的デコード専用のドラフトモデルが含まれており、品質を損なうことなく推論を大幅に高速化できます。

パラメータサイズと量子化

Gemma 4 モデルには、E2B、E4B、12B、31B、26B A4B の 5 つのパラメータサイズがあります。モデルは、デフォルトの精度（16 ビット）で使用することも、量子化を使用して精度を下げて使用することもできます。さまざまなサイズと精度は、AI アプリケーションのトレードオフのセットを表します。パラメータとビット数（精度）が多いモデルは一般的に能力が高いですが、処理サイクル、メモリ費用、消費電力の面で実行コストが高くなります。パラメータとビット数が少ない（精度が低い）モデルは機能が少ないですが、AI タスクには十分な場合があります。

Gemma 4 推論のメモリ要件

次の表に、各サイズの Gemma 4 モデルバージョンで推論を実行するための GPU または TPU のおおよそのメモリ要件を示します。

パラメータ	BF16（16 ビット）	SFP8（8 ビット）	Q4_0（4 ビット）	モバイル	モバイル（テキストのみ）
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

表 1. パラメータ数、量子化レベル、追加のものを読み込むための 20% のオーバーヘッドに基づいて、Gemma 4 モデルの読み込みに必要な GPU または TPU メモリの概算。モバイル版では LiteRT-LM が使用されます。

メモリプランニングに関する重要な考慮事項

効率的なアーキテクチャ（E2B と E4B）: 「E」は「効果的な」パラメータを表します。小規模なモデルには、デバイス上でのデプロイのパラメータ効率を最大化するために、Per-Layer Embeddings（PLE）が組み込まれています。PLE は、モデルにレイヤを追加するのではなく、各デコーダレイヤにすべてのトークンに対して独自の小さなエンベディングを与えます。これらのエンベディングテーブルは大きいですが、高速ルックアップにのみ使用されます。そのため、静的重みを読み込むために必要な合計メモリは、有効なパラメータ数よりも大きくなります。
MoE アーキテクチャ（26B A4B）: 26B は Mixture of Experts モデルです。生成中にトークンあたり 40 億個のパラメータのみがアクティブ化されますが、高速なルーティングと推論速度を維持するには、260 億個のパラメータすべてをメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は 4B モデルよりも 26B 密モデルに近くなります。
ベースの重みのみ: 前の表の推定値は、静的モデルの重みを読み込むために必要なメモリのみを考慮しています。ソフトウェアやコンテキストウィンドウのサポートに必要な追加の VRAM は含まれていません。
コンテキストウィンドウ（KV キャッシュ）: メモリ使用量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキストウィンドウが大きいほど、ベースモデルの重みに加えて、より多くの VRAM が必要になります。
ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論に必要なメモリよりも大幅に多くなります。正確なフットプリントは、開発フレームワーク、バッチサイズ、フル精度チューニングを使用しているか、Low-Rank Adaptation（LoRA）などのパラメータエフィシエントファインチューニング（PEFT）手法を使用しているかによって大きく異なります。

量子化認識トレーニング（QAT）

品質の低下を最小限に抑えながら効率を最大限に高める必要があるデプロイの場合、Gemma は公式の量子化認識トレーニング（QAT）モデルを提供します。

完全にトレーニングされたモデルを圧縮し、品質の低下につながる可能性がある標準のトレーニング後の量子化（PTQ）とは異なり、QAT は量子化シミュレーションをトレーニングプロセス自体に統合します。これにより、モデルは精度の低下を補正することを学習し、高精度のベースラインとほぼ同じパフォーマンスを発揮する小規模なモデルが生成されます。

クイックルーティングテーブル

ターゲットデプロイエンジン	ダウンロードの接尾辞	主なユースケース
llama.cpp / LM Studio（ローカル）	`{model-name}-qat-q4_0-gguf`	CPU、Apple Silicon、コンシューマー GPU でのゼロセットアップのローカルデプロイ。
vLLM / SGLang	サーバー: `{model-name}-qat-w4a16-ct` モバイル: `{model-name}-qat-mobile-ct`	16 ビットのアクティベーションで 4 ビットの重みを利用した高スループットの推論。
投機的デコーディング	モデル: `{model-name}-qat-q4_0-unquantized` 作成者: `{model-name}-qat-q4_0-unquantized-assistant`	プライマリモデルと一致する MTP ドラフトモデルを同時に実行して、トークン生成を大幅に高速化します。モデルは量子化されている必要があります。
その他の形式	`{model-name}-qat-q4_0-unquantized`	他の形式（MLX など）に変換するための量子化されていない重み
モバイルデプロイ（トランスフォーマー）	`{model-name}-qat-mobile-transformers`	モバイルユースケース向けに最適化されたエッジの重み。他の形式の参照として機能します。

Hugging Face の公式 QAT コレクション

collections/google/gemma-4-qat-q4-0
- 量子化されていない QAT チェックポイント（-unquantized / -assistant）: QAT パイプラインから直接抽出された半精度重み。これらは、カスタムダウンストリームコンパイル、研究、アシスタントの下書きモデルを使用した投機的デコードの実行に最適です。Gemma 4 E2B、E4B、12B、26B A4B、31B で使用できます。
- GGUF（-gguf）: ローカル LLM エコシステム全体で即座にドロップイン互換性に使用できるチェックポイント。Gemma 4 E2B、E4B、12B、26B A4B、31B で利用できます。
- 圧縮テンソル（-w4a16-ct）: 最適化された高同時実行クラウドサービングのために、compressed-tensors 標準でネイティブにシリアル化されます。Gemma 4 E2B、E4B、12B、31B で使用できます。
collections/google/gemma-4-qat-mobile
- モバイルに最適化（-mobile-transformers / -mobile-ct）: モバイルハードウェアの制限に合わせて特別に設計されたカスタム wNa8o8 スキーマに基づいて構築されています。ターゲットの 2 ビットデコードレイヤ、最適化された KV キャッシュ、静的アクティベーションを活用して、エッジプロセッサを詰まらせることなく、オンデバイスの RAM の節約を最大化します。Gemma 4 E2B および E4B で利用できます。

すべての公式 Gemma 4 QAT チェックポイントには、Kaggle から直接アクセスすることもできます。

以前の Gemma モデル

Kaggle と Hugging Face からも入手できる、以前の世代の Gemma モデルを使用できます。以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。

構築を開始する準備はできましたか？Gemma モデルを使ってみましょう。