Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 モデルの概要

Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルはオープンウェイトで提供され、責任ある商用利用が許可されているため、独自のプロジェクトやアプリケーションでチューニングしてデプロイできます。

Gemma 4 モデルファミリーは、特定のハードウェア要件に合わせて調整された 4 つの異なるアーキテクチャで構成されています。

小規模サイズ: ウルトラモバイル、エッジ、ブラウザへのデプロイ（Google Pixel、Chrome など）向けに構築された 2B および 4B の有効パラメータモデル。
高密度: サーバークラスのパフォーマンスとローカル実行のギャップを埋める強力な 31B パラメータの高密度モデル。
Mixture-of-Experts: 高スループット、高度な推論向けに設計された、非常に効率的な 26B MoE モデル。
統合: マルチモーダルタスク用の 12B パラメータエンコーダフリーモデル。ビジョンエンコーダと音声エンコーダを入力の直接線形射影に置き換えます。

Gemma 4 モデルは、 Kaggle と Hugging Face からダウンロードできます。 Gemma 4 の技術的な詳細については、モデルカードをご覧ください。以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。

Kaggle で入手 Hugging Face で入手

機能

推論: このファミリーのすべてのモデルは、構成可能な思考モードを備えた高性能な推論エンジンとして設計されています。
拡張されたマルチモーダル: テキスト、画像（可変アスペクト比と解像度をサポート）、動画、音声（E2B、E4B 、12B モデルにネイティブに搭載）を処理します。
コンテキストウィンドウの拡大: 小規模モデルは 128K のコンテキストウィンドウを備え、中規模モデルは 256K をサポートしています。
コーディングとエージェント機能の強化: 組み込みの関数呼び出しサポートとともに、コーディングベンチマークで大幅な改善を実現し、高性能な自律エージェントを強化します。
ネイティブシステムプロンプトのサポート: Gemma 4 では、システムロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
マルチトークン予測: すべての Gemma 4 モデル（E2B、E4B、12B、31B、26B A4B）には、投機的デコーディング専用のドラフトモデルが含まれており、品質を損なうことなく推論を大幅に高速化できます。

パラメータサイズと量子化

Gemma 4 モデルには、E2B、E4B、12B、31B、26B A4B の 5 つのパラメータサイズがあります。これらのモデルは、デフォルトの精度（16 ビット）で使用することも、量子化を使用して精度を下げて使用することもできます。サイズと精度が異なると、AI アプリケーションのトレードオフも異なります。パラメータとビット数が多いモデル（精度が高い）ほど一般的に高性能ですが、処理サイクル、メモリコスト、消費電力の点で実行コストが高くなります。パラメータとビット数が少ないモデル（精度が低い）は機能が劣りますが、AI タスクには十分な場合があります。

Gemma 4 の推論に必要なメモリ

次の表に、Gemma 4 モデルバージョンの各サイズで推論を実行するために必要な GPU または TPU のメモリの概算を示します。

パラメータ	BF16（16 ビット）	SFP8（8 ビット）	Q4_0（4 ビット）	モバイル	モバイル（テキストのみ）
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

表 1.パラメータ数、量子化レベル、追加の読み込みの 20% のオーバーヘッドに基づいて、Gemma 4 モデルを読み込むために必要な GPU または TPU のメモリの概算。モバイルバージョンでは LiteRT-LM を使用します。

メモリ計画に関する重要な考慮事項

効率的なアーキテクチャ（E2B と E4B）: 「E」は「有効」パラメータを表します。小規模モデルには Per-Layer Embeddings（PLE）が組み込まれており、オンデバイスデプロイでのパラメータ効率を最大限に高めます。PLE では、モデルにレイヤを追加するのではなく、各デコーダレイヤにトークンごとに独自の小さな埋め込みが与えられます。これらの埋め込みテーブルは大きいですが、クイック検索にのみ使用されます。そのため、静的ウェイトの読み込みに必要な合計メモリは、有効なパラメータ数よりも多くなります。
MoE アーキテクチャ（26B A4B）: 26B は Mixture of Experts モデルです。生成時にアクティブになるパラメータはトークンあたり 40 億個のみですが、高速なルーティングと推論速度を維持するには、260 億個のパラメータすべて をメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は、4B モデルよりも高密度 26B モデルに近いものになります。
ベースウェイトのみ: 上の表の推定値は、静的モデルウェイトの読み込みに必要なメモリのみを考慮しています。ソフトウェアやコンテキストウィンドウのサポートに必要な追加の VRAM は含まれていません。
コンテキストウィンドウ（KV キャッシュ）: メモリ使用量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキストウィンドウが大きいほど、ベースモデルのウェイトに加えて大幅に多くの VRAM が必要になります。
ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論に必要なメモリよりも大幅に多くなります。正確なフットプリントは、開発フレームワーク、バッチサイズ、完全精度チューニングを使用しているか、Low-Rank Adaptation（LoRA）などのパラメータエフィシエントファインチューニング（PEFT）手法を使用しているかによって大きく異なります。

量子化認識トレーニング（QAT）

品質を最小限に抑えながら最大限の効率を必要とするデプロイの場合、Gemma は公式の量子化認識トレーニング（QAT） モデルを提供します。

完全にトレーニングされたモデルを圧縮し、品質の低下につながる可能性がある標準のトレーニング後量子化（PTQ）とは異なり、QAT は量子化シミュレーションをトレーニングプロセス自体に統合します。これにより、モデルは精度の低下を補うことを学習し、高精度のベースラインとほぼ同じパフォーマンスを発揮する小規模なモデルが実現します。

クイックルーティングテーブル

ターゲットデプロイエンジン	ダウンロード接尾辞	主なユースケース
llama.cpp / LM Studio（ローカル）	`{model-name}-qat-q4_0-gguf`	CPU、Apple Silicon、コンシューマー GPU でのゼロセットアップローカルデプロイ。
vLLM / SGLang	サーバー: `{model-name}-qat-w4a16-ct` モバイル: `{model-name}-qat-mobile-ct`	16 ビットのアクティベーションで 4 ビットのウェイトを利用した高スループット推論。
投機的デコーディング	モデル: `{model-name}-qat-q4_0-unquantized` ドラフト: `{model-name}-qat-q4_0-unquantized-assistant`	一致する MTP ドラフトモデルとともにプライマリモデルを実行して、トークン生成を大幅に高速化します。モデルは量子化する必要があります。
その他の形式	`{model-name}-qat-q4_0-unquantized`	他の形式（MLX など）に変換するための量子化されていないウェイト
モバイルデプロイ（Transformers）	`{model-name}-qat-mobile-transformers`	モバイルユースケース向けに最適化されたエッジウェイト。他の形式の参照として使用されます。

Hugging Face の公式 QAT コレクション

collections/google/gemma-4-qat-q4-0
- 量子化されていない QAT チェックポイント（-unquantized / -assistant）: QAT パイプラインから直接抽出された半精度ウェイト。これらは、カスタムのダウンストリームコンパイル、研究、またはアシスタントドラフトモデルを使用した投機的デコーディングの実行に最適です。Gemma 4 E2B、E4B、12B、26B A4B、31B で使用できます。
- GGUF（-gguf）: ローカル LLM エコシステム全体で即座にドロップイン互換性を提供できるチェックポイント。Gemma 4 E2B、E4B、12B、26B A4B、31B で使用できます。
- 圧縮テンソル（-w4a16-ct）: 最適化された高並行クラウドサービングのために、compressed-tensors 標準でネイティブにシリアル化されます。Gemma 4 E2B、E4B、12B、31B で使用できます。
collections/google/gemma-4-qat-mobile
- モバイル向けに最適化（-mobile-transformers / -mobile-ct）: モバイルハードウェアの制限に合わせて特別に設計されたカスタム wNa8o8 スキーマに基づいて構築されています。ターゲットを絞った 2 ビットのデコーディングレイヤ、最適化された KV キャッシュ、静的アクティベーションを利用して、エッジプロセッサを詰まらせることなく、オンデバイス RAM の節約を最大限に実現します。Gemma 4 E2B と E4B で使用できます。

すべての公式 Gemma 4 QAT チェックポイントには、 Kaggleから直接アクセスすることもできます。

以前の Gemma モデル

Kaggle と Hugging Face から入手できる以前の世代の Gemma モデルを使用できます。以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。

構築を開始するには、使ってみましょう Gemma モデルを。