Gemma 4 モデルの概要

Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルはオープンウェイトで提供され、 責任ある 商用利用が許可されているため、 独自のプロジェクトやアプリケーションでチューニングしてデプロイできます。

Gemma 4 モデル ファミリーは、特定のハードウェア要件に合わせて調整された 4 つの異なるアーキテクチャで構成されています。

  • 小規模サイズ: ウルトラ モバイル、エッジ、ブラウザへのデプロイ(Google Pixel、Chrome など)向けに構築された 2B および 4B の有効パラメータ モデル。
  • 高密度: サーバークラスのパフォーマンスとローカル実行のギャップを埋める強力な 31B パラメータの高密度モデル。
  • Mixture-of-Experts: 高スループット、高度な推論向けに設計された、非常に効率的な 26B MoE モデル。
  • 統合: マルチモーダル タスク用の 12B パラメータ エンコーダ フリー モデル。ビジョン エンコーダと音声エンコーダを入力の直接線形射影に置き換えます。

Gemma 4 モデルは、 KaggleHugging Face からダウンロードできます。 Gemma 4 の技術的な詳細については、 モデルカードをご覧ください。 以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。

Kaggle で入手 Hugging Face で入手

機能

  • 推論: このファミリーのすべてのモデルは、構成可能な思考 モードを備えた高性能な 推論エンジンとして設計されています。
  • 拡張されたマルチモーダル: テキスト、 画像(可変アスペクト比 と解像度をサポート)、動画、音声(E2B、E4B 、12B モデルにネイティブに搭載)を処理します。
  • コンテキスト ウィンドウの拡大: 小規模モデルは 128K のコンテキスト ウィンドウを備え、中規模モデルは 256K をサポートしています。
  • コーディングとエージェント機能の強化: 組み込みの関数呼び出しサポートとともに、 コーディング ベンチマークで大幅な改善を実現し、 高性能な自律エージェントを強化します。
  • ネイティブ システム プロンプトのサポート: Gemma 4 では、システム ロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
  • マルチトークン予測: すべての Gemma 4 モデル (E2B、E4B、12B、31B、26B A4B)には、投機的デコーディング専用のドラフト モデルが含まれており、品質を損なうことなく推論を大幅に高速化できます。

パラメータ サイズと量子化

Gemma 4 モデルには、E2B、E4B、12B、31B、26B A4B の 5 つのパラメータ サイズがあります。これらのモデルは、デフォルトの精度(16 ビット)で使用することも、量子化を使用して精度を下げて使用することもできます。サイズと精度が異なると、AI アプリケーションのトレードオフも異なります。パラメータとビット数が多いモデル(精度が高い)ほど一般的に高性能ですが、処理サイクル、メモリコスト、消費電力の点で実行コストが高くなります。パラメータとビット数が少ないモデル(精度が低い)は機能が劣りますが、AI タスクには十分な場合があります。

Gemma 4 の推論に必要なメモリ

次の表に、Gemma 4 モデル バージョンの各サイズで推論を実行するために必要な GPU または TPU のメモリの概算を示します。

パラメータ BF16(16 ビット) SFP8(8 ビット) Q4_0(4 ビット) モバイル モバイル(テキストのみ)
Gemma 4 E2B 11.4 GB 5.7 GB 2.9 GB 1.1 GB 0.84 GB
Gemma 4 E4B 17.9 GB 8.9 GB 4.5 GB 2.5 GB 2.2 GB
Gemma 4 12B 26.7 GB 13.4 GB 6.7 GB - -
Gemma 4 26B A4B 57.7 GB 28.8 GB 14.4 GB - -
Gemma 4 31B 69.9 GB 34.9 GB 17.5 GB - -

表 1.パラメータ数、量子化レベル、追加の読み込みの 20% のオーバーヘッドに基づいて、Gemma 4 モデルを読み込むために必要な GPU または TPU のメモリの概算。モバイル バージョンでは LiteRT-LM を使用します。

メモリ計画に関する重要な考慮事項

  • 効率的なアーキテクチャ(E2B と E4B): 「E」は「有効」パラメータを表します。小規模モデルには Per-Layer Embeddings(PLE)が組み込まれており、オンデバイス デプロイでのパラメータ効率を最大限に高めます。PLE では、モデルにレイヤを追加するのではなく、各デコーダ レイヤにトークンごとに独自の小さな埋め込みが与えられます。これらの埋め込みテーブルは大きいですが、クイック検索にのみ使用されます。そのため、静的ウェイトの読み込みに必要な合計メモリは、有効なパラメータ数よりも多くなります。
  • MoE アーキテクチャ(26B A4B): 26B は Mixture of Experts モデルです。生成時にアクティブになるパラメータはトークンあたり 40 億個のみですが、高速なルーティングと推論速度を維持するには、260 億個のパラメータすべて をメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は、4B モデルよりも高密度 26B モデルに近いものになります。
  • ベースウェイトのみ: 上の表の推定値は、静的モデルウェイトの読み込みに必要なメモリのみを考慮しています。 ソフトウェアやコンテキスト ウィンドウのサポートに必要な追加の VRAM は含まれていません。
  • コンテキスト ウィンドウ(KV キャッシュ): メモリ使用量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキスト ウィンドウが大きいほど、ベースモデルのウェイトに加えて大幅に多くの VRAM が必要になります。
  • ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論に必要なメモリよりも大幅に多くなります。 正確なフットプリントは、開発フレームワーク、バッチサイズ、完全精度チューニングを使用しているか、Low-Rank Adaptation(LoRA)などのパラメータ エフィシエント ファインチューニング(PEFT)手法を使用しているかによって大きく異なります。

量子化認識トレーニング(QAT)

品質を最小限に抑えながら最大限の効率を必要とするデプロイの場合、Gemma は公式の量子化認識トレーニング(QAT) モデルを提供します。

完全にトレーニングされたモデルを圧縮し、品質の低下につながる可能性がある標準のトレーニング後量子化(PTQ)とは異なり、QAT は量子化シミュレーションをトレーニング プロセス自体に統合します。これにより、モデルは精度の低下を補うことを学習し、高精度のベースラインとほぼ同じパフォーマンスを発揮する小規模なモデルが実現します。

クイック ルーティング テーブル

ターゲット デプロイ エンジン ダウンロード接尾辞 主なユースケース
llama.cpp / LM Studio(ローカル) {model-name}-qat-q4_0-gguf CPU、Apple Silicon、コンシューマー GPU でのゼロセットアップ ローカル デプロイ。
vLLM / SGLang サーバー: {model-name}-qat-w4a16-ct
モバイル: {model-name}-qat-mobile-ct
16 ビットのアクティベーションで 4 ビットのウェイトを利用した高スループット推論。
投機的デコーディング モデル: {model-name}-qat-q4_0-unquantized
ドラフト: {model-name}-qat-q4_0-unquantized-assistant
一致する MTP ドラフト モデルとともにプライマリ モデルを実行して、トークン生成を大幅に高速化します。モデルは量子化する必要があります。
その他の形式 {model-name}-qat-q4_0-unquantized 他の形式(MLX など)に変換するための量子化されていないウェイト
モバイル デプロイ(Transformers) {model-name}-qat-mobile-transformers モバイル ユースケース向けに最適化されたエッジウェイト。他の形式の参照として使用されます。

Hugging Face の公式 QAT コレクション

  • collections/google/gemma-4-qat-q4-0
    • 量子化されていない QAT チェックポイント(-unquantized / -assistant): QAT パイプラインから直接抽出された半精度ウェイト。これらは、カスタムのダウンストリーム コンパイル、研究、またはアシスタント ドラフト モデルを使用した投機的デコーディングの実行に最適です。Gemma 4 E2B、E4B、12B、26B A4B、31B で使用できます。
    • GGUF(-gguf): ローカル LLM エコシステム全体で即座にドロップイン互換性を提供できるチェックポイント。Gemma 4 E2B、E4B、12B、26B A4B、31B で使用できます。
    • 圧縮テンソル(-w4a16-ct): 最適化された高並行クラウド サービングのために、compressed-tensors 標準でネイティブにシリアル化されます。Gemma 4 E2B、E4B、12B、31B で使用できます。
  • collections/google/gemma-4-qat-mobile
    • モバイル向けに最適化(-mobile-transformers / -mobile-ct): モバイル ハードウェアの制限に合わせて特別に設計されたカスタム wNa8o8 スキーマに基づいて構築されています。ターゲットを絞った 2 ビットのデコーディング レイヤ、最適化された KV キャッシュ、静的アクティベーションを利用して、エッジ プロセッサを詰まらせることなく、オンデバイス RAM の節約を最大限に実現します。Gemma 4 E2B と E4B で使用できます。

すべての公式 Gemma 4 QAT チェックポイントには、 Kaggleから直接アクセスすることもできます。

以前の Gemma モデル

KaggleHugging Face から入手できる以前の世代の Gemma モデルを使用できます。 以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。

構築を開始するには、 使ってみましょう Gemma モデルを。