Gemma 4 モデルの概要

Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルにはオープンウェイトが付属しており、 責任ある 商用利用が許可されているため、 独自のプロジェクトやアプリケーションでチューニングしてデプロイできます。

Gemma 4 モデル ファミリーは、特定のハードウェア要件に合わせて調整された 3 つの異なるアーキテクチャで構成されています。

  • 小サイズ: 超モバイル、エッジ、ブラウザへのデプロイ向けに構築された 2B と 4B の有効パラメータ モデル(Google Pixel、Chrome など)。
  • 高密度: サーバーグレードのパフォーマンスとローカル実行のギャップを埋める強力な 31B パラメータ高密度モデル。
  • Mixture-of-Experts: 高スループットで高度な推論向けに設計された、効率性の高い 26B MoE モデル。

Gemma 4 モデルは、 KaggleHugging Face からダウンロードできます。 Gemma 4 の技術的な詳細については、 モデルカードをご覧ください。 以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。

Kaggle で入手 Hugging Face で入手

機能

  • 推論: ファミリーのすべてのモデルは、構成可能な思考 モードを備えた高性能な 推論エンジンとして設計されています。
  • 拡張されたマルチモーダル: テキスト、アスペクト比と解像度が可変の画像(すべてのモデル)、動画、および音声(E2B モデルと E4B モデルにネイティブに搭載)を処理します。
  • コンテキスト ウィンドウの拡大: 小規模モデルは 128K のコンテキスト ウィンドウを備え、中規模モデルは 256K をサポートしています。
  • コーディングとエージェント機能の強化: 組み込みの関数呼び出しサポートとともに、 コーディング ベンチマークで大幅な改善を実現し、 高性能な自律エージェントを強化します。
  • ネイティブ システム プロンプトのサポート: Gemma 4 では、システム ロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
  • マルチトークン予測: すべての Gemma 4 モデル (E2B、E4B、31B、26B A4B)には、投機的 デコード用の専用ドラフト モデルが含まれており、品質を損なうことなく推論を大幅に高速化できます。

パラメータ サイズと量子化

Gemma 4 モデルには、E2B、E4B、31B、26B A4B の 4 つのパラメータ サイズがあります。 これらのモデルは、デフォルトの精度(16 ビット)で使用することも、量子化を使用して精度を下げて使用することもできます。サイズと精度が異なると、AI アプリケーションのトレードオフも異なります。パラメータとビット数が多いモデル(高精度)は一般的に高性能ですが、処理サイクル、メモリコスト、消費電力の点で実行コストが高くなります。パラメータとビット数が少ないモデル(低精度)は機能が劣りますが、AI タスクには十分な場合があります。

Gemma 4 の推論に必要なメモリ

次の表に、Gemma 4 モデル バージョンの各サイズで推論を実行するために必要な GPU または TPU メモリの概算を示します。

パラメータ BF16(16 ビット) SFP8(8 ビット) Q4_0(4 ビット)
Gemma 4 E2B 9.6 GB 4.6 GB 3.2 GB
Gemma 4 E4B 15 GB 7.5 GB 5 GB
Gemma 4 31B 58.3 GB 30.4 GB 17.4 GB
Gemma 4 26B A4B 48 GB 25 GB 15.6 GB

表 1.パラメータ数と量子化レベルに基づいて Gemma 4 モデルを読み込むために必要な GPU または TPU メモリの概算。

メモリ計画に関する考慮すべきポイント

  • 効率的なアーキテクチャ(E2B と E4B): 「E」は「有効」パラメータを表します。小型モデルには Per-Layer Embeddings(PLE)が組み込まれており、オンデバイス デプロイでのパラメータ効率を最大化します。PLE では、モデルにレイヤを追加するのではなく、各デコーダ レイヤにトークンごとに独自の小さな埋め込みが与えられます。これらの埋め込みテーブルは大きいですが、クイック検索にのみ使用されます。そのため、静的ウェイトの読み込みに必要な合計メモリは、有効パラメータ数よりも多くなります。
  • MoE アーキテクチャ(26B A4B): 26B は Mixture of Experts モデルです。生成時にアクティブになるパラメータはトークンあたり 40 億個のみですが、高速なルーティングと推論速度を維持するには、260 億個のパラメータすべて をメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は、4B モデルよりも高密度 26B モデルに近いものになります。
  • ベースウェイトのみ: 上の表の推定値は、静的モデルのウェイトを読み込むために必要なメモリのみを考慮しています。 ソフトウェアやコンテキスト ウィンドウのサポートに必要な追加の VRAM は含まれていません。
  • コンテキスト ウィンドウ(KV キャッシュ): メモリ使用量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキスト ウィンドウが大きいほど、ベースモデルのウェイトに加えて大幅に多くの VRAM が必要になります。
  • ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論よりも大幅に多くなります。 実際のフットプリントは、開発フレームワーク、バッチサイズ、完全精度のチューニングを使用しているか、Low-Rank Adaptation(LoRA)などのパラメータ エフィシエント ファインチューニング(PEFT)手法を使用しているかによって大きく異なります。

以前の Gemma モデル

KaggleHugging Face から入手できる以前の世代の Gemma モデルを使用できます。 以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。

構築を開始するには、 使ってみましょう Gemma モデルを。