Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルにはオープンウェイトが付属しており、 責任ある 商用利用が許可されているため、 独自のプロジェクトやアプリケーションでチューニングしてデプロイできます。
Gemma 4 モデル ファミリーは、特定のハードウェア要件に合わせて調整された 3 つの異なるアーキテクチャで構成されています。
- 小サイズ: 超モバイル、エッジ、ブラウザへのデプロイ向けに構築された 2B と 4B の有効パラメータ モデル(Google Pixel、Chrome など)。
- 高密度: サーバーグレードのパフォーマンスとローカル実行のギャップを埋める強力な 31B パラメータ高密度モデル。
- Mixture-of-Experts: 高スループットで高度な推論向けに設計された、効率性の高い 26B MoE モデル。
Gemma 4 モデルは、 Kaggle と Hugging Face からダウンロードできます。 Gemma 4 の技術的な詳細については、 モデルカードをご覧ください。 以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。
機能
- 推論: ファミリーのすべてのモデルは、構成可能な思考 モードを備えた高性能な 推論エンジンとして設計されています。
- 拡張されたマルチモーダル: テキスト、 画像(可変アスペクト比 と解像度をサポート)、 動画、および 音声(E2B モデルと E4B モデルにネイティブに搭載)を処理します。
- コンテキスト ウィンドウの拡大: 小規模モデルは 128K のコンテキスト ウィンドウを備え、中規模モデルは 256K をサポートしています。
- コーディングとエージェント機能の強化: コーディング ベンチマークで大幅な改善を実現し、組み込みの関数呼び出し サポートにより、 高性能な自律エージェントを実現します。
- ネイティブ システム プロンプトのサポート: Gemma 4 では、システム ロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
パラメータ サイズと量子化
Gemma 4 モデルには、E2B、E4B、31B、26B A4B の 4 つのパラメータ サイズがあります。 モデルは、デフォルトの精度(16 ビット)で使用することも、量子化を使用して精度を低くすることもできます。サイズと精度が異なると、AI アプリケーションのトレードオフも異なります。パラメータとビット数が多いモデル(精度が高い)ほど一般的に高性能ですが、処理サイクル、メモリコスト、電力消費の点で実行コストが高くなります。パラメータとビット数が少ないモデル(精度が低い)は機能が少ないですが、AI タスクには十分な場合があります。
Gemma 4 推論のメモリ要件
次の表に、Gemma 4 モデル バージョンの各サイズで推論を実行するための GPU または TPU のおおよそのメモリ要件を示します。
| パラメータ | BF16(16 ビット) | SFP8(8 ビット) | Q4_0(4 ビット) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
表 1.パラメータ数と量子化レベルに基づいて Gemma 4 モデルを読み込むために必要な GPU または TPU のおおよそのメモリ。
メモリ計画に関する考慮すべきポイント
- 効率的なアーキテクチャ(E2B と E4B): 「E」は「有効」パラメータを表します。小規模モデルには Per-Layer Embeddings(PLE)が組み込まれており、オンデバイス デプロイでのパラメータ効率を最大化します。PLE では、モデルにレイヤを追加するのではなく、各デコーダ レイヤにトークンごとに独自の小さな埋め込みが与えられます。これらの埋め込みテーブルは大きいですが、クイック ルックアップにのみ使用されます。そのため、静的ウェイトの読み込みに必要な合計メモリは、有効なパラメータ数よりも多くなります。
- MoE アーキテクチャ(26B A4B): 26B は Mixture of Experts モデルです。生成時にトークンごとに 40 億のパラメータのみがアクティブになりますが、高速なルーティングと推論速度を維持するには、260 億のパラメータすべて をメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は、4B モデルよりも高密度 26B モデルに近くなります。
- ベースウェイトのみ: 上の表の推定値は、静的モデルの重みを読み込むために必要なメモリのみを考慮しています。 ソフトウェアやコンテキスト ウィンドウのサポートに必要な追加の VRAM は含まれていません。
- コンテキスト ウィンドウ(KV キャッシュ): メモリ消費量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキスト ウィンドウが大きいほど、ベースモデルの重みに加えて大幅に多くの VRAM が必要になります。
- ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論よりも大幅に多くなります。 実際のフットプリントは、開発フレームワーク、バッチサイズ、完全精度チューニングを使用しているか、Low-Rank Adaptation(LoRA)などのパラメータ エフィシエント ファインチューニング(PEFT)手法を使用しているかによって大きく異なります。
以前の Gemma モデル
Kaggle と Hugging Face から入手できる以前の世代の Gemma モデルを使用できます。 以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。
構築を開始するには、 使ってみましょう Gemma モデルを。