Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 モデルの概要

Gemma は生成 AI モデルのファミリーです。質問応答、要約、推論など、さまざまな生成タスクで使用できます。Gemma モデルにはオープンウェイトが付属しており、責任ある商用利用が許可されているため、独自のプロジェクトやアプリケーションでチューニングしてデプロイできます。

Gemma 4 モデルファミリーは、特定のハードウェア要件に合わせて調整された 3 つの異なるアーキテクチャで構成されています。

小サイズ: 超モバイル、エッジ、ブラウザへのデプロイ向けに構築された 2B と 4B の有効パラメータモデル（Google Pixel、Chrome など）。
高密度: サーバーグレードのパフォーマンスとローカル実行のギャップを埋める強力な 31B パラメータ高密度モデル。
Mixture-of-Experts: 高スループットで高度な推論向けに設計された、効率性の高い 26B MoE モデル。

Gemma 4 モデルは、 Kaggle と Hugging Face からダウンロードできます。 Gemma 4 の技術的な詳細については、モデルカードをご覧ください。以前のバージョンの Gemma コアモデルもダウンロードできます。詳細については、以前の Gemma モデルをご覧ください。

Kaggle で入手 Hugging Face で入手

機能

推論: ファミリーのすべてのモデルは、構成可能な思考モードを備えた高性能な推論エンジンとして設計されています。
拡張されたマルチモーダル: テキスト、アスペクト比と解像度が可変の画像（すべてのモデル）、動画、および音声（E2B モデルと E4B モデルにネイティブに搭載）を処理します。
コンテキストウィンドウの拡大: 小規模モデルは 128K のコンテキストウィンドウを備え、中規模モデルは 256K をサポートしています。
コーディングとエージェント機能の強化: 組み込みの関数呼び出しサポートとともに、コーディングベンチマークで大幅な改善を実現し、高性能な自律エージェントを強化します。
ネイティブシステムプロンプトのサポート: Gemma 4 では、システムロールの組み込みサポートが導入され、より構造化された制御可能な会話が可能になります。
マルチトークン予測: すべての Gemma 4 モデル（E2B、E4B、31B、26B A4B）には、投機的デコード用の専用ドラフトモデルが含まれており、品質を損なうことなく推論を大幅に高速化できます。

パラメータサイズと量子化

Gemma 4 モデルには、E2B、E4B、31B、26B A4B の 4 つのパラメータサイズがあります。これらのモデルは、デフォルトの精度（16 ビット）で使用することも、量子化を使用して精度を下げて使用することもできます。サイズと精度が異なると、AI アプリケーションのトレードオフも異なります。パラメータとビット数が多いモデル（高精度）は一般的に高性能ですが、処理サイクル、メモリコスト、消費電力の点で実行コストが高くなります。パラメータとビット数が少ないモデル（低精度）は機能が劣りますが、AI タスクには十分な場合があります。

Gemma 4 の推論に必要なメモリ

次の表に、Gemma 4 モデルバージョンの各サイズで推論を実行するために必要な GPU または TPU メモリの概算を示します。

パラメータ	BF16（16 ビット）	SFP8（8 ビット）	Q4_0（4 ビット）
Gemma 4 E2B	9.6 GB	4.6 GB	3.2 GB
Gemma 4 E4B	15 GB	7.5 GB	5 GB
Gemma 4 31B	58.3 GB	30.4 GB	17.4 GB
Gemma 4 26B A4B	48 GB	25 GB	15.6 GB

表 1.パラメータ数と量子化レベルに基づいて Gemma 4 モデルを読み込むために必要な GPU または TPU メモリの概算。

メモリ計画に関する考慮すべきポイント

効率的なアーキテクチャ（E2B と E4B）: 「E」は「有効」パラメータを表します。小型モデルには Per-Layer Embeddings（PLE）が組み込まれており、オンデバイスデプロイでのパラメータ効率を最大化します。PLE では、モデルにレイヤを追加するのではなく、各デコーダレイヤにトークンごとに独自の小さな埋め込みが与えられます。これらの埋め込みテーブルは大きいですが、クイック検索にのみ使用されます。そのため、静的ウェイトの読み込みに必要な合計メモリは、有効パラメータ数よりも多くなります。
MoE アーキテクチャ（26B A4B）: 26B は Mixture of Experts モデルです。生成時にアクティブになるパラメータはトークンあたり 40 億個のみですが、高速なルーティングと推論速度を維持するには、260 億個のパラメータすべて をメモリに読み込む必要があります。そのため、ベースラインのメモリ要件は、4B モデルよりも高密度 26B モデルに近いものになります。
ベースウェイトのみ: 上の表の推定値は、静的モデルのウェイトを読み込むために必要なメモリのみを考慮しています。ソフトウェアやコンテキストウィンドウのサポートに必要な追加の VRAM は含まれていません。
コンテキストウィンドウ（KV キャッシュ）: メモリ使用量は、プロンプトと生成されたレスポンスのトークンの合計数に基づいて動的に増加します。コンテキストウィンドウが大きいほど、ベースモデルのウェイトに加えて大幅に多くの VRAM が必要になります。
ファインチューニングのオーバーヘッド: Gemma モデルのファインチューニングに必要なメモリは、標準の推論よりも大幅に多くなります。実際のフットプリントは、開発フレームワーク、バッチサイズ、完全精度のチューニングを使用しているか、Low-Rank Adaptation（LoRA）などのパラメータエフィシエントファインチューニング（PEFT）手法を使用しているかによって大きく異なります。

以前の Gemma モデル

Kaggle と Hugging Face から入手できる以前の世代の Gemma モデルを使用できます。以前の Gemma モデルの技術的な詳細については、次のモデルカードのページをご覧ください。

構築を開始するには、使ってみましょう Gemma モデルを。