Gemma 4 モデルは、モバイル デバイスやエッジデバイス(E2B、E4B)からコンシューマー GPU やワークステーション(26B A4B、31B)までのデプロイ シナリオを対象として、各サイズで最先端のパフォーマンスを実現するように設計されています。推論、エージェント ワークフロー、コーディング、マルチモーダル理解に適しています。
Gemma 4 は Apache-2.0 ライセンスでライセンス供与されています。詳細については、 Gemma 4 モデルカードをご覧ください。
🔴 新機能: マルチトークン予測
マルチトークン予測(MTP)は、品質を低下させることなく、CPU バックエンドと GPU バックエンドの両方でデコード速度を大幅に高速化する新しいパフォーマンス最適化です。
- パフォーマンスの向上:
- GPU: 大幅な高速化により、モバイル GPU で最大 2.2 倍のデコード速度を実現します。
- CPU: モバイル CPU で最大 1.5 倍の高速化を実現し、SME 対応ハードウェア(M4 MacBook など)で大幅な高速化を実現します。
- 推奨事項: MTP は、GPU バックエンドのすべてのタスクと、CPU の Gemma4-E4B モデルで推奨されます。CPU の Gemma4-E2B モデルの場合、書き換え、要約、コーディングのタスクには非常に有効ですが、フリーフォーム プロンプトや生成タスクでわずかな遅延が発生する可能性があるため、選択的に有効にする必要があります。
お試しになるには、プラットフォーム固有のガイドをご覧ください。
使ってみる
Hugging Face LiteRT コミュニティでホストされている Gemma4-E2B とチャットします。
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
Safetensors からデプロイする
次の手順に沿って、カスタムの safetensors から Gemma 4 をデプロイします(たとえば、ユースケースに合わせてモデルをファインチューニングした後)。
.litertlm形式に変換します。uv tool install litert-torch-nightly litert-torch export_hf \ --model=google/gemma-4-E2B-it \ --output_dir=/tmp/gemma4_2b \ --externalize_embedder \ --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lmLiteRT-LM クロスプラットフォーム API を使用してデプロイします。
litert-lm run \ /tmp/gemma4_2b/model.litertlm \ --prompt="What is the capital of France?"
パフォーマンスの概要
Gemma-4-E2B
- モデルサイズ: 2.58 GB
その他の技術的な詳細については、HuggingFace モデルカードをご覧ください。
プラットフォーム(デバイス) バックエンド プレフィル(tk/秒) デコード(tk/秒) 最初のトークンまでの時間(秒) CPU のピークメモリ(MB) Android(S26 Ultra) CPU 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS(iPhone 17 Pro) CPU 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux(Arm 2.3 &2.8 GHz、NVIDIA GeForce RTX 4090) CPU 260 35 4 1628 GPU 11234 143 0.1 913 macOS(MacBook Pro M4) CPU 901 42 1.1 736 GPU 7835 160 0.1 1623 IoT(Raspberry Pi 5 16GB) CPU 133 8 7.8 1546
Gemma-4-E4B
- モデルサイズ: 3.65 GB
その他の技術的な詳細については、HuggingFace モデルカードをご覧ください。
プラットフォーム(デバイス) バックエンド プレフィル(tk/秒) デコード(tk/秒) 最初のトークンまでの時間(秒) CPU のピークメモリ(MB) Android(S26 Ultra) CPU 195 18 5.3 3283 GPU 1293 22 0.8 710 iOS(iPhone 17 Pro) CPU 159 10 6.5 961 GPU 1189 25 0.9 3380 Linux(Arm 2.3 &2.8GHz / RTX 4090) CPU 82 18 12.6 3139 GPU 7260 91 0.2 1119 macOS(MacBook Pro M4 Max) CPU 277 27 3.7 890 GPU 2560 101 0.4 3217 IoT(Raspberry Pi 5 16GB) CPU 51 3 20.5 3069