Gemma 4

Gemma 4 モデルは、モバイル デバイスやエッジデバイス(E2B、E4B)からコンシューマー GPU やワークステーション(26B A4B、31B)までのデプロイ シナリオを対象として、各サイズで最先端のパフォーマンスを実現するように設計されています。推論、エージェント ワークフロー、コーディング、マルチモーダル理解に適しています。

Gemma 4 は Apache-2.0 ライセンスでライセンス供与されています。詳細については、 Gemma 4 モデルカードをご覧ください。

🔴 新機能: マルチトークン予測

マルチトークン予測(MTP)は、品質を低下させることなく、CPU バックエンドと GPU バックエンドの両方でデコード速度を大幅に高速化する新しいパフォーマンス最適化です。

  • パフォーマンスの向上:
    • GPU: 大幅な高速化により、モバイル GPU で最大 2.2 倍のデコード速度を実現します。
    • CPU: モバイル CPU で最大 1.5 倍の高速化を実現し、SME 対応ハードウェア(M4 MacBook など)で大幅な高速化を実現します。
  • 推奨事項: MTP は、GPU バックエンドのすべてのタスクと、CPU の Gemma4-E4B モデルで推奨されます。CPU の Gemma4-E2B モデルの場合、書き換え、要約、コーディングのタスクには非常に有効ですが、フリーフォーム プロンプトや生成タスクでわずかな遅延が発生する可能性があるため、選択的に有効にする必要があります。

お試しになるには、プラットフォーム固有のガイドをご覧ください。

使ってみる

Hugging Face LiteRT コミュニティでホストされている Gemma4-E2B とチャットします。

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

Safetensors からデプロイする

次の手順に沿って、カスタムの safetensors から Gemma 4 をデプロイします(たとえば、ユースケースに合わせてモデルをファインチューニングした後)。

  • .litertlm 形式に変換します。

    uv tool install litert-torch-nightly
    
    litert-torch export_hf \
      --model=google/gemma-4-E2B-it \
      --output_dir=/tmp/gemma4_2b \
      --externalize_embedder \
      --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm
    
  • LiteRT-LM クロスプラットフォーム API を使用してデプロイします。

    litert-lm run  \
      /tmp/gemma4_2b/model.litertlm \
      --prompt="What is the capital of France?"
    

パフォーマンスの概要

Gemma-4-E2B

  • モデルサイズ: 2.58 GB
  • その他の技術的な詳細については、HuggingFace モデルカードをご覧ください。

    プラットフォーム(デバイス) バックエンド プレフィル(tk/秒) デコード(tk/秒) 最初のトークンまでの時間(秒) CPU のピークメモリ(MB)
    Android(S26 Ultra) CPU 557 47 1.8 1733
    GPU 3808 52 0.3 676
    iOS(iPhone 17 Pro) CPU 532 25 1.9 607
    GPU 2878 56 0.3 1450
    Linux(Arm 2.3 &2.8 GHz、NVIDIA GeForce RTX 4090) CPU 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS(MacBook Pro M4) CPU 901 42 1.1 736
    GPU 7835 160 0.1 1623
    IoT(Raspberry Pi 5 16GB) CPU 133 8 7.8 1546

Gemma-4-E4B

  • モデルサイズ: 3.65 GB
  • その他の技術的な詳細については、HuggingFace モデルカードをご覧ください。

    プラットフォーム(デバイス) バックエンド プレフィル(tk/秒) デコード(tk/秒) 最初のトークンまでの時間(秒) CPU のピークメモリ(MB)
    Android(S26 Ultra) CPU 195 18 5.3 3283
    GPU 1293 22 0.8 710
    iOS(iPhone 17 Pro) CPU 159 10 6.5 961
    GPU 1189 25 0.9 3380
    Linux(Arm 2.3 &2.8GHz / RTX 4090) CPU 82 18 12.6 3139
    GPU 7260 91 0.2 1119
    macOS(MacBook Pro M4 Max) CPU 277 27 3.7 890
    GPU 2560 101 0.4 3217
    IoT(Raspberry Pi 5 16GB) CPU 51 3 20.5 3069