Gemma 4 模型旨在提供各尺寸的頂尖效能,適用於從行動裝置和邊緣裝置 (E2B、E4B) 到消費型 GPU 和工作站 (26B A4B、31B) 的部署情境。非常適合用於推論、代理式工作流程、程式設計和多模態解讀。
Gemma 4 是依據 Apache-2.0 授權使用。詳情請參閱 Gemma 4 模型資訊卡。
開始使用
與 Hugging Face LiteRT 社群代管的 Gemma4-E2B 對話。
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
從 Safetensors 部署
請按照下列步驟,從自訂 safetensors 部署 Gemma 4 (例如,在針對您的用途微調模型後):
轉換為
.litertlm格式:uv tool install litert-torch-nightly litert-torch export_hf \ --model=google/gemma-4-E2B-it \ --output_dir=/tmp/gemma4_2b \ --externalize_embedder \ --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm使用 LiteRT-LM 跨平台 API 部署:
litert-lm run \ /tmp/gemma4_2b/model.litertlm \ --prompt="What is the capital of France?"
成效摘要
Gemma-4-E2B
- 模型大小:2.58 GB
如需其他技術詳細資料,請參閱 HuggingFace 模型資訊卡
平台 (裝置) 後端 預填 (tk/s) 解碼 (tk/s) 第一個詞元生成時間 (秒) CPU 記憶體用量上限 (MB) Android (S26 Ultra) CPU 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (iPhone 17 Pro) CPU 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Arm 2.3 和 2.8 GHz、NVIDIA GeForce RTX 4090) CPU 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) CPU 901 42 1.1 736 GPU 7835 160 0.1 1623 物聯網 (Raspberry Pi 5 16GB) CPU 133 8 7.8 1546
Gemma-4-E4B
- 模型大小:3.65 GB
如需其他技術詳細資料,請參閱 HuggingFace 模型資訊卡
平台 (裝置) 後端 預填 (tk/s) 解碼 (tk/s) 第一個詞元生成時間 (秒) CPU 記憶體用量上限 (MB) Android (S26 Ultra) CPU 195 18 5.3 3283 GPU 1293 22 0.8 710 iOS (iPhone 17 Pro) CPU 159 10 6.5 961 GPU 1189 25 0.9 3380 Linux (Arm 2.3 和 2.8GHz / RTX 4090) CPU 82 18 12.6 3139 GPU 7260 91 0.2 1119 macOS (MacBook Pro M4 Max) CPU 277 27 3.7 890 GPU 2560 101 0.4 3217 物聯網 (Raspberry Pi 5 16GB) CPU 51 3 20.5 3069