Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

Gemma 4

Gemma 4 模型旨在提供各尺寸的頂尖效能，適用於從行動裝置和邊緣裝置 (E2B、E4B) 到消費型 GPU 和工作站 (26B A4B、31B) 的部署情境。非常適合用於推論、代理式工作流程、程式設計和多模態解讀。

Gemma 4 是依據 Apache-2.0 授權使用。詳情請參閱 Gemma 4 模型資訊卡。

開始使用

與 Hugging Face LiteRT 社群代管的 Gemma4-E2B 對話。

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

從 Safetensors 部署

請按照下列步驟，從自訂 safetensors 部署 Gemma 4 (例如，在針對您的用途微調模型後)：

轉換為 .litertlm 格式：

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=google/gemma-4-E2B-it \
  --output_dir=/tmp/gemma4_2b \
  --externalize_embedder \
  --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm

使用 LiteRT-LM 跨平台 API 部署：

litert-lm run  \
  /tmp/gemma4_2b/model.litertlm \
  --prompt="What is the capital of France?"

成效摘要

Gemma-4-E2B

模型大小：2.58 GB

如需其他技術詳細資料，請參閱 HuggingFace 模型資訊卡

平台 (裝置)	後端	預填 (tk/s)	解碼 (tk/s)	第一個詞元生成時間 (秒)	CPU 記憶體用量上限 (MB)
Android (S26 Ultra)	CPU	557	47	1.8	1733
Android (S26 Ultra)	GPU	3808	52	0.3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0.3	1450
Linux (Arm 2.3 和 2.8 GHz、NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2.3 和 2.8 GHz、NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
物聯網 (Raspberry Pi 5 16GB)	CPU	133	8	7.8	1546

Gemma-4-E4B

模型大小：3.65 GB

如需其他技術詳細資料，請參閱 HuggingFace 模型資訊卡

平台 (裝置)	後端	預填 (tk/s)	解碼 (tk/s)	第一個詞元生成時間 (秒)	CPU 記憶體用量上限 (MB)
Android (S26 Ultra)	CPU	195	18	5.3	3283
Android (S26 Ultra)	GPU	1293	22	0.8	710
iOS (iPhone 17 Pro)	CPU	159	10	6.5	961
iOS (iPhone 17 Pro)	GPU	1189	25	0.9	3380
Linux (Arm 2.3 和 2.8GHz / RTX 4090)	CPU	82	18	12.6	3139
Linux (Arm 2.3 和 2.8GHz / RTX 4090)	GPU	7260	91	0.2	1119
macOS (MacBook Pro M4 Max)	CPU	277	27	3.7	890
macOS (MacBook Pro M4 Max)	GPU	2560	101	0.4	3217
物聯網 (Raspberry Pi 5 16GB)	CPU	51	3	20.5	3069