Google AI Edge Portal: Edge-KI im großen Maßstab benchmarken. Melden Sie sich an, um während der privaten Vorschau Zugriff anzufordern.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4

Gemma 4-Modelle sind darauf ausgelegt, in jeder Größe eine Spitzenleistung zu erzielen. Sie sind für Bereitstellungsszenarien von Mobil- und Edge-Geräten (E2B, E4B) bis hin zu Consumer-GPUs und Workstations (26B A4B, 31B) vorgesehen. Sie eignen sich gut für Schlussfolgerungen, agentische Workflows, Programmierung und multimodales Verstehen.

Gemma 4 ist unter der Apache-2.0-Lizenz lizenziert. Weitere Informationen finden Sie auf der Gemma 4-Modellkarte.

🔴 Neu: Multi-Token-Vorhersage

Die Multi-Token Prediction (MTP) ist eine neue Leistungsoptimierung, die die Decodierungsgeschwindigkeit auf CPU- und GPU-Backends erheblich beschleunigt, ohne dass die Qualität darunter leidet.

Leistungssteigerungen:
- GPU:Enorme Beschleunigung mit bis zu 2, 2-facher Dekodierungsgeschwindigkeit auf mobilen GPUs.
- CPU:Leistungssteigerungen von bis zu 1,5‑facher Beschleunigung auf mobilen CPUs und erhebliche Beschleunigung auf SME-fähiger Hardware (z. B. M4‑MacBooks).
Empfehlungen:MTP wird für alle Aufgaben auf GPU-Backends und für das Gemma4-E4B-Modell auf der CPU empfohlen. Für das Gemma4-E2B-Modell auf der CPU ist es sehr nützlich für Aufgaben wie Umschreiben, Zusammenfassen und Programmieren. Es sollte jedoch selektiv aktiviert werden, da es bei Prompts mit freiem Text oder generativen Aufgaben zu einer leichten Verlangsamung führen kann.

Eine Anleitung für die einzelnen Plattformen finden Sie hier:

Jetzt starten

Mit Gemma4-E2B chatten, die in der Hugging Face LiteRT Community gehostet wird.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

Über Safetensors bereitstellen

So stellen Sie Gemma 4 mit Ihren benutzerdefinierten Safetensors bereit (z. B. nach dem Feinabstimmen des Modells für Ihren Anwendungsfall):

In das Format .litertlm konvertieren:

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=google/gemma-4-E2B-it \
  --output_dir=/tmp/gemma4_2b \
  --externalize_embedder \
  --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm

Bereitstellung mit den plattformübergreifenden LiteRT-LM-APIs:

litert-lm run  \
  /tmp/gemma4_2b/model.litertlm \
  --prompt="What is the capital of France?"

Leistungsübersicht

Gemma-4-E2B

Modellgröße: 2,58 GB

Weitere technische Details finden Sie auf der HuggingFace-Modellkarte.

Plattform (Gerät)	Backend	Vorausfüllen (tk/s)	Decodieren (tk/s)	Zeit bis zum ersten Token (Sekunden)	Spitzenwert des CPU-Arbeitsspeichers (MB)
Android (S26 Ultra)	CPU	557	47	1.8	1733
Android (S26 Ultra)	GPU	3808	52	0,3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0,3	1.450
Linux (Arm 2,3 und 2,8 GHz, NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2,3 und 2,8 GHz, NVIDIA GeForce RTX 4090)	GPU	11234	143	0,1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0,1	1623
Windows (Intel LunarLake)	CPU	435	30	2.4	3505
Windows (Intel LunarLake)	GPU	3751	48	0,3	3540
IoT (Raspberry Pi 5 16 GB)	CPU	133	8	7.8	1546

Gemma-4-E4B

Modellgröße: 3,65 GB

Weitere technische Details finden Sie auf der HuggingFace-Modellkarte.

Plattform (Gerät)	Backend	Vorausfüllen (tk/s)	Decodieren (tk/s)	Zeit bis zum ersten Token (Sekunden)	Spitzenwert des CPU-Arbeitsspeichers (MB)
Android (S26 Ultra)	CPU	195	18	5.3	3283
Android (S26 Ultra)	GPU	1293	22	0,8	710
iOS (iPhone 17 Pro)	CPU	159	10	6.5	961
iOS (iPhone 17 Pro)	GPU	1189	25	0,9	3380
Linux (Arm 2.3 & 2.8 GHz / RTX 4090)	CPU	82	18	12.6	3139
Linux (Arm 2.3 & 2.8 GHz / RTX 4090)	GPU	7260	91	0,2	1119
macOS (MacBook Pro M4 Max)	CPU	277	27	3,7	890
macOS (MacBook Pro M4 Max)	GPU	2.560	101	0,4	3217
Windows (Intel LunarLake)	CPU	173	17	6.0	9372
Windows (Intel LunarLake)	GPU	1202	25	0,9	7147
IoT (Raspberry Pi 5 16 GB)	CPU	51	3	20.5	3069