אנחנו גאים להציג את Google AI Edge Portal: כלי למדידת ביצועים של AI לקצה (Edge AI) בקנה מידה נרחב. להירשם כדי לבקש גישה במהלך התצוגה המקדימה הפרטית.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים ומכשירי קצה (E2B, ‏ E4B) ועד ל-GPU לצרכנים ולתחנות עבודה (26B A4B, ‏ 31B). הם מתאימים במיוחד לניתוח, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטי-מודאלית.

‫Gemma 4 מורשה לשימוש ברישיון Apache-2.0. פרטים נוספים מופיעים בכרטיס הדגם של Gemma 4.

🔴 מה חדש: חיזוי של כמה טוקנים

תחזית מרובת טוקנים (MTP) היא אופטימיזציה חדשה של הביצועים שמאיצה באופן משמעותי את מהירויות הפענוח ב-CPU וב-GPU, ללא פגיעה באיכות.

שיפורים בביצועים:
- ‫GPU: האצה משמעותית, שמספקת מהירות פענוח גבוהה פי 2.2 במעבדי GPU לניידים.
- מעבד: שיפור הביצועים עד פי 1.5 במהירות במעבדים לנייד, והאצה משמעותית בחומרה עם תמיכה ב-SME (לדוגמה, מחשבי MacBook M4).
המלצות: מומלץ להשתמש ב-MTP לכל המשימות ב-GPU backends ולמודל Gemma4-E4B ב-CPU. מודל Gemma4-E2B במעבד (CPU) שימושי מאוד למשימות של כתיבה מחדש, סיכום וקידוד, אבל כדאי להפעיל אותו באופן סלקטיבי כי הוא עלול לגרום להאטה קלה במהלך הנחיות חופשיות או משימות גנרטיביות.

כדי לנסות את התכונה, אפשר לעיין במדריכים הספציפיים לפלטפורמה:

שנתחיל?

צ'אט עם Gemma4-E2B, שמתארח בקהילת Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

פריסה מ-Safetensors

כדי לפרוס את Gemma 4 החל מקובצי safetensors בהתאמה אישית (לדוגמה, אחרי כוונון עדין של המודל לתרחיש השימוש שלכם), צריך לבצע את השלבים הבאים:

המרת הקובץ לפורמט .litertlm:

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=google/gemma-4-E2B-it \
  --output_dir=/tmp/gemma4_2b \
  --externalize_embedder \
  --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm

פריסה באמצעות ממשקי API בפלטפורמות שונות של LiteRT-LM:

litert-lm run  \
  /tmp/gemma4_2b/model.litertlm \
  --prompt="What is the capital of France?"

תמצית נתוני הביצועים

Gemma-4-E2B

גודל המודל: 2.58GB

פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.

פלטפורמה (מכשיר)	בק-אנד	מילוי מראש (tk/s)	פענוח (tk/s)	הזמן עד לטוקן הראשון (בשניות)	זיכרון CPU בשיא (MB)
‫Android (S26 Ultra)	מעבד (CPU)	557	47	1.8	1733
‫Android (S26 Ultra)	GPU	3808	52	0.3	676
‫iOS (אייפון 17 פרו)	מעבד (CPU)	532	25	1.9	607
‫iOS (אייפון 17 פרו)	GPU	2878	56	0.3	1450
‫Linux (Arm 2.3 & 2.8 GHz, ‏ NVIDIA GeForce RTX 4090)	מעבד (CPU)	260	35	4	1628
‫Linux (Arm 2.3 & 2.8 GHz, ‏ NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	מעבד (CPU)	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
‫Windows (Intel LunarLake)	מעבד (CPU)	435	30	2.4	3505
‫Windows (Intel LunarLake)	GPU	3751	48	0.3	3540
IoT (Raspberry Pi 5 16GB)	מעבד (CPU)	133	8	7.8	1546

Gemma-4-E4B

גודל הדגם: 3.65GB

פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.

פלטפורמה (מכשיר)	בק-אנד	מילוי מראש (tk/s)	פענוח (tk/s)	הזמן עד לטוקן הראשון (בשניות)	זיכרון CPU בשיא (MB)
‫Android (S26 Ultra)	מעבד (CPU)	195	18	5.3	3283
‫Android (S26 Ultra)	GPU	1293	22	0.8	710
‫iOS (אייפון 17 פרו)	מעבד (CPU)	159	10	6.5	961
‫iOS (אייפון 17 פרו)	GPU	1189	25	0.9	3380
‫Linux‏ (Arm‏ 2.3 ו-2.8GHz / RTX 4090)	מעבד (CPU)	82	18	‫12.6	3139
‫Linux‏ (Arm‏ 2.3 ו-2.8GHz / RTX 4090)	GPU	7260	91	0.2	1119
‫macOS (MacBook Pro M4 Max)	מעבד (CPU)	277	27	‫3.7	890
‫macOS (MacBook Pro M4 Max)	GPU	2560	101	0.4	3217
‫Windows (Intel LunarLake)	מעבד (CPU)	173	17	6.0	9372
‫Windows (Intel LunarLake)	GPU	1202	25	0.9	7147
IoT (Raspberry Pi 5 16GB)	מעבד (CPU)	51	3	20.5	3069