Gemma 4

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים ומכשירי קצה (E2B, ‏ E4B) ועד ל-GPU לצרכנים ולתחנות עבודה (26B A4B, ‏ 31B). הם מתאימים במיוחד לניתוח, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטי-מודאלית.

‫Gemma 4 מורשה לשימוש ברישיון Apache-2.0. פרטים נוספים מופיעים בכרטיס הדגם של Gemma 4.

🔴 מה חדש: חיזוי של כמה טוקנים

תחזית מרובת טוקנים (MTP) היא אופטימיזציה חדשה של הביצועים שמאיצה באופן משמעותי את מהירויות הפענוח ב-CPU וב-GPU, ללא פגיעה באיכות.

  • שיפורים בביצועים:
    • GPU: האצה משמעותית, שמספקת מהירות פענוח גבוהה פי 2.2 במעבדי GPU לניידים.
    • מעבד: שיפור הביצועים עד פי 1.5 במהירות במעבדים לנייד, והאצה משמעותית בחומרה עם תמיכה ב-SME (לדוגמה, מחשבי MacBook M4).
  • המלצות: מומלץ להשתמש ב-MTP לכל המשימות ב-GPU backends ולמודל Gemma4-E4B ב-CPU. מודל Gemma4-E2B במעבד (CPU) שימושי מאוד למשימות של כתיבה מחדש, סיכום וקידוד, אבל כדאי להפעיל אותו באופן סלקטיבי כי הוא עלול לגרום להאטה קלה במהלך הנחיות חופשיות או משימות גנרטיביות.

כדי לנסות את התכונה, אפשר לעיין במדריכים הספציפיים לפלטפורמה:

שנתחיל?

צ'אט עם Gemma4-E2B, שמתארח בקהילת Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

פריסה מ-Safetensors

כדי לפרוס את Gemma 4 החל מקובצי safetensors בהתאמה אישית (לדוגמה, אחרי כוונון עדין של המודל לתרחיש השימוש שלכם), צריך לבצע את השלבים הבאים:

  • המרת הקובץ לפורמט .litertlm:

    uv tool install litert-torch-nightly
    
    litert-torch export_hf \
      --model=google/gemma-4-E2B-it \
      --output_dir=/tmp/gemma4_2b \
      --externalize_embedder \
      --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm
    
  • פריסה באמצעות ממשקי API בפלטפורמות שונות של LiteRT-LM:

    litert-lm run  \
      /tmp/gemma4_2b/model.litertlm \
      --prompt="What is the capital of France?"
    

תמצית נתוני הביצועים

Gemma-4-E2B

  • גודל המודל: 2.58GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לטוקן הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 557 47 1.8 1733
    GPU 3808 52 0.3 676
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 532 25 1.9 607
    GPU 2878 56 0.3 1450
    ‫Linux (Arm 2.3 & 2.8 GHz, ‏ NVIDIA GeForce RTX 4090) מעבד (CPU) 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS (MacBook Pro M4) מעבד (CPU) 901 42 1.1 736
    GPU 7835 160 0.1 1623
    ‫Windows (Intel LunarLake) מעבד (CPU) 435 30 2.4 3505
    GPU 3751 48 0.3 3540
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 133 8 7.8 1546

Gemma-4-E4B

  • גודל הדגם: 3.65GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לטוקן הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 195 18 5.3 3283
    GPU 1293 22 0.8 710
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 159 10 6.5 961
    GPU 1189 25 0.9 3380
    ‫Linux‏ (Arm‏ 2.3 ו-2.8GHz / RTX 4090) מעבד (CPU) 82 18 ‫12.6 3139
    GPU 7260 91 0.2 1119
    ‫macOS (MacBook Pro M4 Max) מעבד (CPU) 277 27 ‫3.7 890
    GPU 2560 101 0.4 3217
    ‫Windows (Intel LunarLake) מעבד (CPU) 173 17 6.0 9372
    GPU 1202 25 0.9 7147
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 51 3 20.5 3069