Gemma 4

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B, ‏ E4B) ועד למעבדים גרפיים ולתחנות עבודה לצרכנים (26B A4B, ‏ 31B). הם מתאימים במיוחד לניתוח מידע, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטימודאלית.

‫Gemma 4 מורשה לשימוש ברישיון Apache-2.0. פרטים נוספים מופיעים בכרטיס הדגם של Gemma 4.

🔴 מה חדש: חיזוי של כמה טוקנים

תחזית מרובת טוקנים (MTP) היא אופטימיזציה חדשה של הביצועים שמאיצה באופן משמעותי את מהירויות הפענוח ב-CPU וב-GPU, ללא פגיעה באיכות.

  • שיפורים בביצועים:
    • GPU: האצה משמעותית, שמספקת מהירות פענוח גבוהה פי 2.2 במעבדי GPU לניידים.
    • מעבד: שיפור הביצועים עד פי 1.5 במהירות במעבדים לנייד, והאצה משמעותית בחומרה עם תמיכה ב-SME (לדוגמה, מחשבי MacBook M4).
  • המלצות: מומלץ להשתמש ב-MTP לכל המשימות ב-GPU backends ולמודל Gemma4-E4B ב-CPU. מודל Gemma4-E2B במעבד (CPU) מתאים מאוד למשימות של כתיבה מחדש, סיכום וכתיבת קוד, אבל מומלץ להפעיל אותו רק במקרים ספציפיים כי הוא עלול לגרום להאטה קלה במהלך הנחיות חופשיות או משימות גנרטיביות.

כדי לנסות את התכונה, אפשר לעיין במדריכים הספציפיים לפלטפורמה:

שנתחיל?

צ'אט עם Gemma4-E2B, שמתארח בקהילת Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

פריסה מ-Safetensors

כדי לפרוס את Gemma 4 החל מקובצי safetensors בהתאמה אישית (לדוגמה, אחרי כוונון עדין של המודל לתרחיש השימוש שלכם), צריך לבצע את השלבים הבאים:

  • המרת הקובץ לפורמט .litertlm:

    uv tool install litert-torch-nightly
    
    litert-torch export_hf \
      --model=google/gemma-4-E2B-it \
      --output_dir=/tmp/gemma4_2b \
      --externalize_embedder \
      --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm
    
  • פריסה באמצעות ממשקי API חוצי-פלטפורמות של LiteRT-LM:

    litert-lm run  \
      /tmp/gemma4_2b/model.litertlm \
      --prompt="What is the capital of France?"
    

תמצית נתוני הביצועים

Gemma-4-E2B

  • גודל המודל: 2.58GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לאסימון הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 557 47 1.8 1733
    GPU 3808 52 0.3 676
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 532 25 1.9 607
    GPU 2878 56 0.3 1450
    ‫Linux (Arm 2.3 & 2.8 GHz, NVIDIA GeForce RTX 4090) מעבד (CPU) 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS (MacBook Pro M4) מעבד (CPU) 901 42 1.1 736
    GPU 7835 160 0.1 1623
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 133 8 7.8 1546

Gemma-4-E4B

  • גודל הדגם: 3.65GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לאסימון הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 195 18 5.3 3283
    GPU 1293 22 0.8 710
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 159 10 6.5 961
    GPU 1189 25 0.9 3380
    ‫Linux‏ (Arm‏ 2.3 ו-2.8GHz / RTX 4090) מעבד (CPU) 82 18 ‫12.6 3139
    GPU 7260 91 0.2 1119
    ‫macOS (MacBook Pro M4 Max) מעבד (CPU) 277 27 ‫3.7 890
    GPU 2560 101 0.4 3217
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 51 3 20.5 3069