Gemma 4

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B, ‏ E4B) ועד למעבדים גרפיים ולתחנות עבודה לצרכנים (26B A4B, ‏ 31B). הם מתאימים במיוחד לניתוח מידע, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטימודאלית.

‫Gemma 4 מורשה לשימוש ברישיון Apache-2.0. פרטים נוספים מופיעים בכרטיס הדגם של Gemma 4.

שנתחיל?

צ'אט עם Gemma4-E2B, שמתארח בקהילת Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

פריסה מ-Safetensors

כדי לפרוס את Gemma 4 החל מקובצי safetensors בהתאמה אישית (לדוגמה, אחרי כוונון עדין של המודל לתרחיש השימוש שלכם), צריך לבצע את השלבים הבאים:

  • המרת הקובץ לפורמט .litertlm:

    uv tool install litert-torch-nightly
    
    litert-torch export_hf \
      --model=google/gemma-4-E2B-it \
      --output_dir=/tmp/gemma4_2b \
      --externalize_embedder \
      --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm
    
  • פריסה באמצעות ממשקי API חוצי-פלטפורמות של LiteRT-LM:

    litert-lm run  \
      /tmp/gemma4_2b/model.litertlm \
      --prompt="What is the capital of France?"
    

תמצית נתוני הביצועים

Gemma-4-E2B

  • גודל המודל: 2.58GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לאסימון הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 557 47 1.8 1733
    GPU 3808 52 0.3 676
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 532 25 1.9 607
    GPU 2878 56 0.3 1450
    ‫Linux (Arm 2.3 & 2.8 GHz, NVIDIA GeForce RTX 4090) מעבד (CPU) 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS (MacBook Pro M4) מעבד (CPU) 901 42 1.1 736
    GPU 7835 160 0.1 1623
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 133 8 7.8 1546

Gemma-4-E4B

  • גודל הדגם: 3.65GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לאסימון הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 195 18 5.3 3283
    GPU 1293 22 0.8 710
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 159 10 6.5 961
    GPU 1189 25 0.9 3380
    ‫Linux‏ (Arm‏ 2.3 ו-2.8GHz / RTX 4090) מעבד (CPU) 82 18 ‫12.6 3139
    GPU 7260 91 0.2 1119
    ‫macOS (MacBook Pro M4 Max) מעבד (CPU) 277 27 ‫3.7 890
    GPU 2560 101 0.4 3217
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 51 3 20.5 3069