סקירה כללית של מודל Gemma 4

‫Gemma היא משפחה של מודלים של בינה מלאכותית גנרטיבית, ואפשר להשתמש בהם במגוון רחב של משימות גנרטיביות, כולל מענה לשאלות, סיכום וחשיבה רציונלית. מודלים של Gemma מסופקים עם משקלים פתוחים ומאפשרים שימוש מסחרי אחראי, כך שאתם יכולים לכוונן אותם ולפרוס אותם בפרויקטים ובאפליקציות שלכם.

משפחת המודלים של Gemma 4 כוללת ארבע ארכיטקטורות שונות שמותאמות לדרישות חומרה ספציפיות:

  • גדלים קטנים: מודלים של פרמטרים יעילים בגודל 2B ו-4B שנוצרו לפריסה בניידים, במכשירים היקפיים ובדפדפנים (לדוגמה, Pixel,‏ Chrome).
  • Dense: מודל מתקדם עם 31 מיליארד פרמטרים, שמגשר על הפער בין ביצועים ברמת השרת לבין ביצועים מקומיים.
  • Mixture-of-Experts: מודל MoE יעיל במיוחד עם 26 מיליארד פרמטרים, שנועד לחשיבה רציונלית משופרת ולתפוקה גבוהה.
  • מאוחד: מודל מקודד עם 12 מיליארד פרמטרים בחינם למשימות מולטימודאליות. המודל הזה מחליף את המקודדים של הראייה והאודיו בהקרנות לינאריות ישירות של הקלט.

אפשר להוריד מודלים של Gemma 4 מ-Kaggle ומ-Hugging Face. פרטים טכניים נוספים על Gemma 4 זמינים בכרטיס המודל. גרסאות קודמות של מודלי הליבה של Gemma זמינות גם להורדה. מידע נוסף זמין במאמר בנושא מודלים קודמים של Gemma.

להורדה מ-Kaggle להורדה מ-Hugging Face

יכולות

  • הסבר: כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של חשיבה רציונלית, עם מצבי חשיבה שניתנים להגדרה.
  • יכולות מולטי-מודאליות מתקדמות: עיבוד של טקסט, תמונות עם תמיכה ברזולוציה וביחסי גובה-רוחב משתנים (כל המודלים), סרטונים ואודיו (התכונות האלה זמינות באופן מובנה במודלים E2B,‏ E4B ו-12B).
  • חלון הקשר גדול יותר: למודלים הקטנים יש חלון הקשר של 128K, ולמודלים הבינוניים יש חלון הקשר של 256K.
  • יכולות משופרות של קידוד וסוכנים: משיג שיפורים משמעותיים במדדי ביצועים של קידוד, לצד תמיכה מובנית בקריאה לפונקציות, שמאפשרת הפעלה של סוכנים אוטונומיים עם יכולות גבוהות.
  • תמיכה מובנית בהנחיות מערכת: Gemma 4 כולל תמיכה מובנית בתפקיד המערכת, שמאפשרת שיחות מובנות יותר וקלות יותר לשליטה.
  • Multi-Token Prediction: כל מודלי Gemma 4 (E2B, E4B, 12B, 31B ו-26B A4B) כוללים מודל טיוטה ייעודי לניתוח ספקולטיבי, שמאפשר הסקה מהירה משמעותית ללא פגיעה באיכות.

גדלים וקוונטיזציה של פרמטרים

מודלים של Gemma 4 זמינים ב-5 גדלים של פרמטרים: E2B, ‏ E4B, ‏ 12B, ‏ 31B ו-26B A4B. אפשר להשתמש במודלים עם הדיוק שמוגדר כברירת מחדל (16 ביט) או עם דיוק נמוך יותר באמצעות קוונטיזציה. הגדלים והדיוקים השונים מייצגים סדרה של פשרות שצריך לקחת בחשבון כשמפתחים אפליקציית AI. מודלים עם יותר פרמטרים ומספר ביטים (דיוק גבוה יותר) הם בדרך כלל בעלי יכולות גבוהות יותר, אבל יקרים יותר להרצה מבחינת מחזורי עיבוד, עלות זיכרון וצריכת חשמל. למודלים עם פחות פרמטרים ופחות ביטים (דיוק נמוך יותר) יש פחות יכולות, אבל יכול להיות שהם יספיקו למשימת ה-AI שלכם.

דרישות הזיכרון להסקת מסקנות ב-Gemma 4

בטבלה הבאה מפורטים דרישות הזיכרון המשוערות של GPU או TPU להפעלת הסקת מסקנות עם כל אחד מהגדלים של גרסאות מודל Gemma 4.

פרמטרים BF16 (16-bit) SFP8 (8-bit) Q4_0 (4-bit) נייד נייד (טקסט בלבד)
‫Gemma 4 E2B ‫11.4GB ‫5.7GB ‫2.9GB ‫1.1 BG ‫0.84GB
Gemma 4 E4B ‫17.9GB ‫8.9GB ‫4.5GB ‫2.5GB ‫2.2GB
Gemma 4 12B ‫26.7GB ‫13.4GB ‫6.7GB - -
Gemma 4 26B A4B ‫57.7GB ‫28.8GB ‫14.4GB - -
Gemma 4 31B ‫69.9GB ‫34.9GB ‫17.5GB - -

טבלה 1. הערכה של זיכרון ה-GPU או ה-TPU שנדרש לטעינת מודלים של Gemma 4 על סמך מספר הפרמטרים, רמת הכימות ו-20% תקורה של טעינת פריטים נוספים. בגרסאות לנייד נעשה שימוש ב-LiteRT-LM.

נקודות מרכזיות בתכנון הזיכרון

  • ארכיטקטורה יעילה (E2B ו-E4B): האות E מייצגת פרמטרים יעילים. המודלים הקטנים יותר משלבים הטמעות בכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות למודל, PLE נותן לכל שכבת פענוח הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים. לכן, נפח הזיכרון הכולל שנדרש לטעינת משקלים סטטיים גבוה יותר ממה שמצוין במספר הפרמטרים האפקטיבי.
  • ארכיטקטורת MoE‏ (26B A4B):‏ 26B הוא מודל של Mixture of Experts. למרות שהוא מפעיל רק 4 מיליארד פרמטרים לכל טוקן במהלך יצירה, כל 26 מיליארד הפרמטרים צריכים להיטען לזיכרון כדי לשמור על מהירויות ניתוב והסקה מהירות. לכן דרישת הזיכרון הבסיסית שלו קרובה יותר למודל צפוף של 26B מאשר למודל של 4B.
  • משקלים בסיסיים בלבד: האומדנים בטבלה הקודמת מתייחסים רק לזיכרון שנדרש לטעינת המשקלים של המודל הסטטי. הם לא כוללים את ה-VRAM הנוסף שנדרש לתמיכה בתוכנה או בחלון ההקשר.
  • חלון הקשר (מטמון KV): צריכת הזיכרון תגדל באופן דינמי בהתאם למספר הכולל של הטוקנים בהנחיה ולתגובה שנוצרה. חלונות הקשר גדולים יותר דורשים הרבה יותר VRAM בנוסף למשקלים של מודל הבסיס.
  • תקורה של כוונון עדין: דרישות הזיכרון לכוונון עדין של מודלים של Gemma גבוהות בהרבה מאלה של היקש רגיל. טביעת הרגל המדויקת תהיה תלויה מאוד ב-framework של הפיתוח, בגודל האצווה ובשיטה שבה משתמשים לכוונון עדין, למשל שיטה של כוונון יעיל בפרמטרים (PEFT) כמו Low-Rank Adaptation (LoRA).

אימון עם מודעות לכִּמוּת (QAT)

לפריסות שדורשות יעילות מקסימלית עם פשרה מינימלית באיכות, מודלים של Gemma מציעים אימון רגיש לקוונטיזציה (QAT).

בניגוד לכימות סטנדרטי אחרי אימון (PTQ), שדוחס מודל שאומן באופן מלא ויכול להוביל לירידה באיכות, QAT משלב סימולציה של כימות בתהליך האימון עצמו. כך המודל לומד לפצות על אובדן הדיוק, והתוצאה היא מודלים קטנים יותר שפועלים כמעט כמו קווי הבסיס שלהם ברמת דיוק גבוהה.

טבלת ניתוב מהירה

מנוע הפריסה של היעד סיומת להורדה תרחיש שימוש ראשי
‫llama.cpp / LM Studio (מקומי) {model-name}-qat-q4_0-gguf פריסה מקומית ללא הגדרה במעבד (CPU), ב-Apple Silicon או במעבדי GPU לצרכנים.
vLLM / SGLang שרת: {model-name}-qat-w4a16-ct
נייד: {model-name}-qat-mobile-ct
הסקת מסקנות עם תפוקה גבוהה באמצעות משקלים של 4 ביט והפעלות של 16 ביט.
פענוח ספקולטיבי מודל: {model-name}-qat-q4_0-unquantized
טיוטה: {model-name}-qat-q4_0-unquantized-assistant
הפעלת מודל ראשי לצד מודל טיוטה תואם של MTP כדי להאיץ באופן משמעותי את יצירת הטוקנים. המודל צריך להיות כמותי.
פורמטים אחרים {model-name}-qat-q4_0-unquantized משקלים לא מכומתים להמרה לפורמטים אחרים (למשל MLX)
פריסה בנייד (Transformers) {model-name}-qat-mobile-transformers משקלים של קצוות שמותאמים לתרחישי שימוש בנייד. הם משמשים כהפניה לפורמטים אחרים.

אוספים רשמיים של QAT ב-Hugging Face

  • collections/google/gemma-4-qat-q4_0
    • נקודות ביקורת של QAT לא כמותיות (-unquantized / -assistant): משקלים בחצי דיוק שחולצו ישירות מצינור ה-QAT. הם מתאימים במיוחד לקומפילציה מותאמת אישית במורד הזרם, למחקר או להרצת פענוח ספקולטיבי באמצעות מודלים של טיוטות של העוזר הדיגיטלי. זמינים עבור Gemma 4 E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B.
    • GGUF (-gguf): נקודות ביקורת שזמינות לתאימות מיידית לכלל הסביבה העסקית של מודלי LLM מקומיים. זמין ל-Gemma 4 E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B.
    • Compressed Tensors (-w4a16-ct): סריאליזציה באופן מקורי בתקן compressed-tensors להצגה אופטימלית בענן עם מספר גדול של משתמשים בו-זמנית. זמין ל-Gemma 4 E2B,‏ E4B,‏ 12B ו-31B.
  • collections/google/gemma-4-qat-mobile
    • מותאם לנייד (-mobile-transformers / -mobile-ct): בנוי על סכימה מותאמת אישית wNa8o8 שתוכננה במיוחד למגבלות של חומרה לנייד. הוא משתמש בשכבות פענוח ממוקדות של 2 ביט, במטמון KV שעבר אופטימיזציה ובפעולות הפעלה סטטיות כדי למקסם את החיסכון בזיכרון ה-RAM במכשיר, בלי להעמיס על מעבדי הקצה. זמין ב-Gemma 4 E2B וב-Gemma 4 E4B.

אפשר לגשת לכל נקודות הבדיקה הרשמיות של Gemma 4 QAT ישירות מ-Kaggle.

מודלים קודמים של Gemma

אפשר לעבוד עם דורות קודמים של מודלים של Gemma, שזמינים גם ב-Kaggle וב-Hugging Face. פרטים טכניים נוספים על מודלים קודמים של Gemma זמינים בדפים הבאים של כרטיסי המודלים:

מוכנים להתחיל לבנות? מתחילים לעבוד עם מודלים של Gemma!