‫Gemma 4 הושק עם קלט של טקסט, אודיו ותמונות, וחלון הקשר ארוך של עד 256 אלף טוקנים. מידע נוסף

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

סקירה כללית של מודל Gemma 4

‫Gemma היא משפחה של מודלים גנרטיביים של בינה מלאכותית, ואפשר להשתמש בהם במגוון רחב של משימות גנרטיביות, כולל מענה לשאלות, סיכום וחשיבה רציונלית. מודלים של Gemma מסופקים עם משקלים פתוחים ומאפשרים שימוש מסחרי אחראי, כך שאתם יכולים לכוונן אותם ולפרוס אותם בפרויקטים ובאפליקציות שלכם.

משפחת המודלים Gemma 4 כוללת ארבע ארכיטקטורות שונות שמותאמות לדרישות חומרה ספציפיות:

גדלים קטנים: מודלים של פרמטרים יעילים בגודל 2B ו-4B שנוצרו לפריסה בניידים, במכשירים היקפיים ובדפדפנים (לדוגמה, Pixel,‏ Chrome).
‫Dense: מודל מתקדם עם 31 מיליארד פרמטרים, שמגשר על הפער בין ביצועים ברמת השרת לבין ביצועים מקומיים.
Mixture-of-Experts: מודל יעיל במיוחד עם 26 מיליארדי פרמטרים, שנועד להספק גבוה ולחשיבה רציונלית מתקדמת.
מאוחד: מודל מקודד עם 12 מיליארד פרמטרים בחינם למשימות מולטימודאליות. המודל הזה מחליף את המקודדים של הראייה והאודיו בהקרנות לינאריות ישירות של הקלט.

אפשר להוריד מודלים של Gemma 4 מ-Kaggle ומ-Hugging Face. פרטים טכניים נוספים על Gemma 4 זמינים בכרטיס המודל ובדוח הטכני. גרסאות קודמות של מודלי הליבה של Gemma זמינות גם להורדה. מידע נוסף זמין במאמר מודלים קודמים של Gemma.

להורדה מ-Kaggle להורדה מ-Hugging Face

יכולות

הסבר: כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של הסקת מסקנות, עם מצבי חשיבה שניתנים להגדרה.
יכולות מולטי-מודאליות מתקדמות: עיבוד של טקסט, תמונות עם תמיכה ברזולוציה וביחסי גובה-רוחב משתנים (כל המודלים), סרטונים ואודיו (התכונות האלה זמינות באופן מובנה במודלים E2B,‏ E4B ו-12B).
חלון הקשר גדול יותר: למודלים הקטנים יש חלון הקשר של 128K, ולמודלים הבינוניים יש חלון הקשר של 256K.
יכולות משופרות של קידוד וסוכנים: משיג שיפורים משמעותיים במדדי ביצועים של קידוד, לצד תמיכה מובנית בקריאה לפונקציות, שמאפשרת הפעלה של סוכנים אוטונומיים עם יכולות גבוהות.
תמיכה מובנית בהנחיות למערכת: Gemma 4 כולל תמיכה מובנית בתפקיד המערכת, שמאפשרת לנהל שיחות מובנות יותר עם יותר שליטה.
‫Multi-Token Prediction: כל מודלי Gemma 4 (E2B,‏ E4B,‏ 12B,‏ 31B ו-26B A4B) כוללים מודל טיוטה ייעודי לניתוח ספקולטיבי, שמאפשר הסקה מהירה משמעותית ללא פגיעה באיכות.

גדלים וקוונטיזציה של פרמטרים

מודלים של Gemma 4 זמינים ב-5 גדלים של פרמטרים: E2B, ‏ E4B, ‏ 12B, ‏ 31B ו-26B A4B. אפשר להשתמש במודלים עם הדיוק שמוגדר כברירת מחדל (16 ביט) או עם דיוק נמוך יותר באמצעות קוונטיזציה. הגדלים והדיוקים השונים מייצגים סדרה של פשרות שצריך לקחת בחשבון כשמפתחים אפליקציית AI. מודלים עם יותר פרמטרים ומספר ביטים (דיוק גבוה יותר) הם בדרך כלל בעלי יכולות גבוהות יותר, אבל הם יקרים יותר להרצה מבחינת מחזורי עיבוד, עלות זיכרון וצריכת חשמל. למודלים עם פחות פרמטרים וביטים (דיוק נמוך יותר) יש פחות יכולות, אבל יכול להיות שהם יספיקו למשימת ה-AI שלכם.

דרישות הזיכרון להסקת מסקנות ב-Gemma 4

בטבלה הבאה מפורטים דרישות הזיכרון המשוערות של GPU או TPU להפעלת הסקת מסקנות עם כל אחד מהגדלים של גרסאות מודל Gemma 4.

פרמטרים	BF16 (16-bit)	SFP8 (8-bit)	Q4_0 (4-bit)	נייד	נייד (טקסט בלבד)
Gemma 4 E2B	‫11.4GB	‫5.7GB	‫2.9GB	‫1.1GB	‫0.84GB
Gemma 4 E4B	‫17.9GB	‫8.9GB	‫4.5GB	‫2.5GB	‫2.2GB
Gemma 4 12B	‫26.7GB	‫13.4GB	‫6.7GB	-	-
Gemma 4 26B A4B	‫57.7GB	‫28.8GB	‫14.4GB	-	-
Gemma 4 31B	‫69.9GB	‫34.9GB	‫17.5GB	-	-

טבלה 1. הערכה של זיכרון ה-GPU או ה-TPU שנדרש לטעינת מודלים של Gemma 4 על סמך מספר הפרמטרים, רמת הכימות ו-20% תקורה של טעינת פריטים נוספים. בגרסאות לנייד נעשה שימוש ב-LiteRT-LM.

שיקולים מרכזיים בתכנון הזיכרון

ארכיטקטורה יעילה (E2B ו-E4B): האות E מייצגת פרמטרים יעילים. המודלים הקטנים יותר משלבים הטמעות לכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות למודל, ב-PLE כל שכבת פענוח מקבלת הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים. לכן, נפח הזיכרון הכולל שנדרש לטעינת משקלים סטטיים גבוה יותר ממה שמצוין במספר הפרמטרים האפקטיבי.
ארכיטקטורת MoE‏ (26B A4B): ‏26B הוא מודל של Mixture of Experts. המודל מפעיל רק 4 מיליארד פרמטרים לכל טוקן במהלך יצירת הטקסט, אבל כל 26 מיליארד הפרמטרים צריכים להיטען לזיכרון כדי לשמור על מהירויות מהירות של ניתוב והסקת מסקנות. לכן דרישת הזיכרון הבסיסית שלו קרובה יותר למודל צפוף של 26B מאשר למודל של 4B.
משקלים בסיסיים בלבד: האומדנים בטבלה הקודמת מתייחסים רק לזיכרון שנדרש לטעינת המשקלים של המודל הסטטי. הם לא כוללים את ה-VRAM הנוסף שנדרש לתמיכה בתוכנה או בחלון ההקשר.
חלון ההקשר (מטמון KV): צריכת הזיכרון תגדל באופן דינמי בהתאם למספר הכולל של הטוקנים בהנחיה ולתגובה שנוצרה. חלונות הקשר גדולים יותר דורשים כמות משמעותית יותר של VRAM בנוסף למשקלים של מודל הבסיס.
תקורה של התאמה עדינה: דרישות הזיכרון להתאמה עדינה של מודלים של Gemma גבוהות בהרבה מאלה של הסקה רגילה. הגודל המדויק של המודל תלוי מאוד במסגרת הפיתוח, בגודל האצווה ובשיטת הכוונון שבה משתמשים. למשל, כוונון מלא לעומת שיטת כוונון יעילה לפרמטרים (PEFT) כמו Low-Rank Adaptation ‏ (LoRA).

אימון עם מודעות לכִּמוּת (QAT)

לפריסות שדורשות יעילות מקסימלית עם פשרה מינימלית באיכות, מודלים של Gemma מציעים אימון רגיש לקוונטיזציה (QAT).

בניגוד לכימות רגיל אחרי אימון (PTQ), שדוחס מודל שאומן באופן מלא ויכול להוביל לירידה באיכות, QAT משלב סימולציה של כימות בתהליך האימון עצמו. כך המודל לומד לפצות על אובדן הדיוק, והתוצאה היא מודלים קטנים יותר שפועלים כמעט כמו קווי הבסיס שלהם ברמת דיוק גבוהה.

טבלת ניתוב מהירה

מנוע הפריסה של היעד	סיומת להורדה	תרחיש שימוש ראשי
‫llama.cpp / LM Studio (מקומי)	`{model-name}-qat-q4_0-gguf`	פריסה מקומית ללא הגדרה במעבד (CPU), ב-Apple Silicon או במעבדי GPU לצרכנים.
vLLM / SGLang	שרת: `{model-name}-qat-w4a16-ct` נייד: `{model-name}-qat-mobile-ct`	הסקת מסקנות עם תפוקה גבוהה באמצעות משקלים של 4 ביט והפעלות של 16 ביט.
פענוח ספקולטיבי	מודל: `{model-name}-qat-q4_0-unquantized` טיוטה: `{model-name}-qat-q4_0-unquantized-assistant`	הפעלת מודל ראשי לצד מודל טיוטה תואם של MTP כדי להאיץ משמעותית את יצירת הטוקנים. המודל צריך להיות כמותי.
פורמטים אחרים	`{model-name}-qat-q4_0-unquantized`	משקלים לא מכומתים להמרה לפורמטים אחרים (למשל MLX)
פריסה בנייד (כלי המרה)	`{model-name}-qat-mobile-transformers`	משקלים של קצוות שמותאמים לתרחישי שימוש בנייד. הם משמשים כהפניה לפורמטים אחרים.

אוספים רשמיים של QAT ב-Hugging Face

collections/google/gemma-4-qat-q4-0
- Unquantized QAT Checkpoints (-unquantized / -assistant): משקלים בחצי דיוק שחולצו ישירות מצינור ה-QAT. הם אידיאליים למהדרים מותאמים אישית, למחקר או להרצת פענוח ספקולטיבי באמצעות מודלים של טיוטות של העוזר הדיגיטלי. זמין ל-Gemma 4 E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B.
- ‫GGUF (-gguf): נקודות ביקורת שזמינות לשילוב מיידי בתאימות במערכת האקולוגית המקומית של מודלי LLM. זמין למודלים Gemma 4 E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B.
- ‫Compressed Tensors (-w4a16-ct): סריאליזציה באופן מקורי בתקן compressed-tensors להצגה אופטימלית בענן עם מספר גדול של משתמשים בו-זמנית. זמין ל-Gemma 4 E2B,‏ E4B,‏ 12B ו-31B.
collections/google/gemma-4-qat-mobile
- מותאם לנייד (-mobile-transformers / -mobile-ct): מבוסס על סכימת wNa8o8 מותאמת שתוכננה במיוחד למגבלות של חומרה לנייד. הוא משתמש בשכבות פענוח ממוקדות של 2 ביט, במטמון KV שעבר אופטימיזציה ובפעולות הפעלה סטטיות כדי למקסם את החיסכון בזיכרון ה-RAM במכשיר, בלי להעמיס על מעבדי הקצה. זמין ב-Gemma 4 E2B וב-E4B.

אפשר לגשת לכל נקודות הבדיקה הרשמיות של Gemma 4 QAT ישירות מ-Kaggle.

מודלים קודמים של Gemma

אפשר לעבוד עם דורות קודמים של מודלים של Gemma, שזמינים גם ב-Kaggle וב-Hugging Face. פרטים טכניים נוספים על מודלים קודמים של Gemma זמינים בדפים הבאים של כרטיסי המודלים:

‫Gemma 3 Model Card
‫Gemma 2 Model Card
‫Gemma 1 Model Card

מוכנים להתחיל לבנות? מתחילים לעבוד עם מודלים של Gemma!