Gemma היא משפחה של מודלים של בינה מלאכותית גנרטיבית, ואפשר להשתמש בהם במגוון רחב של משימות גנרטיביות, כולל מענה לשאלות, סיכום וחשיבה רציונלית. מודלים של Gemma מסופקים עם משקלים פתוחים ומאפשרים שימוש מסחרי אחראי, כך שאתם יכולים לכוונן ולפרוס אותם בפרויקטים ובאפליקציות שלכם.
משפחת המודלים של Gemma 4 כוללת שלוש ארכיטקטורות שונות שמותאמות לדרישות חומרה ספציפיות:
- מודלים קטנים: מודלים של פרמטרים יעילים בגודל 2B ו-4B שנוצרו לפריסה בניידים, במכשירים היקפיים ובדפדפנים (למשל, Pixel, Chrome).
- Dense: מודל מתקדם עם 31 מיליארד פרמטרים, שמגשר על הפער בין ביצועים ברמת השרת לבין ביצועים מקומיים.
- Mixture-of-Experts: מודל MoE יעיל במיוחד עם 26 מיליארד פרמטרים, שנועד לתפוקה גבוהה ולחשיבה רציונלית משופרת.
אפשר להוריד מודלים של Gemma 4 מ-Kaggle ומ-Hugging Face. פרטים טכניים נוספים על Gemma 4 זמינים בכרטיס המודל. גרסאות קודמות של מודלי הליבה של Gemma זמינות גם להורדה. מידע נוסף זמין במאמר מודלים קודמים של Gemma.
להורדה מ-Kaggle להורדה מ-Hugging Face
יכולות
- הסבר: כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של חשיבה רציונלית, עם מצבי חשיבה שניתנים להגדרה.
- יכולות מולטי-מודאליות מתקדמות: עיבוד של טקסט, תמונות עם תמיכה ברזולוציה וביחסי גובה-רוחב משתנים (כל המודלים), סרטונים ואודיו (התכונות האלה מובנות במודלים E2B ו-E4B).
- חלון הקשר גדול יותר: בדגמים הקטנים חלון ההקשר הוא 128K, ובדגמים הבינוניים הוא 256K.
- יכולות משופרות של קידוד וסוכנים: שיפורים משמעותיים במדדי השוואה של קידוד, לצד תמיכה מובנית בקריאה לפונקציות, שמאפשרת הפעלה של סוכנים אוטונומיים עם יכולות גבוהות.
- תמיכה בהנחיות מערכת מקוריות: Gemma 4 כולל תמיכה מובנית בתפקיד המערכת, שמאפשרת שיחות מובנות יותר וקלות יותר לשליטה.
גדלים וקוונטיזציה של פרמטרים
מודלים של Gemma 4 זמינים ב-4 גדלים של פרמטרים: E2B, E4B, 31B ו-26B A4B. אפשר להשתמש במודלים עם הדיוק שמוגדר כברירת מחדל (16 ביט) או עם דיוק נמוך יותר באמצעות קוונטיזציה. הגדלים והדיוקים השונים מייצגים קבוצה של פשרות לאפליקציית ה-AI שלכם. מודלים עם יותר פרמטרים וביטים (דיוק גבוה יותר) הם בדרך כלל בעלי יכולות טובות יותר, אבל העלות שלהם גבוהה יותר מבחינת מחזורי עיבוד, עלות זיכרון וצריכת חשמל. למודלים עם פחות פרמטרים ופחות ביטים (דיוק נמוך יותר) יש פחות יכולות, אבל יכול להיות שהם יספיקו למשימת ה-AI שלכם.
דרישות הזיכרון להסקת מסקנות ב-Gemma 4
בטבלה הבאה מפורטים דרישות הזיכרון המשוערות של GPU או TPU להפעלת הסקה עם כל גודל של גרסאות מודל Gemma 4.
| פרמטרים | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) |
|---|---|---|---|
| Gemma 4 E2B | 9.6GB | 4.6GB | 3.2GB |
| Gemma 4 E4B | 15GB | 7.5GB | 5 GB |
| Gemma 4 31B | 58.3GB | 30.4GB | 17.4GB |
| Gemma 4 26B A4B | 48GB | 25 GB | 15.6GB |
טבלה 1. הזיכרון המשוער במעבד ה-GPU או במעבד ה-TPU שנדרש לטעינת מודלים של Gemma 4 על סמך מספר הפרמטרים ורמת הכימות.
נקודות מרכזיות בתכנון הזיכרון
- ארכיטקטורה יעילה (E2B ו-E4B): האות E מייצגת פרמטרים יעילים. המודלים הקטנים יותר משלבים הטמעות לכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות למודל, ב-PLE כל שכבת פענוח מקבלת הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים. לכן, נפח הזיכרון הכולל שנדרש לטעינת משקלים סטטיים גבוה יותר ממה שמצביע עליו מספר הפרמטרים האפקטיבי.
- ארכיטקטורת MoE (26B A4B): 26B הוא מודל של שילוב מומחים (MoE). המודל מפעיל רק 4 מיליארד פרמטרים לכל טוקן במהלך היצירה, אבל כל 26 מיליארד הפרמטרים צריכים להיטען לזיכרון כדי לשמור על מהירויות ניתוב והסקה מהירות. לכן, דרישת הזיכרון הבסיסית שלו קרובה יותר למודל צפוף של 26B מאשר למודל של 4B.
- משקלים בסיסיים בלבד: ההערכות בטבלה הקודמת מתייחסות רק לזיכרון שנדרש לטעינת המשקלים של המודל הסטטי. הם לא כוללים את זיכרון ה-VRAM הנוסף שנדרש לתמיכה בתוכנה או בחלון ההקשר.
- חלון ההקשר (מטמון KV): צריכת הזיכרון תגדל באופן דינמי בהתאם למספר הכולל של הטוקנים בהנחיה ולתגובה שנוצרה. חלונות הקשר גדולים יותר דורשים כמות גדולה יותר של VRAM בנוסף למשקלים של מודל הבסיס.
- תקורה של התאמה עדינה: דרישות הזיכרון להתאמה עדינה של מודלים של Gemma גבוהות משמעותית מאלה של הסקה רגילה. הגודל המדויק של טביעת הרגל תלוי מאוד במסגרת הפיתוח, בגודל האצווה ובשיטת הכוונון שבה משתמשים. למשל, כוונון מלא לעומת שיטת כוונון יעיל בפרמטרים (PEFT) כמו Low-Rank Adaptation (LoRA).
מודלים קודמים של Gemma
אפשר לעבוד עם דורות קודמים של מודלים של Gemma, שזמינים גם ב-Kaggle וב-Hugging Face. פרטים טכניים נוספים על מודלים קודמים של Gemma זמינים בדפים הבאים של כרטיסי המודלים:
- Gemma 3 Model Card
- Gemma 2 Model Card
- Gemma 1 Model Card
מוכנים להתחיל לבנות? מתחילים לעבוד עם מודלים של Gemma!