Gemma היא משפחה של מודלים של בינה מלאכותית גנרטיבית, ואפשר להשתמש בהם במגוון רחב של משימות גנרטיביות, כולל מענה לשאלות, סיכום וחשיבה רציונלית. מודלים של Gemma מסופקים עם משקלים פתוחים ומאפשרים שימוש מסחרי אחראי, כך שאתם יכולים לכוונן ולפרוס אותם בפרויקטים ובאפליקציות שלכם.
משפחת מודלים Gemma 4 כוללת שלוש ארכיטקטורות שונות שמותאמות לדרישות חומרה ספציפיות:
- גדלים קטנים: מודלים של פרמטרים יעילים בגודל 2B ו-4B שנוצרו לפריסה בניידים, במכשירים היקפיים ובדפדפנים (לדוגמה, Pixel, Chrome).
- Dense: מודל מתקדם עם 31 מיליארד פרמטרים, שמגשר על הפער בין ביצועים ברמת השרת לבין ביצועים מקומיים.
- Mixture-of-Experts: מודל MoE יעיל במיוחד עם 26 מיליארד פרמטרים, שנועד לחשיבה רציונלית משופרת ולתפוקה גבוהה.
אפשר להוריד מודלים של Gemma 4 מ-Kaggle ומ-Hugging Face. פרטים טכניים נוספים על Gemma 4 זמינים בכרטיס המודל. גרסאות קודמות של מודלי הליבה של Gemma זמינות גם להורדה. מידע נוסף זמין במאמר מודלים קודמים של Gemma.
להורדה מ-Kaggle להורדה מ-Hugging Face
יכולות
- הסבר: כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של חשיבה רציונלית, עם מצבי חשיבה שניתנים להגדרה.
- יכולות מולטי-מודאליות מתקדמות: עיבוד של טקסט, תמונות עם תמיכה ברזולוציה וביחסי גובה-רוחב משתנים (כל המודלים), סרטונים ואודיו (התכונות האלה מובנות במודלים E2B ו-E4B).
- חלון הקשר גדול יותר: למודלים הקטנים יש חלון הקשר של 128K, ולמודלים הבינוניים יש חלון הקשר של 256K.
- יכולות משופרות של קידוד וסוכנים: שיפורים משמעותיים בביצועים של מדדי קידוד, לצד תמיכה מובנית בקריאה לפונקציות, שמאפשרת הפעלה של סוכנים אוטונומיים עם יכולות מתקדמות.
- תמיכה בהנחיות מערכת מקוריות: Gemma 4 כולל תמיכה מובנית בתפקיד המערכת, שמאפשרת שיחות מובנות יותר וקלות יותר לשליטה.
- Multi-Token Prediction: כל המודלים של Gemma 4 (E2B, E4B, 31B ו-26B A4B) כוללים מודל טיוטה ייעודי לפענוח ספקולטיבי, שמאפשר הסקה מהירה משמעותית ללא אובדן איכות.
גדלים וקוונטיזציה של פרמטרים
מודלים של Gemma 4 זמינים ב-4 גדלים של פרמטרים: E2B, E4B, 31B ו-26B A4B. אפשר להשתמש במודלים עם הדיוק שמוגדר כברירת מחדל (16 ביט) או עם דיוק נמוך יותר באמצעות קוונטיזציה. הגדלים והדיוקים השונים מייצגים קבוצה של פשרות לאפליקציית ה-AI שלכם. מודלים עם יותר פרמטרים וביטים (דיוק גבוה יותר) הם בדרך כלל בעלי יכולות טובות יותר, אבל הם יקרים יותר להרצה מבחינת מחזורי עיבוד, עלות זיכרון וצריכת חשמל. למודלים עם פחות פרמטרים וביטים (דיוק נמוך יותר) יש פחות יכולות, אבל יכול להיות שהם יספיקו למשימת ה-AI שלכם.
דרישות הזיכרון להסקת מסקנות ב-Gemma 4
בטבלה הבאה מפורטים דרישות הזיכרון המשוערות של GPU או TPU להפעלת הסקה עם כל גודל של גרסאות מודל Gemma 4.
| פרמטרים | BF16 (16 ביט) | SFP8 (8-bit) | Q4_0 (4-bit) |
|---|---|---|---|
| Gemma 4 E2B | 9.6GB | 4.6GB | 3.2GB |
| Gemma 4 E4B | 15GB | 7.5GB | 5 GB |
| Gemma 4 31B | 58.3GB | 30.4GB | 17.4GB |
| Gemma 4 26B A4B | 48GB | 25 GB | 15.6GB |
טבלה 1. הזיכרון המשוער של GPU או TPU שנדרש לטעינת מודלים של Gemma 4 על סמך מספר הפרמטרים ורמת הכימות.
נקודות מרכזיות בתכנון הזיכרון
- ארכיטקטורה יעילה (E2B ו-E4B): האות E מייצגת פרמטרים יעילים. המודלים הקטנים יותר משלבים הטמעות בכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות למודל, ב-PLE כל שכבת פענוח מקבלת הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים. לכן, נפח הזיכרון הכולל שנדרש לטעינת משקלים סטטיים גבוה יותר ממה שמצוין במספר הפרמטרים האפקטיבי.
- ארכיטקטורת MoE (26B A4B): 26B הוא מודל של שילוב מומחים (MoE). המודל מפעיל רק 4 מיליארד פרמטרים לכל טוקן במהלך היצירה, אבל כל 26 מיליארד הפרמטרים צריכים להיטען לזיכרון כדי לשמור על מהירויות מהירות של ניתוב והסקת מסקנות. לכן, דרישת הזיכרון הבסיסית שלו קרובה יותר למודל צפוף של 26B מאשר למודל של 4B.
- משקלים בסיסיים בלבד: ההערכות בטבלה הקודמת מתייחסות רק לזיכרון שנדרש לטעינת המשקלים של המודל הסטטי. הם לא כוללים את זיכרון ה-VRAM הנוסף שנדרש לתמיכה בתוכנה או בחלון ההקשר.
- חלון ההקשר (מטמון KV): צריכת הזיכרון תגדל באופן דינמי בהתאם למספר הכולל של הטוקנים בהנחיה ולתגובה שנוצרה. חלונות הקשר גדולים יותר דורשים כמות גדולה יותר של VRAM בנוסף למשקלים של מודל הבסיס.
- תקורה של התאמה עדינה: דרישות הזיכרון להתאמה עדינה של מודלים של Gemma גבוהות משמעותית מאלה של הסקה רגילה. הגודל המדויק של טביעת הרגל תלוי מאוד במסגרת הפיתוח, בגודל האצווה ובשיטת הכוונון שבה משתמשים. למשל, כוונון מלא לעומת שיטת כוונון יעיל בפרמטרים (PEFT) כמו Low-Rank Adaptation (LoRA).
מודלים קודמים של Gemma
אפשר לעבוד עם דורות קודמים של מודלים של Gemma, שזמינים גם ב-Kaggle וב-Hugging Face. פרטים טכניים נוספים על מודלים קודמים של Gemma זמינים בדפים הבאים של כרטיסי המודלים:
- Gemma 3 Model Card
- Gemma 2 Model Card
- Gemma 1 Model Card
מוכנים להתחיל לבנות? מתחילים לעבוד עם מודלים של Gemma!