Hugging Face |
GitHub |
בלוג ההשקה |
תיעוד
רישיון: Apache 2.0 | מחברים: Google DeepMind
DiffusionGemma הוא מודל גנרטיבי שנוצר על ידי Google DeepMind. DiffusionGemma מבוסס על ארכיטקטורת Gemma 4 של 26B A4B Mixture-of-Experts (MoE), והוא יוצר טוקנים באמצעות דיפוזיה דיסקרטית. המודל הזה הוא מולטי-מודאלי, והוא מטפל בקלט של טקסט, תמונות וסרטונים כדי ליצור פלט של טקסט.
DiffusionGemma מבוסס על MoE, והוא נועד לשפר את מהירות היצירה (טוקנים לשנייה) תוך שמירה על יכולת פריסה בסביבות חומרה שונות. DiffusionGemma מבוסס על ההתקדמות הארכיטקטונית והיכולות של Gemma 4, וכולל כמה תכונות מרכזיות:
- Discrete Text Diffusion – מעבר מרגרסיה אוטומטית של טוקנים בזה אחר זה לדגימה של בלוקים ברגרסיה אוטומטית בכמה אזורים. הטקסט נוצר על ידי הסרת רעשים חוזרת ונשנית מבלוקים של טוקנים ('אזור') במקביל, מה שמגדיל באופן משמעותי את מהירות הפענוח.
- עיבוד קלט מולטי-מודאלי – עיבוד של קלט משולב של טקסט, תמונה (עם תמיכה ביחס גובה-רוחב וברזולוציה משתנים) וסרטון כדי ליצור פלט של טקסט.
- ארכיטקטורת מקודד-מפענח – נעשה שימוש במקודד אוטומטי רגרסיבי כדי לעבד את הקשר של ההנחיה ולשמור אותו במטמון, בשילוב עם מפענח שמחיל תשומת לב דו-כיוונית על בד הציור של הדור.
- יעילות של Mixture-of-Experts (MoE) – המודל מבוסס על עיצוב MoE דליל (8 מומחים פעילים מתוך 128 בסך הכול) כדי לספק יכולות חזקות של חשיבה רציונלית, תוך שמירה על הזיכרון שבשימוש שמתאימה להרצה מקומית.
- מצב העמקה (חשיבה רציונלית) – מיועד לחשיבה רציונלית מתקדמת, עם מצבי חשיבה שניתנים להגדרה.
- אופטימיזציה להסקת מסקנות לגבי קבוצות קטנות – מתוכנן במיוחד ליצירה במהירות גבוהה עם זמן אחזור נמוך במאיץ יחיד.
- תמיכה בהנחיות מערכת מקוריות – כמו ב-Gemma 4, יש תמיכה בעדכון התפקיד
system, מה שמאפשר שיחות מובנות יותר וקלות יותר לשליטה.
סקירה כללית של המודל
המודל DiffusionGemma מתוכנן לצמצום צווארי הבקבוק הרציפים של מודלים סטנדרטיים של שפה סיבתית. הוא מבוסס על ארכיטקטורת מקודד-מפענח שעברה אופטימיזציה במיוחד למהירות הסקת מסקנות.
הקודד פועל בקיבולת מילוי מראש, מעבד את ההנחיה הראשונית ומייצר את מטמון KV. לאחר מכן, המפענח משתמש בתשומת לב דו-כיוונית כדי לעבד בלוק קלט ('בד ציור') של טוקנים, וניגש להקשר ששמור במטמון באמצעות תשומת לב צולבת.
במהלך ההסקה, DiffusionGemma משתמש בדגימה מרובת קנבסים. במקום ליצור טוקן אחד בכל פעם, המודל מסיר רעשים באופן איטרטיבי מחסימה מלאה של טוקנים באמצעות דגימה של דיפוזיה. אחרי שמסיימים להסיר את הרעשים מתמונה ב-Canvas, המקודד מעבד אותה ומוסיף אותה למטמון KV, ואז המודל יוצר את התמונה הבאה ב-Canvas. הגישה הזו של חסימה אוטומטית מאפשרת יצירת טקסט במהירויות גבוהות יותר.
DiffusionGemma
| Total Parameters | 25.2B | | Active Parameters | 3.8B | | Layers | 30 | | Sliding Window | 1024 tokens | | Context Length | Up to 256K tokens | | Canvas Length | 256 | | Vocabulary Size | 262K | | Expert Count | 8 active / 128 total and 1 shared | | Supported Modalities | Text, Image | | Vision Encoder Parameters | ~550M |
תוצאות ההשוואה לשוק
המודלים האלה נבדקו על אוסף גדול של מערכי נתונים ומדדים שונים כדי לכסות היבטים שונים של יצירת טקסט. תוצאות הבדיקה שמסומנות בטבלה הן של מודלים שעברו כוונון להנחיות, עם דגימת Entropy Bound (EB) מומלצת (ראו שיטות מומלצות בהמשך).
| נקודת השוואה | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 no tools | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA Diamond | 73.2% | 82.3% |
| Tau2 (ממוצע מעל 3) | 56.2% | 68.2% |
| HLE no tools | 11.0% | 8.7% |
| HLE עם חיפוש | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| ראייה | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (מרחק העריכה הממוצע, ערך נמוך יותר טוב יותר) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| הקשר רחב | ||
| MRCR v2 8 needle 128k (ממוצע) | 32.0% | 44.1% |
יכולות הליבה
DiffusionGemma מטפל במגוון רחב של משימות שקשורות לטקסט ולראייה. בין היכולות המרכזיות:
- יצירה במהירות גבוהה – ביטול רעשים מקביל של 256 טוקנים באמצעות דגימת דיפוזיה מאפשר השגת זמן אחזור נמוך על ידי יצירה של 15-20 טוקנים לכל העברה קדימה, ופתיחת מהירויות יצירה לכל משתמש שעולות על 1,100 טוקנים לשנייה בהגדרות של גודל אצווה נמוך (H100, FP8).
- חישוב אדפטיבי של זמן ההסקה – הנחיות פשוטות ומשימות מובנות כמו קוד דורשות פחות שלבים של הסרת רעשים, מה שמאפשר מהירויות דינמיות של טוקנים לשנייה בהתאם למורכבות המשימה.
- חשיבה – מצב חשיבה מובנה שמאפשר למודל לחשוב שלב אחר שלב לפני שהוא עונה.
- הקשר רחב – חלונות הקשר של עד 256 אלף טוקנים.
- פענוח תמונות – זיהוי אובייקטים, ניתוח מסמכים או קובצי PDF, פענוח מסכים וממשקי משתמש, פענוח תרשימים, זיהוי תווים אופטי (OCR) (כולל רב-לשוני), זיהוי כתב יד והצבעה. אפשר לעבד תמונות ביחסי גובה-רוחב וברזולוציות משתנים.
- הבנת סרטונים – ניתוח ותיאור של תוכן סרטונים באמצעות עיבוד של רצפי פריימים.
- קלט מולטי-מודאלי משולב – שילוב של תמונות, סרטונים וטקסט בהנחיה אחת כדי לקבל נימוקים מפורטים.
- בקשה להפעלת פונקציה – תמיכה מובנית בשימוש מובנה בכלים, שמאפשרת תהליכי עבודה מבוססי-סוכן.
- תכנות וחשיבה רציונלית – יכולות ליצירת קוד, להשלמת קוד ולהסקת מסקנות לוגיות שלב אחר שלב.
- ריבוי שפות – תמיכה מוכנה לשימוש ביותר מ-35 שפות, עם אימון מראש על יותר מ-140 שפות.
שיטות מומלצות
כדי להשיג את הביצועים הטובים ביותר, כדאי להשתמש בהגדרות ובשיטות המומלצות הבאות:
1. הגדרות דגימה של דיפוזיה
כדאי להשתמש בהגדרת הדגימה המתוקננת הבאה בכל תרחישי השימוש:
- שיטה: דגימת דיפוזיה עם הסרת רעשים מוגבלת באנטרופיה ועצירה אדפטיבית.
- הגדרת דגימה:
- מספר השלבים המקסימלי להסרת רעשים = 48
- לוח זמנים לשינוי טמפרטורה (לשינוי צורה של פונקציית הלוגיט): ירידה לינארית מ-0.8 ל-0.4
- בחירת טוקנים: בכל שלב, הדוגם בוחר את הטוקנים עם האנטרופיה הכי נמוכה, כך שגבול המידע ההדדי שלהם יישאר מתחת לגבול האנטרופיה = 0.1
- הסרת רעשים מטוקנים: הדוגם מסיר רעשים באופן מלא מטוקנים שלא נבחרו
- עצירה דינמית: הדגימה מסתיימת מוקדם רק אם שני התנאים הבאים מתקיימים בו-זמנית:
- תחזיות מהימנות: האנטרופיה הממוצעת של המודל על הקנבס נמוכה מסף האנטרופיה = 0.005
- תחזיות יציבות: התחזיות של האסימונים עם ההסתברות הכי גבוהה נשארות זהות בשני שלבים עוקבים של הסרת רעשים
2. הגדרת מצב החשיבה
בדומה למודלים של Gemma 4, אנחנו משתמשים בתפקידים סטנדרטיים של system, assistant ו-user. כדי לנהל את תהליך החשיבה בצורה נכונה, אפשר להשתמש בטוקנים הבאים של בקרה:
- הפעלת חשיבה: כדי להפעיל חשיבה, צריך לכלול את הטוקן
<|think|>בתחילת הנחיית המערכת. כדי להשבית את החשיבה, מסירים את הטוקן (שימו לב: יכול להיות שעדיין ייפלט ערוץ חשיבה ריק). - יצירה רגילה: כשהחשיבה מופעלת, המודל יציג את ההיגיון הפנימי שלו ואחריו את התשובה הסופית במבנה הבא:
<|channel>thought\n[היגיון פנימי]<channel|>. - התנהגות חשיבה מושבתת: אם החשיבה מושבתת, המודל עדיין ייצור את התגים, אבל עם בלוק חשיבה ריק:
<|channel>thought\n<channel|>[תשובה סופית].
שימו לב: ספריות רבות, כמו transformers, מטפלות במורכבויות של תבנית הצ'אט בשבילכם.
3. שיחות עם זיכרון
- אין תוכן של חשיבה בהיסטוריה: בשיחות מרובות תורות, הפלט ההיסטורי של המודל צריך לכלול רק את התשובה הסופית. אסור להוסיף מחשבות מתור של מודל קודם לפני שמתחיל התור הבא של המשתמש.
4. סדר המודאליות
- כדי להפיק רמת ביצועים אופטימלית מהנחיות מרובות מצבים, כדאי למקם את תוכן התמונה לפני הטקסט בהנחיה.
5. רזולוציה משתנה של תמונות
בנוסף ליחסי גובה-רוחב משתנים, DiffusionGemma תומכת ברזולוציית תמונה משתנה באמצעות תקציב אסימונים ויזואליים שניתן להגדרה, ששולט במספר האסימונים שמשמשים לייצוג תמונה. תקציב אסימונים גבוה יותר שומר על יותר פרטים ויזואליים, אבל דורש יותר משאבי מחשוב, בעוד שתקציב נמוך יותר מאפשר הסקה מהירה יותר למשימות שלא דורשות הבנה מדויקת.
- התקציבים הנתמכים של טוקנים הם: 70, 140, 280, 560 ו-1, 120.
- משתמשים בתקציבים נמוכים יותר לסיווג, לכתוביות או להבנת סרטונים, שבהם הסקה מהירה ועיבוד של הרבה פריימים חשובים יותר מפרטים מדויקים.
- כדאי להשתמש בתקציבים גבוהים יותר למשימות כמו OCR, ניתוח מסמכים או קריאת טקסט קטן.
6. אורך הסרטון
כל המודלים תומכים בקלט של תמונות ויכולים לעבד סרטונים כפריימים. הסרטון יכול להיות באורך של עד 60 שניות, בהנחה שהתמונות מעובדות בקצב של פריים אחד לשנייה.
נתוני המודל
הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.
מערך נתונים לאימון
מערך הנתונים שלנו לאימון מוקדם הוא אוסף נתונים מגוון ורחב היקף, שכולל מגוון רחב של תחומים ואופנים, כולל מסמכי אינטרנט, קוד, תמונות, אודיו, עם תאריך סיום של ינואר 2025. הרכיבים העיקריים הם:
- מסמכים באינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-140 שפות.
- קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
- מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ואיך לענות על שאלות שקשורות למתמטיקה.
- תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.
השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון מודל רב-אופני רב-עוצמה שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים שונים של נתונים.
עיבוד מקדים של נתונים
אלה השיטות העיקריות לניקוי ולסינון נתונים שמוחלות על נתוני האימון:
- סינון CSAM: סינון קפדני של CSAM (תוכן שמתאר התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח שלא ייכלל תוכן מזיק ולא חוקי.
- סינון מידע אישי רגיש: כדי להפוך את המודלים של Gemma שעברו אימון מראש לבטוחים ומהימנים, השתמשנו בטכניקות אוטומטיות לסינון של מידע אישי מסוים ומידע אישי רגיש אחר ממערכי האימון.
- שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.
אתיקה ובטיחות
ככל שהמודלים הפתוחים הופכים למרכזיים בתשתית הארגונית, מקוריות ואבטחה הם בעלי חשיבות עליונה. מודל DiffusionGemma פותח על ידי Google DeepMind ועובר את אותן בדיקות בטיחות קפדניות כמו מודלי Gemini הקנייניים שלנו.
גישת ההערכה
DiffusionGemma פותח בשיתוף עם צוותים פנימיים שעוסקים בבטיחות וב-AI אחראי. נערכו מגוון בדיקות אוטומטיות ובדיקות אנושיות כדי לשפר את בטיחות המודל. הבדיקות האלה תואמות לעקרונות ה-AI של Google ולמדיניות הבטיחות שלה, שמטרתם למנוע מהמודלים של ה-AI הגנרטיבי שלנו ליצור תוכן פוגעני, כולל:
- תוכן שקשור לתוכן ויזואלי של התעללות מינית בילדים (CSAM) ולניצול מיני של ילדים
- תוכן מסוכן (למשל, קידום התאבדות או מתן הוראות לפעילויות שעלולות לגרום לנזק בעולם האמיתי)
- תוכן מיני בוטה
- דברי שטנה (למשל, דה-הומניזציה של חברים בקבוצות מוגנות)
- הטרדה (למשל, עידוד אלימות נגד אנשים)
תוצאות ההערכה
בכל התחומים של בדיקות הבטיחות, ראינו שיפורים משמעותיים בכל הקטגוריות של בטיחות התוכן בהשוואה לדורות הקודמים של מודלים של Gemma. באופן כללי, מודל DiffusionGemma, כמו מודלים של Gemma 4, עולה באופן משמעותי על מודלים של Gemma 3 ו-3n בשיפור הבטיחות, תוך שמירה על שיעור נמוך של סירובים לא מוצדקים. כל הבדיקות נערכו בכוונה ללא מסנני בטיחות כדי להעריך את היכולות הגולמיות של המודל ואת התנהגויות הבסיס שלו. גם ביצירת טקסט על סמך טקסט וגם בהמרת תמונה לטקסט, ובכל גדלי המודלים, המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בהשוואה למודלים קודמים של Gemma.
שימוש ומגבלות
למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.
שימוש מיועד
למודלים מולטי-מודאליים (שיכולים לעבד נתונים חזותיים, שפה ו/או אודיו) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים היא חלקית. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודל לקחו בחשבון כחלק מאימון המודל והפיתוח שלו.
- יצירת תוכן ותקשורת
- יצירת טקסט: יצירת פורמטים יצירתיים של טקסט, כמו שירים, סקריפטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
- צ'אט בוטים ו-AI בממשק שיחה: מפעילים ממשקי שיחה לשירות לקוחות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של קורפוס טקסטים, מאמרי מחקר או דוחות.
- חילוץ נתוני תמונות: חילוץ, פרשנות וסיכום של נתונים ויזואליים לתקשורת טקסטואלית.
- מחקר וחינוך
- עיבוד שפה טבעית (NLP) ומחקר VLM: משמש כבסיס לחוקרים להתנסות בטכניקות של VLM ו-NLP, לפתח אלגוריתמים ולתרום להתקדמות התחום.
- כלים ללימוד שפות: תומכים בחוויות אינטראקטיביות של לימוד שפות, עוזרים לתקן שגיאות דקדוק או מספקים תרגול בכתיבה.
- חיפוש מידע: עוזר לחוקרים לחפש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מענה על שאלות בנושאים ספציפיים.
מגבלות
- נתונים לאימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
- הקשר ומורכבות המשימה
- המודל מצטיין במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. משימות פתוחות או מורכבות מאוד עשויות להיות מאתגרות.
- הביצועים של המודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
- שפה דו-משמעית וניואנסים
- שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודל יתקשה להבין ניואנסים עדינים, סרקזם או שפה ציורית.
- דיוק עובדתי
- המודל יוצר תשובות על סמך מידע שהוא למד ממערכי האימון שלו, אבל הוא לא בסיס ידע. יכול להיות שהיא תפיק הצהרות עובדתיות שגויות או לא עדכניות.
- Common Sense
- המודל מתבסס על דפוסים סטטיסטיים בשפה. יכול להיות שחסרה לו היכולת להפעיל היגיון בריא במצבים מסוימים.
שיקולים אתיים וסיכונים
בתהליך היצירה של מודל פתוח לראייה ולשפה, הקפדנו להתייחס לנקודות הבאות:
- הטיה והוגנות
- מודלים של שפה ויזואלית שאומנו על נתונים של טקסט ותמונות מהעולם האמיתי בהיקף גדול יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. המודל DiffusionGemma עבר בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט והערכות לאחר האימון, כפי שמפורט בכרטיס הזה, כדי לצמצם את הסיכון להטיות האלה.
- מידע מוטעה ושימוש לרעה
- אפשר להשתמש במודלים גדולים של שפה (VLM) בצורה לא נכונה כדי ליצור טקסט שהוא שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל, אפשר לעיין בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
- שקיפות ואחריותיות
- בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודל.
- מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.
סיכונים שזוהו ודרכים לצמצום שלהם:
- יצירת תוכן פוגעני: חשוב להשתמש במנגנונים ובהנחיות לבטיחות תוכן. מומלץ למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן על סמך מדיניות המוצר הספציפית שלהם ותרחישי השימוש באפליקציה.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני במודלים גדולים של שפה. אנחנו מספקים למשתמשים מקורות מידע חינוכיים ומנגנוני דיווח כדי להתריע על שימוש לרעה.
- הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מידע אישי מסוים ומידע אישי רגיש אחר. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
- הנצחת הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה ובדיקה אנושית) ולחקור טכניקות להסרת הטיות במהלך אימון המודל, כוונון עדין של המודל ותהליכים אחרים.
יתרונות
בזמן ההשקה, זהו מודל שפה פתוח עם ראייה, עם זמן אחזור נמוך וביצועים גבוהים, שמספק אפשרות מעניינת למפתחים ולמי שמתעניין במחקר של מודלים של שפה דיפוזית. המודל תוכנן מההתחלה לפיתוח אתיקה של בינה מלאכותית, בהשוואה למודלים בגודל דומה.