DiffusionGemma הוא מודל ניסיוני פתוח שמתבסס על דיפוזיה של טקסט, גישה מהירה במיוחד ליצירת טקסט. DiffusionGemma מבוססת על ארכיטקטורת Gemma 4 של 26B (4B פעילים) Mixture-of-Experts (MoE), והיא יוצרת טוקנים באמצעות דיפוזיה דיסקרטית. זהו מודל מולטי-מודאלי עם משקלים פתוחים, שמטפל בקלט של טקסט, תמונות וסרטונים כדי ליצור פלט של טקסט.
DiffusionGemma מבוסס על MoE, והוא נועד לשפר את מהירות היצירה (טוקנים לשנייה) תוך שמירה על יכולת פריסה בסביבות חומרה שונות. DiffusionGemma מבוסס על ההתקדמות הארכיטקטונית והיכולות של Gemma 4, וכולל כמה תכונות מרכזיות:
- Discrete Text Diffusion: שיטה שונה מהשיטה המסורתית של יצירת טוקנים סיבתיים, שבה נעשה שימוש בדגימה אוטומטית של כמה קנבסים. המודל יוצר טקסט על ידי הסרת רעשים חוזרת ונשנית מבלוקים של טוקנים ('בד ציור') במקביל, כדי להגדיל באופן משמעותי את מהירויות הפענוח.
- עיבוד מולטימודאלי: קבלת קלט של טקסט, תמונות (עם תמיכה ביחס גובה-רוחב וברזולוציה משתנים) וסרטונים באופן מובנה. (הערה: אין תמיכה בקלט אודיו).
- ארכיטקטורת מקודד-מפענח: נעשה שימוש במקודד אוטומטי רגרסיבי כדי לעבד את ההקשר של ההנחיה ולאחסן אותו במטמון, בשילוב עם הסרת רעשים שמחיל תשומת לב דו-כיוונית על אזור היצירה.
- יעילות של שילוב מומחים (MoE): המודל מבוסס על עיצוב MoE דליל שמבוסס על וריאנט MoE של 26B (4B פעיל), ומציע יכולות חשיבה רציונלית עמוקות עם תקורה מינימלית. אחרי הכמתות, הוא מתאים למגבלות של 18GB VRAM של כרטיסי GPU לצרכנים, ולכן הוא אידיאלי להרצה מקומית.
- מצב חשיבה: ערוצי הסקת מסקנות מובנים וניתנים להגדרה מאפשרים למודל לחשוב שלב אחר שלב לפני שהוא מציג תשובה סופית.
הפשרה עם מודלים מסורתיים
מודלים מסורתיים של שפה יעילים מאוד לפריסות בענן בקנה מידה גדול, כי הם יכולים לאגד אלפי בקשות. עם זאת, כשמריצים אותם באופן מקומי עבור משתמש יחיד, חומרה לא מנוצלת. DiffusionGemma פותרת את הבעיה הזו על ידי יצירת בלוק שלם של 256 טוקנים בו-זמנית, במקום טוקן אחד בכל פעם, וכך ממקסמת את הביצועים של החומרה המקומית.
עם זאת, הגישה הזו מיועדת אך ורק לשימוש מקומי עם מספר נמוך של משתמשים בו-זמנית, שפונה לצרכנים. הסיבה לכך היא שהפענוח המקביל שלה מניב תשואה פוחתת בעומסי עבודה בענן עם QPS גבוה, והיתרון של קצב העברת הנתונים הוא הגדול ביותר בגדלים קטנים עד בינוניים של אצוות במאיץ יחיד.
הגדרות מומלצות להצגת מודעות
כדי להשיג את האיכות והחביון האופטימליים, מומלץ להשתמש בפרמטרים הבאים שמוגדרים כברירת מחדל בהגדרות הדגימה של הדיפוזיה:
| פרמטר | ערך מומלץ | פונקציה | ההסבר |
|---|---|---|---|
| מספר השלבים המקסימלי להסרת רעשים | 48 | הרף העליון של מספר שלבי הסרת הרעשים לכל בד ציור. | מגבלה בטוחה על מספר השלבים להסרת רעשים. הפחתת הרעשים תיפסק בפחות שלבים כשההפסקה האדפטיבית מופעלת, בדרך כלל אחרי 12-16 שלבים, בהתאם למשימה. |
| לוח זמנים לשינוי טמפרטורה | לינארי 0.8 -> 0.4 | לוח זמנים של שינוי רמת אקראיות שמתחיל בערך גבוה ופוחת כפונקציה של שלבי הסרת הרעשים. | טמפרטורה גבוהה (0.8) מעודדת חיפוש מוקדם, וטמפרטורה נמוכה (0.4) מקבעת את הטוקנים הסופיים. |
| עצירה מוקדמת דינמית | ערך הסף של האנטרופיה: 0.005 | הביצוע מופסק מוקדם אם א) האנטרופיה הממוצעת של המודל בקנבס נמוכה מהסף, ו ב) אם שתי תחזיות רצופות של מסיר הרעשים נשארות זהות. |
הנחיות פשוטות ומשימות מובנות כמו קוד דורשות פחות שלבים של הסרת רעשים, מה שמאפשר מהירויות דינמיות של טוקנים לשנייה על סמך מורכבות המשימה. |
| בחירת טוקן | גבול האנטרופיה: 0.1 | בכל שלב, הדוגם בוחר את הטוקנים עם האנטרופיה הכי נמוכה, כך שהגבול של המידע ההדדי שלהם נשאר מתחת לגבול האנטרופיה. הדוגם מסיר רעשים באופן מלא מהאסימונים שלא נבחרו. | הפעולה הזו מבטיחה שרק טוקנים שהמודל יחסית בטוח לגביהם ייבחרו כדי לשפר את הקנבס, וטוקנים אחרים ישופרו בשלבים מאוחרים יותר של הסרת הרעשים. |
להורדה מ-Hugging Face להורדה מ-Kaggle גישה ב-Vertex
גישה למשקלים של המודל הניסיוני (שפורסם במסגרת רישיון Apache 2.0), שמאפשרת לכם לפרוס אותו בפרויקטים ובאפליקציות שלכם.
מידע נוסף על הארכיטקטורה של DiffusionGemma לשימוש ב-DiffusionGemma