האצת Gemma 4 באמצעות Multi-Token Prediction

ב-Gemma 4, חיזוי של כמה טוקנים (MTP) הוא הארכיטקטורה הספציפית שמשמשת להפעלת פענוח ספקולטיבי יעיל במיוחד. פענוח ספקולטיבי הוא טכניקה להאצת ההסקה במודלים גדולים של שפה. במקום להסתמך רק על מודל גדול של טירגוט כדי ליצור טוקנים באופן אוטומטי רגרסיבי (יצירת טוקן אחד בכל פעם, כאשר כל טוקן חדש תלוי בטוקנים הקודמים), מודל קטן ומהיר יותר של טיוטה חוזה כמה טוקנים מראש. לאחר מכן, מודל היעד מאמת את הטוקנים האלה במקביל. אם מודל היעד דוחה אסימון שנוצר, הוא עדיין יוצר את האסימון הנכון למיקום הזה (כדי לוודא שהשלב לא היה לשווא), ומודל הטיוטה ממשיך לחזות מהאסימון הנכון החדש הזה.

מודל Gemma 4 מיישם MTP על ידי הרחבת מודל הבסיס עם מודל טיוטה קטן ומהיר יותר. מודל הטיוטה הזה לא עצמאי כי הוא חולק את טבלת ההטמעה של הקלט עם מודל היעד, והוא נבנה ישירות על ההפעלה של השכבה האחרונה שלו. התוצאה היא שיפור משמעותי במהירות הפענוח, תוך שמירה על אותה רמת איכות כמו בשיטה הרגילה של יצירה אוטומטית רגרסיבית. לכן, נקודות הבדיקה האלה מתאימות באופן מושלם לאפליקציות עם זמן אחזור נמוך ולאפליקציות במכשיר.

פענוח ספקולטיבי פועל על ידי טיוטה של כמה אסימונים ואימות שלהם במעבר קדימה יחיד. במודלים צפופים, אותם משקלים משמשים לכל טוקן, ולכן אימות של כמה טוקנים בטיוטה מוסיף תקורה מינימלית. מודלים של Mixture of Experts (MoE)‎, כמו Gemma 4 26B A4B, פועלים בצורה שונה. כל טוקן יכול להפעיל מומחים שונים, ולכן כדי לאמת טוקנים שנוצרו בטיוטה יכול להיות שיהיה צורך לטעון משקלים נוספים של מומחים מהזיכרון, מה שיקזז את היתרונות של יצירת הטיוטה. בגדלים גדולים יותר של אצווה, בדרך כלל יש יותר חפיפה בין מומחים שהופעלו ברצפים, מה שמשפר את השימוש החוזר במשקלים שנטענו. בגודל אצווה של 1, החפיפה הזו מוגבלת, ולכן יכול להיות שהמהירות של כלי הניסוח 26B A4B לא תשתפר בפלטפורמות חומרה ללא מקביליות טובה.

שיפורים ב-MTP

‫Gemma 4 כולל כמה שיפורים בפייפליין הרגיל של פענוח ספקולטיבי, כדי לשפר את האיכות של טוקנים שנוסחו ואת היעילות:

  • Shared Input Embeddings: מודל הטיוטה משתף את טבלת ההטמעה של הקלט עם מודל היעד.
  • הפעלות של מודל היעד: מודל הטיוטה משתמש בהפעלות מהשכבה האחרונה של מודל היעד, משרשר אותן עם הטמעות הטוקנים ומקרין אותן למטה לממד של מודל הטיוטה.
  • Efficient Embedder: כדי להימנע מהפעולה היקרה של חיזוי בכל אוצר המילים, המודל מקבץ טוקנים דומים לאשכולות. המודל מזהה קודם את האשכולות הסבירים ביותר, ואז מגביל את החישובים הסופיים שלו רק לטוקנים שנמצאים באשכולות הנבחרים האלה (רק ב-E2B וב-E4B).