در Gemma 4، پیشبینی چند توکنی (MTP) معماری خاصی است که برای فعال کردن رمزگشایی حدسی بسیار کارآمد استفاده میشود. رمزگشایی حدسی تکنیکی برای سرعت بخشیدن به استنتاج در مدلهای زبانی بزرگ است. به جای تکیه صرف بر مدل هدف بزرگ برای تولید توکنها به صورت خودبازگشتی (تولید یک توکن در هر زمان، که در آن هر توکن جدید به توکنهای قبلی بستگی دارد)، یک «مدل پیشنویس» کوچکتر و سریعتر، چندین توکن بعدی را پیشبینی میکند. سپس مدل هدف این توکنهای پیشنویس شده را به صورت موازی تأیید میکند. اگر مدل هدف یک توکن پیشنویس شده را رد کند، همچنان توکن صحیح را برای آن موقعیت تولید میکند (و اطمینان حاصل میکند که آن مرحله هدر نمیرود) و مدل پیشنویس پیشبینی را از آن توکن صحیح جدید از سر میگیرد.
Gemma 4 با گسترش مدل پایه با این مدل پیشنویس کوچکتر و سریعتر، MTP را پیادهسازی میکند. این مدل پیشنویس مستقل نیست زیرا جدول جاسازی ورودی را با مدل هدف به اشتراک میگذارد و مستقیماً بر اساس فعالسازیهای آخرین لایه آن ساخته میشود. این امر منجر به افزایش قابل توجه سرعت رمزگشایی میشود و در عین حال کیفیتی دقیقاً مشابه تولید خودهمبستگی استاندارد را تضمین میکند و این نقاط بازرسی را برای برنامههای با تأخیر کم و روی دستگاه ایدهآل میسازد.
رمزگشایی حدسی با تهیه چندین توکن و تأیید آنها در یک مسیر رو به جلو کار میکند. برای مدلهای متراکم، از وزنهای یکسان برای هر توکن استفاده میشود، بنابراین تأیید چندین توکن تهیه شده، سربار کمی را اضافه میکند. مدلهای ترکیبی از متخصصان (MoE) مانند Gemma 4 26B A4B به طور متفاوتی کار میکنند. هر توکن ممکن است متخصصان مختلفی را فعال کند، بنابراین تأیید توکنهای تهیه شده میتواند نیاز به بارگیری وزنهای متخصص اضافی از حافظه داشته باشد و سود حاصل از تهیه را جبران کند. در اندازههای دسته بالاتر، معمولاً همپوشانی بیشتری در متخصصان فعال شده در توالیها وجود دارد که استفاده مجدد از وزنهای بارگیری شده را بهبود میبخشد. در اندازه دسته ۱، این همپوشانی محدود است، به همین دلیل است که تهیه کننده ۲۶B A4B ممکن است بدون موازیسازی خوب، سرعت بیشتری در پلتفرمهای سختافزاری ایجاد نکند.
بهبودهای MTP
Gemma 4 چندین پیشرفت را در خط لوله رمزگشایی استاندارد گمانهزنی معرفی میکند تا کیفیت توکنهای پیشنویس شده و کارایی را بهبود بخشد:
- جاسازیهای ورودی مشترک : مدل پیشنویس، جدول جاسازی ورودی را با مدل هدف به اشتراک میگذارد.
- فعالسازیهای هدف : مدل پیشنویس از فعالسازیهای آخرین لایه مدل هدف استفاده میکند، آنها را با جاسازیهای توکن پیوند میدهد و آنها را به بُعد مدل پیشنویس، down-project میکند.
- جاسازیکننده کارآمد : برای جلوگیری از عملیات پرهزینه پیشبینی در کل واژگان، مدل، توکنهای مشابه را در خوشههایی گروهبندی میکند. ابتدا محتملترین خوشهها را شناسایی میکند و سپس محاسبات نهایی خود را فقط به توکنهای درون آن خوشههای انتخاب شده محدود میکند (فقط E2B و E4B).