افزایش سرعت جما ۴ با پیش‌بینی چند توکنی

در Gemma 4، پیش‌بینی چند توکنی (MTP) معماری خاصی است که برای فعال کردن رمزگشایی حدسی بسیار کارآمد استفاده می‌شود. رمزگشایی حدسی تکنیکی برای سرعت بخشیدن به استنتاج در مدل‌های زبانی بزرگ است. به جای تکیه صرف بر مدل هدف بزرگ برای تولید توکن‌ها به صورت خودبازگشتی (تولید یک توکن در هر زمان، که در آن هر توکن جدید به توکن‌های قبلی بستگی دارد)، یک «مدل پیش‌نویس» کوچک‌تر و سریع‌تر، چندین توکن بعدی را پیش‌بینی می‌کند. سپس مدل هدف این توکن‌های پیش‌نویس شده را به صورت موازی تأیید می‌کند. اگر مدل هدف یک توکن پیش‌نویس شده را رد کند، همچنان توکن صحیح را برای آن موقعیت تولید می‌کند (و اطمینان حاصل می‌کند که آن مرحله هدر نمی‌رود) و مدل پیش‌نویس پیش‌بینی را از آن توکن صحیح جدید از سر می‌گیرد.

Gemma 4 با گسترش مدل پایه با این مدل پیش‌نویس کوچک‌تر و سریع‌تر، MTP را پیاده‌سازی می‌کند. این مدل پیش‌نویس مستقل نیست زیرا جدول جاسازی ورودی را با مدل هدف به اشتراک می‌گذارد و مستقیماً بر اساس فعال‌سازی‌های آخرین لایه آن ساخته می‌شود. این امر منجر به افزایش قابل توجه سرعت رمزگشایی می‌شود و در عین حال کیفیتی دقیقاً مشابه تولید خودهمبستگی استاندارد را تضمین می‌کند و این نقاط بازرسی را برای برنامه‌های با تأخیر کم و روی دستگاه ایده‌آل می‌سازد.

رمزگشایی حدسی با تهیه چندین توکن و تأیید آنها در یک مسیر رو به جلو کار می‌کند. برای مدل‌های متراکم، از وزن‌های یکسان برای هر توکن استفاده می‌شود، بنابراین تأیید چندین توکن تهیه شده، سربار کمی را اضافه می‌کند. مدل‌های ترکیبی از متخصصان (MoE) مانند Gemma 4 26B A4B به طور متفاوتی کار می‌کنند. هر توکن ممکن است متخصصان مختلفی را فعال کند، بنابراین تأیید توکن‌های تهیه شده می‌تواند نیاز به بارگیری وزن‌های متخصص اضافی از حافظه داشته باشد و سود حاصل از تهیه را جبران کند. در اندازه‌های دسته بالاتر، معمولاً همپوشانی بیشتری در متخصصان فعال شده در توالی‌ها وجود دارد که استفاده مجدد از وزن‌های بارگیری شده را بهبود می‌بخشد. در اندازه دسته ۱، این همپوشانی محدود است، به همین دلیل است که تهیه کننده ۲۶B A4B ممکن است بدون موازی‌سازی خوب، سرعت بیشتری در پلتفرم‌های سخت‌افزاری ایجاد نکند.

بهبودهای MTP

Gemma 4 چندین پیشرفت را در خط لوله رمزگشایی استاندارد گمانه‌زنی معرفی می‌کند تا کیفیت توکن‌های پیش‌نویس شده و کارایی را بهبود بخشد:

  • جاسازی‌های ورودی مشترک : مدل پیش‌نویس، جدول جاسازی ورودی را با مدل هدف به اشتراک می‌گذارد.
  • فعال‌سازی‌های هدف : مدل پیش‌نویس از فعال‌سازی‌های آخرین لایه مدل هدف استفاده می‌کند، آن‌ها را با جاسازی‌های توکن پیوند می‌دهد و آن‌ها را به بُعد مدل پیش‌نویس، down-project می‌کند.
  • جاسازی‌کننده کارآمد : برای جلوگیری از عملیات پرهزینه پیش‌بینی در کل واژگان، مدل، توکن‌های مشابه را در خوشه‌هایی گروه‌بندی می‌کند. ابتدا محتمل‌ترین خوشه‌ها را شناسایی می‌کند و سپس محاسبات نهایی خود را فقط به توکن‌های درون آن خوشه‌های انتخاب شده محدود می‌کند (فقط E2B و E4B).