في Gemma 4، تُعدّ بنية Multi-Token Prediction (MTP) البنية المحدّدة المستخدَمة لتفعيل ميزة Speculative Decoding عالية الكفاءة. وSpeculative Decoding هي تقنية لتسريع الاستدلال في النماذج اللغوية الكبيرة. بدلاً من الاعتماد فقط على النموذج المستهدَف الكبير لإنشاء الرموز المميزة بشكلٍ تلقائي (إنشاء رمز مميز واحد في كل مرة، حيث يعتمد كل رمز مميز جديد على الرموز السابقة)، يتوقّع "نموذج مسودة" أصغر وأسرع عدة رموز مميزة مسبقًا. ثم يتحقّق النموذج المستهدَف من هذه الرموز المميزة التي تم وضع مسودتها بالتوازي. إذا رفض النموذج المستهدَف رمزًا مميزًا تم وضع مسودته، سيظل ينتج الرمز المميز الصحيح لهذا الموضع (ما يضمن عدم إضاعة هذه الخطوة)، ويستأنف نموذج المسودة التوقّع من هذا الرمز المميز الصحيح الجديد.
تنفّذ Gemma 4 بنية MTP من خلال توسيع النموذج الأساسي باستخدام نموذج المسودة الأصغر والأسرع هذا. لا يكون نموذج المسودة هذا مستقلاً لأنّه يشارك جدول تضمين الإدخال مع النموذج المستهدَف ويستند مباشرةً إلى عمليات التفعيل في الطبقة الأخيرة. يؤدي ذلك إلى تسريع عملية فك الترميز بشكلٍ كبير مع ضمان الجودة نفسها تمامًا التي توفّرها عملية الإنشاء التلقائي العادية، ما يجعل نقاط التحقق هذه مثالية للتطبيقات التي تتطلّب وقت استجابة منخفضًا والتطبيقات على الجهاز فقط.
تعمل ميزة Speculative Decoding من خلال وضع مسودة لعدة رموز مميزة والتحقّق منها في عملية تمرير واحدة. بالنسبة إلى النماذج الكثيفة، يتم استخدام الأوزان نفسها لكل رمز مميز، لذا لا يؤدي التحقّق من رموز مميزة متعددة تم وضع مسودتها إلى إضافة تكلفة إضافية إلا قليلاً. تعمل نماذج Mixture of Experts (MoE) مثل Gemma 4 26B A4B بشكلٍ مختلف. قد يفعّل كل رمز مميز خبراء مختلفين، لذا قد يتطلّب التحقّق من الرموز المميزة التي تم وضع مسودتها تحميل أوزان إضافية للخبراء من الذاكرة، ما يعوّض المكاسب الناتجة عن وضع المسودة. عند أحجام الدُفعات الأكبر، يكون هناك عادةً تداخل أكبر في الخبراء الذين تم تفعيلهم على مستوى التسلسلات، ما يحسّن إعادة استخدام الأوزان التي تم تحميلها. عند حجم الدُفعة 1، يكون هذا التداخل محدودًا، ولهذا السبب قد لا يحقّق نموذج المسودة 26B A4B عمليات تسريع على منصات الأجهزة التي لا تتضمّن ميزة التوازي الجيدة.
تحسينات MTP
تقدّم Gemma 4 عدة تحسينات على مسار Speculative Decoding العادي لتحسين جودة الرموز المميزة التي تم وضع مسودتها والكفاءة:
- عمليات تضمين الإدخال المشتركة: يشارك نموذج المسودة جدول تضمين الإدخال مع النموذج المستهدَف.
- عمليات التفعيل المستهدَفة: يستخدم نموذج المسودة عمليات التفعيل من الطبقة الأخيرة في النموذج المستهدَف، ويضمّنها مع عمليات تضمين الرموز المميزة، ويقلّل من عمليات التوقّع إلى بُعد نموذج المسودة.
- أداة تضمين فعّالة: لتجنُّب عملية التوقّع المكلفة على مستوى المفردات بأكملها، يجمّع النموذج الرموز المميزة المتشابهة في مجموعات. يحدّد أولاً المجموعات الأكثر احتمالاً ثم يقتصر على إجراء العمليات الحسابية النهائية على الرموز المميزة ضمن هذه المجموعات المحدّدة فقط (E2B وE4B فقط).