मल्टी-टोकन प्रेडिक्शन की मदद से, Gemma 4 की स्पीड बढ़ाना

Gemma 4 में, मल्टी-टोकन प्रेडिक्शन (एमटीपी) का इस्तेमाल किया जाता है. यह एक खास आर्किटेक्चर है, जिसकी मदद से स्पेक्लेटिव डिकोडिंग को बहुत ज़्यादा असरदार बनाया जा सकता है. स्पेक्लेटिव डिकोडिंग, लार्ज लैंग्वेज मॉडल में अनुमान लगाने की प्रोसेस को तेज़ करने की एक तकनीक है. टोकन को ऑटोरेग्रेसिव तरीके से जनरेट करने के लिए, सिर्फ़ बड़े टारगेट मॉडल पर निर्भर रहने के बजाय (एक बार में एक टोकन जनरेट करना, जहां हर नया टोकन पिछले टोकन पर निर्भर करता है), एक छोटा और तेज़ 'ड्राफ़्ट मॉडल' कई टोकन का अनुमान लगाता है. इसके बाद, टारगेट मॉडल इन ड्राफ़्ट किए गए टोकन की एक साथ पुष्टि करता है. अगर टारगेट मॉडल, ड्राफ़्ट किए गए किसी टोकन को अस्वीकार करता है, तो भी वह उस जगह के लिए सही टोकन जनरेट करता है. इससे यह पक्का होता है कि यह चरण बेकार नहीं गया. इसके बाद, ड्राफ़्ट मॉडल उस नए सही टोकन से अनुमान लगाना जारी रखता है.

Gemma 4 में, एमटीपी को लागू करने के लिए, बेस मॉडल को इस छोटे और तेज़ ड्राफ़्ट मॉडल के साथ जोड़ा जाता है. यह ड्राफ़्ट मॉडल, टारगेट मॉडल से अलग नहीं है, क्योंकि यह टारगेट मॉडल के साथ इनपुट एम्बेडिंग टेबल शेयर करता है. साथ ही, यह सीधे तौर पर टारगेट मॉडल की आखिरी लेयर के ऐक्टिवेशन पर काम करता है. इससे डिकोडिंग की स्पीड काफ़ी बढ़ जाती है. साथ ही, ऑटोरेग्रेसिव तरीके से टोकन जनरेट करने की स्टैंडर्ड क्वालिटी भी बनी रहती है. इसलिए, ये चेकपॉइंट, कम-लेटेंसी और डिवाइस पर चलने वाले ऐप्लिकेशन के लिए सबसे सही होते हैं.

स्पेक्लेटिव डिकोडिंग, कई टोकन ड्राफ़्ट करके और उन्हें एक ही फ़ॉरवर्ड पास में वेरिफ़ाई करके काम करती है. डेंस मॉडल के लिए, हर टोकन के लिए एक ही वेट का इस्तेमाल किया जाता है. इसलिए, ड्राफ़्ट किए गए कई टोकन को वेरिफ़ाई करने में बहुत कम ओवरहेड लगता है. एक्सपर्ट के मिक्सचर (एमओई) मॉडल, जैसे कि Gemma 4 26B A4B अलग तरीके से काम करते हैं. हर टोकन, अलग-अलग एक्सपर्ट को ऐक्टिवेट कर सकता है. इसलिए, ड्राफ़्ट किए गए टोकन को वेरिफ़ाई करने के लिए, मेमोरी से एक्सपर्ट के अतिरिक्त वेट लोड करने पड़ सकते हैं. इससे ड्राफ़्ट करने से मिलने वाले फ़ायदों में कमी आ सकती है. बैच साइज़ ज़्यादा होने पर, आम तौर पर सीक्वेंस में ऐक्टिवेट किए गए एक्सपर्ट में ज़्यादा ओवरलैप होता है. इससे लोड किए गए वेट का फिर से इस्तेमाल करने की संभावना बढ़ जाती है. बैच साइज़ 1 होने पर, यह ओवरलैप सीमित होता है. इसलिए, हो सकता है कि 26B A4B ड्राफ़्टर, पैरललिज़्म की सुविधा वाले हार्डवेयर प्लैटफ़ॉर्म पर स्पीडअप न दे.

एमटीपी में किए गए सुधार

Gemma 4 में, ड्राफ़्ट किए गए टोकन की क्वालिटी और एफिशिएंसी को बेहतर बनाने के लिए, स्पेक्लेटिव डिकोडिंग के स्टैंडर्ड पाइपलाइन में कई सुधार किए गए हैं:

  • शेयर किए गए इनपुट एम्बेडिंग: ड्राफ़्ट मॉडल, टारगेट मॉडल के साथ इनपुट एम्बेडिंग टेबल शेयर करता है.
  • टारगेट ऐक्टिवेशन: ड्राफ़्ट मॉडल, टारगेट मॉडल की आखिरी लेयर से ऐक्टिवेशन का इस्तेमाल करता है. साथ ही, उन्हें टोकन एम्बेडिंग के साथ जोड़ता है और उन्हें ड्राफ़्टर मॉडल के डाइमेंशन में डाउन-प्रोजेक्ट करता है.
  • एफ़िशिएंट एम्बेडर: पूरे शब्दावली में अनुमान लगाने की महंगी प्रोसेस से बचने के लिए, मॉडल, मिलते-जुलते टोकन को क्लस्टर में ग्रुप करता है. यह सबसे पहले, सबसे संभावित क्लस्टर की पहचान करता है. इसके बाद, अपनी फ़ाइनल कैलकुलेशन को सिर्फ़ उन चुने गए क्लस्टर में मौजूद टोकन तक सीमित रखता है. यह सुविधा सिर्फ़ E2B और E4B के लिए उपलब्ध है.