জেমা ৪-এ, মাল্টি-টোকেন প্রেডিকশন (MTP) হলো একটি নির্দিষ্ট আর্কিটেকচার যা অত্যন্ত কার্যকর স্পেকুলেটিভ ডিকোডিং সক্ষম করতে ব্যবহৃত হয়। স্পেকুলেটিভ ডিকোডিং হলো বড় ল্যাঙ্গুয়েজ মডেলে ইনফারেন্সের গতি বাড়ানোর একটি কৌশল। অটোরেগ্রেসিভভাবে টোকেন তৈরি করার জন্য (যেখানে প্রতিটি নতুন টোকেন পূর্ববর্তী টোকেনগুলোর উপর নির্ভরশীল থাকে) শুধুমাত্র বড় টার্গেট মডেলের উপর নির্ভর করার পরিবর্তে, একটি ছোট ও দ্রুততর 'ড্রাফট মডেল' বেশ কয়েকটি টোকেন আগে থেকে প্রেডিক্ট করে। এরপর টার্গেট মডেল সমান্তরালভাবে এই ড্রাফট করা টোকেনগুলো যাচাই করে। যদি টার্গেট মডেল কোনো ড্রাফট করা টোকেন প্রত্যাখ্যান করে, তবুও এটি সেই অবস্থানের জন্য সঠিক টোকেনটি তৈরি করে (যাতে এই ধাপটি নষ্ট না হয়), এবং ড্রাফট মডেল সেই নতুন সঠিক টোকেন থেকে প্রেডিকশন পুনরায় শুরু করে।
জেমা ৪ এই ছোট ও দ্রুততর ড্রাফট মডেল দিয়ে বেস মডেলকে প্রসারিত করে এমটিপি (MTP) প্রয়োগ করে। এই ড্রাফট মডেলটি স্বাধীন নয়, কারণ এটি টার্গেট মডেলের সাথে ইনপুট এমবেডিং টেবিল শেয়ার করে এবং সরাসরি এর শেষ-স্তরের অ্যাক্টিভেশনের উপর ভিত্তি করে তৈরি হয়। এর ফলে ডিকোডিং-এর গতি উল্লেখযোগ্যভাবে বৃদ্ধি পায় এবং একই সাথে স্ট্যান্ডার্ড অটোরিগ্রেসিভ জেনারেশনের মতোই হুবহু একই গুণমান নিশ্চিত হয়, যা এই চেকপয়েন্টগুলোকে লো-ল্যাটেন্সি এবং অন-ডিভাইস অ্যাপ্লিকেশনের জন্য আদর্শ করে তোলে।
স্পেকুলেটিভ ডিকোডিং একাধিক টোকেন ড্রাফট করে এবং একটিমাত্র ফরোয়ার্ড পাসে সেগুলোকে যাচাই করার মাধ্যমে কাজ করে। ডেন্স মডেলের ক্ষেত্রে, প্রতিটি টোকেনের জন্য একই ওয়েট ব্যবহৃত হয়, তাই একাধিক ড্রাফট করা টোকেন যাচাই করলে খুব সামান্য ওভারহেড যোগ হয়। জেমা ৪ ২৬বি এ৪বি-এর মতো মিক্সচার অফ এক্সপার্টস (MoE) মডেলগুলো ভিন্নভাবে কাজ করে। প্রতিটি টোকেন ভিন্ন ভিন্ন এক্সপার্ট সক্রিয় করতে পারে, তাই ড্রাফট করা টোকেন যাচাই করার জন্য মেমরি থেকে অতিরিক্ত এক্সপার্ট ওয়েট লোড করার প্রয়োজন হতে পারে, যা ড্রাফটিং থেকে প্রাপ্ত সুবিধাগুলোকে কমিয়ে দেয়। উচ্চতর ব্যাচ সাইজে, সাধারণত সিকোয়েন্স জুড়ে সক্রিয় এক্সপার্টদের মধ্যে বেশি ওভারল্যাপ থাকে, যা লোড করা ওয়েটের পুনঃব্যবহার উন্নত করে। ব্যাচ সাইজ ১-এ এই ওভারল্যাপ সীমিত, যে কারণে ভালো প্যারালেলিজম ছাড়া হার্ডওয়্যার প্ল্যাটফর্মে ২৬বি এ৪বি ড্রাফটার গতি বৃদ্ধি নাও দিতে পারে।
এমটিপি বর্ধন
জেমা ৪, ড্রাফট করা টোকেনের গুণমান এবং কার্যকারিতা উন্নত করার জন্য স্ট্যান্ডার্ড স্পেকুলেটিভ ডিকোডিং পাইপলাইনে বেশ কিছু বর্ধিতকরণ নিয়ে এসেছে:
- শেয়ার্ড ইনপুট এমবেডিং : ড্রাফট মডেলটি টার্গেট মডেলের সাথে ইনপুট এমবেডিং টেবিলটি শেয়ার করে।
- টার্গেট অ্যাক্টিভেশন : ড্রাফট মডেলটি টার্গেট মডেলের শেষ লেয়ারের অ্যাক্টিভেশনগুলো ব্যবহার করে, সেগুলোকে টোকেন এমবেডিংগুলোর সাথে সংযুক্ত করে এবং ড্রাফটার মডেলের ডাইমেনশনে ডাউন-প্রজেক্ট করে।
- দক্ষ এমবেডার : সম্পূর্ণ শব্দভান্ডার জুড়ে ভবিষ্যদ্বাণী করার ব্যয়বহুল প্রক্রিয়া এড়াতে, মডেলটি একই রকম টোকেনগুলিকে ক্লাস্টারে বিভক্ত করে। এটি প্রথমে সবচেয়ে সম্ভাব্য ক্লাস্টারগুলি শনাক্ত করে এবং তারপরে তার চূড়ান্ত গণনাকে শুধুমাত্র সেই নির্বাচিত ক্লাস্টারগুলির মধ্যে থাকা টোকেনগুলিতে সীমাবদ্ধ রাখে (শুধুমাত্র E2B এবং E4B এর জন্য)।