টেক্সট, অডিও ও ইমেজ ইনপুট এবং ২৫৬কেবি পর্যন্ত দীর্ঘ কনটেক্সট উইন্ডো সহ জেমা ৪ প্রকাশিত হয়েছে! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

টেক্সট জেনারেশনে প্রসারণের ব্যাখ্যা

DiffusionGemma বোঝার জন্য, প্রচলিত ভাষা মডেলগুলোর মূল সীমাবদ্ধতাগুলো এবং পাঠ্য-ভিত্তিক প্রসারণ কীভাবে ভিন্ন, তা খতিয়ে দেখা সহায়ক হয়।

অটোরিগ্রেসিভ মডেলের সমস্যা

স্ব-প্রত্যাবর্তনশীল বনাম প্রসারণ

অনেক বৃহৎ ভাষা মডেল (এলএলএম) অটোরেগ্রেসিভ হয়, যার অর্থ হলো এগুলো একবারে একটি করে টোকেন তৈরি করে। যদিও এই পদ্ধতিটি ব্যাচিংয়ের মাধ্যমে একযোগে অনেক ব্যবহারকারীকে পরিষেবা দেওয়ার জন্য ভালোভাবে কাজ করে, তবে এটি একক ব্যবহারকারীদের জন্য একটি লেটেন্সি প্রতিবন্ধকতা তৈরি করে।

ডিকোডিং পর্যায়ে, স্ট্যান্ডার্ড ট্রান্সফরমার মডেলগুলো কম্পিউট-বাউন্ড না হয়ে মেমোরি-বাউন্ড হয়। প্রকৃত গাণিতিক গণনা করার পরিবর্তে, জেনারেশনের বেশিরভাগ সময় হার্ডওয়্যার মেমোরি থেকে প্রসেসিং ইউনিটে মডেলের ওয়েট লোড করতে ব্যয় হয়। যেহেতু ব্যাচ সাইজ নির্বিশেষে প্রতি ধাপে ওয়েটগুলো কেবল একবারই লোড করতে হয়, তাই একজন ব্যবহারকারীর জন্য একটি টোকেন তৈরি করতে যে সময় লাগে, একসাথে ২৫৬ জন ব্যবহারকারীর জন্যও প্রায় একই সময় লাগে।

ফলস্বরূপ, একজন ব্যবহারকারী কোনো লেটেন্সি সুবিধা পান না; মেমরি স্থানান্তরের জন্য অপেক্ষা করার সময় হার্ডওয়্যারের গণনা ক্ষমতা নিষ্ক্রিয় থাকে।

ডিফিউশনজেমা ওভারভিউ

ডিফিউশনজেমা এই অব্যবহৃত কম্পিউটিং সময়কে প্রত্যেক ব্যবহারকারীর জন্য কাজে লাগায়। ২৫৬ জন পৃথক ব্যবহারকারীর জন্য ১টি টোকেন তৈরি করার পরিবর্তে, এটি একজন ব্যবহারকারীর জন্য একবারে ২৫৬টি টোকেন তৈরি করে।

মডেলটি ২৫৬টি র‍্যান্ডম টোকেনের একটি ফাঁকা অনুক্রম—যাকে ক্যানভাস বলা হয়—শুরু করে এবং একই সাথে সম্পূর্ণ ক্যানভাসটিকে পুনরাবৃত্তিমূলকভাবে মূল্যায়ন ও পরিমার্জন করে। এটি মডেলটিকে মেমরি-বাউন্ড থেকে কম্পিউট-বাউন্ডে রূপান্তরিত করে, যার ফলে কম্পিউটেশনাল শক্তি বাড়ার সাথে সাথে এটি দক্ষতার সাথে প্রসেসিং গতি বাড়াতে পারে।

দিক	টেক্সট অটোরিগ্রেশন	পাঠ্য বিস্তার
টোকেন তৈরি	একবারে একটি টোকেন	একই সাথে টোকেনের একটি সম্পূর্ণ ক্যানভাস
পদক্ষেপ	প্রতিটি টোকেনের জন্য এক ধাপ	একাধিক টোকেনের জন্য এক ধাপ
প্রজন্মের ক্রম	বাম থেকে ডানে	সমান্তরালভাবে সমস্ত অবস্থান
শুরুর বিন্দু	খালি ক্রম	শব্দভান্ডার থেকে এলোমেলোভাবে নির্বাচিত টোকেন
ত্রুটি সংশোধন	স্থির; পূর্ববর্তী টোকেনগুলি সংশোধন করা যাবে না।	গতিশীল; ক্যানভাসের যেকোনো অবস্থান পরিবর্তন করা যায়।
হার্ডওয়্যার প্রতিবন্ধকতা	স্মৃতি-আবদ্ধ	গণনা-আবদ্ধ
থ্রুপুট ফোকাস	উচ্চ মাল্টি-ইউজার থ্রুপুট	একক ব্যবহারকারীর জন্য অতি-নিম্ন লেটেন্সি

পাঠ্য বিস্তারের কৌশল বোঝা

ইমেজ জেনারেশনের ক্ষেত্রে, ডিফিউশন মডেলগুলো ১০০% র‍্যান্ডম গাউসিয়ান নয়েজ দিয়ে শুরু করে এবং একটি টেক্সট প্রম্পটের নির্দেশনায় একাধিক ধাপের মাধ্যমে ক্রমান্বয়ে তা অপসারণ করে (ডিনয়েজিং)। এই লজিককে টেক্সটে রূপান্তর করা আরও বেশি চ্যালেঞ্জিং, কারণ টেক্সট টোকেনগুলো অবিচ্ছিন্ন পিক্সেল মানের মতো নয়, বরং বিচ্ছিন্ন সত্তা।

ডিফিউশনজেমা ধারাবাহিক বিশেষায়িত কার্যপদ্ধতির মাধ্যমে পাঠ্য-ভিত্তিক প্রচার সাধন করে:

১. মাস্কড ডিফিউশন

মাস্কড ডিফিউশন

প্রাথমিক টেক্সট ডিফিউশন, BERT প্রশিক্ষণের মতোই, মাস্কিং-এর উপর নির্ভর করত। একটি অনুক্রমের মধ্যে থাকা র‍্যান্ডম টোকেনগুলোকে একটি [MASK] টোকেন (যা নয়েজ বা কোলাহল বোঝায়) দিয়ে প্রতিস্থাপন করা হয়। রিভার্স ডিফিউশনের সময়, মডেলটি মাস্কের আড়ালে থাকা সঠিক টোকেনটি অনুমান করে এবং যেখানে কনফিডেন্স একটি নির্দিষ্ট থ্রেশহোল্ডে পৌঁছায়, সেখানে টোকেনগুলো প্রতিস্থাপন করে।

তবে, মাস্কড ডিফিউশনের একটি অনমনীয়তা রয়েছে: একবার একটি [MASK] টোকেনকে কোনো শব্দ দিয়ে প্রতিস্থাপন করা হলে, তা অপরিবর্তনীয় হয়ে যায়। পারিপার্শ্বিক প্রেক্ষাপট পরিবর্তিত হলেও পরবর্তী ধাপগুলোতে এটি সংশোধন করা যায় না।

২. সুষম অবস্থা ব্যাপন

ইউনিফর্ম স্টেট ডিফিউশন

মাস্কিং-এর সীমাবদ্ধতা দূর করতে, ডিফিউশনজেমা ইউনিফর্ম স্টেট ডিফিউশন ব্যবহার করে। একটি সুস্পষ্ট [MASK] টোকেনের পরিবর্তে, মূল শব্দগুলোকে শব্দভান্ডার থেকে সম্পূর্ণ এলোমেলো টোকেন দিয়ে প্রতিস্থাপন করে নয়েজ যোগ করা হয়।

ডিনয়েজিং প্রক্রিয়ার সময়, মডেলটি সম্পূর্ণ ক্যানভাস বিশ্লেষণ করে নির্ধারণ করে যে কোন টোকেনগুলো প্রাসঙ্গিক নয়েজ এবং সেগুলোকে আপডেট করে। যদি কোনো টোকেন সঠিক হয়, তবে এটি একটি উচ্চ সম্ভাবনা বজায় রাখে। পরবর্তী ধাপগুলোতে নতুন প্রাসঙ্গিকতার কারণে যদি কোনো টোকেনের সম্ভাবনা একটি নির্দিষ্ট সীমার নিচে নেমে যায়, তবে সেটিকে একটি নতুন র‍্যান্ডম টোকেন দিয়ে পুনরায় নয়েজ করা হয়। এই চক্রটি ক্রমাগত ত্রুটি সংশোধন এবং সমান্তরালভাবে ক্যানভাস পরিমার্জনের সুযোগ করে দেয়।

স্থাপত্য: ক্রমবর্ধমান প্রিফিল এবং ডিনয়েজিং

ব্লক অটোরেগ্রেসিভ ডিনোইজিং

DiffusionGemma, Incremental Prefill এবং Denoising-এর মধ্যে পর্যায়ক্রমে পরিবর্তনের মাধ্যমে Uniform State Diffusion দক্ষতার সাথে প্রয়োগ করে। Gemma 4 26B A4B মডেলটি স্বাভাবিকভাবে ব্যবহৃত হয় না, বরং denoising এবং encoding-এর মতো ভিন্ন ভিন্ন কাজকে সমর্থন করার জন্য এটিকে সূক্ষ্মভাবে টিউন করা হয়েছে। আলাদা মডেল ব্যবহার করার পরিবর্তে, একটিমাত্র ব্যাকবোন গতিশীলভাবে দুটি মোডের মধ্যে পরিবর্তন করে:

প্রিফিল / ইনক্রিমেন্টাল প্রিফিল (কজাল): প্রম্পট কনটেক্সট গ্রহণ করতে এবং কেভি ক্যাশে লিখতে কজাল অ্যাটেনশন ব্যবহার করে। এটি প্রাথমিক কনটেক্সট প্রিফিল করার জন্য একবার চলে এবং তারপর পরবর্তী ক্যানভাসের ডিনয়েজিং-এর কাজ শুরু করার আগে প্রতিটি চূড়ান্ত ২৫৬-টোকেন ক্যানভাসকে কেভি ক্যাশে যুক্ত করার জন্য প্রতি ব্লকে একবার চলে।
ডিনয়েজিং (দ্বিমুখী): ক্যানভাস থেকে পুনরাবৃত্তিমূলকভাবে নয়েজ দূর করতে দ্বিমুখী অ্যাটেনশন ব্যবহার করে। ক্যানভাসের যেকোনো অবস্থানে থাকা কোয়েরি টোকেনগুলো ক্যানভাসের অন্য সব টোকেনকে (এবং কেভি ক্যাশকেও) অ্যাটেন্ড করতে পারে, যা মডেলকে দ্বিমুখীভাবে কনটেক্সট প্রসেস করতে দেয়।

উন্নত অনুমান কাঠামো

একটি ক্যানভাসকে নিছক কোলাহল থেকে চূড়ান্ত পাঠ্যে রূপান্তর করতে, ডিফিউশনজেমা একগুচ্ছ অন্তর্নিহিত ডিকোডিং সিস্টেম ব্যবহার করে:

স্ব-কন্ডিশনিং

ইনফারেন্স চলাকালীন, ডিকোডার (যা ডিনোইজার নামেও পরিচিত) তার পূর্ববর্তী অবস্থা ধরে রাখে। ডিনোইজিং ধাপটি সম্পন্ন করার পর, এটি তার দ্বারা উৎপন্ন প্রোবাবিলিটি ডিস্ট্রিবিউশন ম্যাট্রিক্সকে টোকেন এমবেডিং টেবিলের সাথে গুণ করে। এর ফলে একটি স্থানীয় ভেক্টর রিপ্রেজেন্টেশন তৈরি হয়, যা তার পূর্ববর্তী প্রেডিকশন এবং কনফিডেন্স মেট্রিক্সের স্মৃতি বহন করে এবং যা সরাসরি পরবর্তী ধাপে পাঠানো হয়।

মাল্টি-ক্যানভাস স্যাম্পলিং (ব্লক ডিফিউশন)

যেহেতু একটি ক্যানভাস ২৫৬টি টোকেনে সীমাবদ্ধ, তাই দীর্ঘ টেক্সটের জন্য ডিফিউশনজেমা ডিফিউশন এবং অটোরিগ্রেশনকে একসাথে শৃঙ্খলিত করে। এটি একটি সম্পূর্ণ ২৫৬-টোকেনের ব্লক তৈরি করার জন্য ডিফিউশন চক্র চালায়, সেই সম্পূর্ণ ব্লকটিকে প্রম্পট কনটেক্সটে যুক্ত করে, এনকোডারের কেভি ক্যাশে আপডেট করে এবং একটি একেবারে নতুন ২৫৬-টোকেনের ক্যানভাস ডিফিউশন চক্র শুরু করে।

সারসংক্ষেপ

প্রচলিত অটোরেগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলো ক্রমানুসারে (একবারে একটি টোকেন) টেক্সট তৈরি করে, যা সেগুলোকে মেমোরি-বাউন্ড করে তোলে এবং ব্যবহারকারীদের জন্য একটি ল্যাটেন্সি বাধা তৈরি করে। ডিফিউশনজেমা একটি কম্পিউট-বাউন্ড মডেলে স্থানান্তরিত হয়ে এই সমস্যার সমাধান করে, যা একই সাথে একটি সম্পূর্ণ ২৫৬-টোকেনের 'ক্যানভাস' তৈরি করে।

ইউনিফর্ম স্টেট ডিফিউশন ব্যবহার করে, মডেলটি টেক্সটকে র‍্যান্ডম ভোকাবুলারি নয়েজ দিয়ে প্রতিস্থাপন করে এবং সমান্তরালভাবে সম্পূর্ণ ক্যানভাসটিকে পুনরাবৃত্তিমূলকভাবে পরিমার্জন করে। এটি ডিনয়েজিং এবং এনকোডিং-এর বিভিন্ন কাজ সমর্থন করার জন্য একটি ফাইন-টিউনড জেমা ৪ ২৬বি এ৪বি ব্যবহার করে। সেলফ-কন্ডিশনিং, মাল্টি-ক্যানভাস ব্লক স্যাম্পলিং-এর মতো উন্নত ফ্রেমওয়ার্কগুলো মডেলটিকে গতিশীলভাবে ত্রুটি সংশোধন করতে, দীর্ঘ ফর্ম তৈরি করতে এবং একক ব্যবহারকারীর জন্য অত্যন্ত কম ল্যাটেন্সি অর্জন করতে সক্ষম করে।