ডিফিউশনজেমা একটি পরীক্ষামূলক ওপেন মডেল যা টেক্সট ডিফিউশন নিয়ে কাজ করে, যা টেক্সট তৈরির একটি অত্যন্ত দ্রুত পদ্ধতি। ২৬ বাইট (৪ বাইট সক্রিয়) মিক্সচার-অফ-এক্সপার্টস (MoE) জেমা ৪ আর্কিটেকচারের উপর ভিত্তি করে, ডিফিউশনজেমা ডিসক্রিট ডিফিউশন ব্যবহার করে টোকেন তৈরি করে। এই ওপেন-ওয়েটস মডেলটি মাল্টিমোডাল, যা টেক্সট আউটপুট তৈরি করার জন্য টেক্সট, ইমেজ এবং ভিডিও ইনপুট গ্রহণ করতে পারে।
MoE ভিত্তির উপর নির্মিত, DiffusionGemma-কে বিভিন্ন হার্ডওয়্যার পরিবেশে স্থাপনযোগ্য থাকার পাশাপাশি জেনারেশন গতি (প্রতি সেকেন্ডে টোকেন) উন্নত করার জন্য ডিজাইন করা হয়েছে। DiffusionGemma, Gemma 4-এর স্থাপত্যগত এবং সক্ষমতাগত অগ্রগতির উপর ভিত্তি করে তৈরি হয়েছে এবং এতে বেশ কিছু মূল বৈশিষ্ট্য যুক্ত করা হয়েছে:
- ডিসক্রিট টেক্সট ডিফিউশন: প্রচলিত কজাল টোকেন জেনারেশন থেকে সরে এসে ব্লক-অটোরিগ্রেসিভ মাল্টি-ক্যানভাস স্যাম্পলিং পদ্ধতি ব্যবহার করে। এই মডেলটি সমান্তরালভাবে টোকেনের ব্লকগুলোকে (একটি "ক্যানভাস") পুনরাবৃত্তিমূলকভাবে ডিনয়েজ করার মাধ্যমে টেক্সট তৈরি করে, যা ডিকোডিং গতিকে নাটকীয়ভাবে বাড়িয়ে তোলে।
- মাল্টিমোডাল প্রসেসিং: এটি স্বাভাবিকভাবেই টেক্সট, ছবি (পরিবর্তনযোগ্য অ্যাস্পেক্ট রেশিও এবং রেজোলিউশন সমর্থন সহ) এবং ভিডিও ইনপুট গ্রহণ করে। (দ্রষ্টব্য: অডিও ইনপুট সমর্থিত নয়)।
- এনকোডার-ডিকোডার আর্কিটেকচার: প্রম্পট কনটেক্সট প্রসেস ও ক্যাশ করার জন্য একটি অটোরেগ্রেসিভ এনকোডার ব্যবহার করে, যার সাথে ডিনয়েজিং যুক্ত থাকে যা জেনারেশন ক্যানভাসের উপর দ্বি-মুখী অ্যাটেনশন প্রয়োগ করে।
- মিক্সচার-অফ-এক্সপার্টস (MoE) এফিসিয়েন্সি: এটি ২৬-বাইট (৪-বাইট সক্রিয়) MoE ভ্যারিয়েন্টের উপর ভিত্তি করে একটি স্পার্স MoE ডিজাইন ব্যবহার করে, যা ন্যূনতম ওভারহেডের সাথে গভীর রিজনিং ক্ষমতা প্রদান করে। কোয়ান্টাইজ করা হলে, এটি কনজিউমার জিপিইউ-এর ১৮ জিবি ভিআরএএম সীমার মধ্যে থাকে, যা লোকাল এক্সিকিউশনের জন্য আদর্শ।
- চিন্তন মোড: অন্তর্নির্মিত কনফিগারযোগ্য যুক্তি চ্যানেলগুলো মডেলটিকে চূড়ান্ত উত্তর দেওয়ার আগে ধাপে ধাপে চিন্তা করার সুযোগ দেয়।
ঐতিহ্যবাহী মডেলগুলির সাথে আপস
প্রচলিত ল্যাঙ্গুয়েজ মডেলগুলো বৃহৎ পরিসরের ক্লাউড ডেপ্লয়মেন্টের জন্য অত্যন্ত কার্যকর, কারণ এগুলো হাজার হাজার রিকোয়েস্ট একসাথে চালাতে পারে। কিন্তু কোনো একজন ব্যবহারকারীর জন্য স্থানীয়ভাবে এগুলো চালালে হার্ডওয়্যারের পূর্ণ ব্যবহার হয় না। ডিফিউশনজেমা এই সমস্যার সমাধান করে, কারণ এটি একবারে একটি টোকেন তৈরি না করে, সম্পূর্ণ ২৫৬-টোকেনের একটি ব্লক একযোগে তৈরি করে, যা স্থানীয় হার্ডওয়্যারের পারফরম্যান্সকে সর্বোচ্চ পর্যায়ে নিয়ে যায়।
তবে, এই পদ্ধতিটি কঠোরভাবে গ্রাহক-কেন্দ্রিক, স্বল্প-একযোগে স্থানীয় ব্যবহারের জন্য তৈরি; যেহেতু উচ্চ-QPS ক্লাউড ওয়ার্কলোডের অধীনে এর সমান্তরাল ডিকোডিং থেকে প্রাপ্ত সুবিধা হ্রাস পায়, তাই একটি একক অ্যাক্সিলারেটরে কম থেকে মাঝারি ব্যাচ আকারের ক্ষেত্রে থ্রুপুটের সুবিধা সবচেয়ে বেশি পাওয়া যায়।
সুপারিশকৃত পরিবেশন কনফিগারেশন
সর্বোত্তম ল্যাটেন্সি ও কোয়ালিটির জন্য, আমরা ডিফিউশন স্যাম্পলিং সেটিংস-এর ক্ষেত্রে নিম্নলিখিত ডিফল্ট প্যারামিটারগুলো ব্যবহার করে ডেপ্লয় করার পরামর্শ দিই:
| প্যারামিটার | সুপারিশকৃত মূল্য | ফাংশন | যুক্তি |
|---|---|---|---|
| ডিনয়েজিং ধাপের সর্বোচ্চ সংখ্যা | ৪৮ | প্রতি ক্যানভাসে ডিনয়েজিং ধাপ সংখ্যার সর্বোচ্চ সীমা। | ডিনয়েজিং ধাপ সংখ্যার উপর একটি নিরাপদ সীমা। অ্যাডাপটিভ স্টপিং সক্রিয় থাকলে ডিনয়েজিং কম ধাপে বন্ধ হবে, সাধারণত কাজের উপর নির্ভর করে ১২-১৬ ধাপে। |
| তাপমাত্রা সময়সূচী | রৈখিক ০.৮ -> ০.৪ | তাপমাত্রা স্কেলিং শিডিউল যা উচ্চ মাত্রা থেকে শুরু হয় এবং ডিনয়েজিং ধাপের সংখ্যা অনুযায়ী হ্রাস পায়। | উচ্চ তাপমাত্রা (0.8) প্রাথমিক অনুসন্ধানে উৎসাহিত করে; নিম্ন তাপমাত্রা (0.4) চূড়ান্ত টোকেনগুলিকে স্থির করে। |
| অভিযোজিত প্রাথমিক থামানো | এনট্রপি থ্রেশহোল্ড: ০.০০৫ | মৃত্যুদণ্ড আগেভাগে থামিয়ে দেয় যদি ক) ক্যানভাস জুড়ে গড় মডেল এনট্রপি থ্রেশহোল্ডের নিচে, এবং খ) যদি পরপর দুটি ডিনোইজার প্রেডিকশন অভিন্ন থাকে। | সরল প্রম্পট এবং কোডের মতো কাঠামোগত কাজগুলোর জন্য কম ডিনয়েজিং ধাপের প্রয়োজন হয়, যা কাজের জটিলতার উপর ভিত্তি করে প্রতি সেকেন্ডে টোকেনের গতিকে গতিশীল করতে সক্ষম করে। |
| টোকেন নির্বাচন | এনট্রপি সীমা: ০.১ | প্রতিটি ধাপে, স্যাম্পলারটি সর্বনিম্ন এনট্রপির টোকেনগুলো এমনভাবে নির্বাচন করে, যাতে তাদের পারস্পরিক তথ্যের সীমা (mutual information bound) এনট্রপি সীমার নিচে থাকে। স্যাম্পলারটি নির্বাচিত নয় এমন টোকেনগুলোকে সম্পূর্ণরূপে রিনয়েজ (renoise) করে। | এটি নিশ্চিত করে যে ক্যানভাস পরিমার্জনের জন্য শুধুমাত্র সেই টোকেনগুলোই নির্বাচিত হবে, যেগুলো সম্পর্কে মডেলটি তুলনামূলকভাবে নিশ্চিত; এবং অন্যান্য টোকেনগুলোকে পরবর্তী ডিনয়েজিং ধাপে পরিমার্জনের জন্য রেখে দেওয়া হয়। |
হাগিং ফেস-এ এটি পান, ক্যাগল-এ এটি পান, ভার্টেক্স-এ এটি অ্যাক্সেস করুন।
অ্যাপাচি ২.০ লাইসেন্সের অধীনে প্রকাশিত পরীক্ষামূলক মডেলের ওয়েটগুলো অ্যাক্সেস করুন, যা আপনাকে এটি আপনার নিজস্ব প্রজেক্ট এবং অ্যাপ্লিকেশনে স্থাপন করার সুযোগ দেবে।
DiffusionGemma আর্কিটেকচার সম্পর্কে আরও জানুন DiffusionGemma ব্যবহার করে দেখুন
ডিফিউশনজেমা সূক্ষ্মভাবে সমন্বয় করুন ডিফিউশনজেমা স্থাপন করুন