ডিফিউশনজেমা মডেল কার্ড

আলিঙ্গনরত মুখ | গিটহাব | লঞ্চ ব্লগ | ডকুমেন্টেশন
লাইসেন্স : অ্যাপাচি ২.০ | লেখক : গুগল ডিপমাইন্ড

ডিফিউশনজেমা হলো গুগল ডিপমাইন্ড দ্বারা নির্মিত একটি জেনারেটিভ মডেল। ২৬বি এ৪বি মিক্সচার-অফ-এক্সপার্টস (এমওই) জেমা ৪ আর্কিটেকচারের উপর ভিত্তি করে, ডিফিউশনজেমা ডিসক্রিট ডিফিউশন ব্যবহার করে টোকেন তৈরি করে। এই ওপেন-ওয়েটস মডেলটি মাল্টিমোডাল, যা টেক্সট আউটপুট তৈরি করার জন্য টেক্সট, ছবি এবং ভিডিও ইনপুট গ্রহণ করতে পারে।

MoE ভিত্তির উপর নির্মিত, DiffusionGemma-কে বিভিন্ন হার্ডওয়্যার পরিবেশে স্থাপনযোগ্য থাকার পাশাপাশি জেনারেশন গতি (প্রতি সেকেন্ডে টোকেন) উন্নত করার জন্য ডিজাইন করা হয়েছে। DiffusionGemma, Gemma 4-এর স্থাপত্যগত এবং সক্ষমতাগত অগ্রগতির উপর ভিত্তি করে তৈরি হয়েছে এবং এতে বেশ কিছু মূল বৈশিষ্ট্য যুক্ত করা হয়েছে:

  • ডিসক্রিট টেক্সট ডিফিউশন – টোকেন-বাই-টোকেন অটোরিগ্রেশন থেকে ব্লক-অটোরিগ্রেসিভ মাল্টি-ক্যানভাস স্যাম্পলিং-এ স্থানান্তরিত হয়। এটি সমান্তরালভাবে টোকেনের ব্লকগুলোকে (একটি 'ক্যানভাস') পুনরাবৃত্তিমূলকভাবে ডিনয়েজ করার মাধ্যমে টেক্সট তৈরি করে, যা ডিকোডিং গতি উল্লেখযোগ্যভাবে বৃদ্ধি করে।
  • মাল্টিমোডাল ইনপুট প্রসেসিং – পর্যায়ক্রমে সাজানো টেক্সট, ছবি (পরিবর্তনশীল অ্যাসপেক্ট রেশিও এবং রেজোলিউশন সমর্থন সহ), এবং ভিডিও ইনপুট প্রক্রিয়াজাত করে টেক্সট আউটপুট তৈরি করে।
  • এনকোডার-ডিকোডার আর্কিটেকচার – এটি প্রম্পট কনটেক্সট প্রসেস ও ক্যাশ করার জন্য একটি অটোরেগ্রেসিভ এনকোডার ব্যবহার করে, যার সাথে একটি ডিকোডার যুক্ত থাকে যা জেনারেশন ক্যানভাসের উপর দ্বিমুখী অ্যাটেনশন প্রয়োগ করে।
  • বিশেষজ্ঞদের মিশ্রণ (MoE) দক্ষতা – এটি একটি স্পার্স MoE ডিজাইন (মোট ১২৮ জন বিশেষজ্ঞের মধ্যে ৮ জন সক্রিয় বিশেষজ্ঞ) ব্যবহার করে শক্তিশালী যুক্তি প্রদানের সক্ষমতা তৈরি করে এবং একই সাথে লোকাল এক্সিকিউশনের জন্য উপযুক্ত স্বল্প মেমরি ফুটপ্রিন্ট বজায় রাখে।
  • চিন্তন মোড (যুক্তি) – এটিকে একটি অত্যন্ত সক্ষম যুক্তিবাদী হিসেবে ডিজাইন করা হয়েছে, যার চিন্তন মোডগুলো কনফিগার করা যায়।
  • স্বল্প ব্যাচ আকারের ইনফারেন্সের জন্য অপ্টিমাইজ করা – একটিমাত্র সক্ষম অ্যাক্সিলারেটরে কম-ল্যাটেন্সি ও উচ্চ-গতির জেনারেশনের জন্য বিশেষভাবে ডিজাইন করা।
  • নেটিভ সিস্টেম প্রম্পট সাপোর্ট – জেমা ৪-এর মতোই, এটি system রোল আপডেট করা সমর্থন করে, যার ফলে আরও সুসংগঠিত এবং নিয়ন্ত্রণযোগ্য কথোপকথন সম্ভব হয়।

মডেলের সংক্ষিপ্ত বিবরণ

প্রচলিত কার্যকারণমূলক ভাষা মডেলগুলোর অনুক্রমিক প্রতিবন্ধকতাগুলো হ্রাস করার জন্য ডিফিউশনজেমা তৈরি করা হয়েছে। এটি ইনফারেন্সের গতির জন্য বিশেষভাবে অপ্টিমাইজ করা একটি এনকোডার-ডিকোডার আর্কিটেকচার ব্যবহার করে।

এনকোডারটি প্রিফিল ক্ষমতায় কাজ করে, প্রাথমিক প্রম্পটটি প্রসেস করে এবং কেভি ক্যাশে তৈরি করে। এরপর ডিকোডারটি বাইডাইরেকশনাল অ্যাটেনশন ব্যবহার করে টোকেনের একটি ইনপুট ব্লক (একটি 'ক্যানভাস') প্রসেস করে এবং ক্রস-অ্যাটেনশনের মাধ্যমে ক্যাশ করা কনটেক্সট অ্যাক্সেস করে।

ইনফারেন্সের সময়, ডিফিউশনজেমা মাল্টি-ক্যানভাস স্যাম্পলিং ব্যবহার করে। একবারে একটি টোকেন তৈরি করার পরিবর্তে, মডেলটি একটি ডিফিউশন স্যাম্পলার ব্যবহার করে পুনরাবৃত্তিমূলকভাবে টোকেনের একটি সম্পূর্ণ ব্লক থেকে নয়েজ দূর করে। একটি ক্যানভাস সম্পূর্ণরূপে নয়েজমুক্ত হয়ে গেলে, এটি এনকোডার দ্বারা প্রক্রিয়াজাত করা হয় এবং কেভি ক্যাশে যুক্ত করা হয়, যার পরে মডেলটি পরবর্তী ক্যানভাস তৈরি করে। এই ব্লক-অটোরেগ্রেসিভ পদ্ধতিটি আরও দ্রুত গতিতে টেক্সট তৈরি করতে সহায়তা করে।

ডিফিউশনজেমা

| মোট প্যারামিটার | ২৫.২ বাইট | | সক্রিয় প্যারামিটার | ৩.৮ বাইট | | লেয়ার | ৩০ | | স্লাইডিং উইন্ডো | ১০২৪ টোকেন | | কনটেক্সট দৈর্ঘ্য | ২৫৬ হাজার টোকেন পর্যন্ত | | ক্যানভাস দৈর্ঘ্য | ২৫৬ | | শব্দভান্ডার আকার | ২৬২ হাজার | | বিশেষজ্ঞ সংখ্যা | ৮ জন সক্রিয় / মোট ১২৮ জন এবং ১ জন শেয়ারকৃত | | সমর্থিত মোডালিটি | টেক্সট, ইমেজ | | ভিশন এনকোডার প্যারামিটার | ~৫৫০ মেগাবাইট |

বেঞ্চমার্ক ফলাফল

টেক্সট জেনারেশনের বিভিন্ন দিক তুলে ধরার জন্য এই মডেলগুলোকে বিপুল সংখ্যক বিভিন্ন ডেটাসেট ও মেট্রিক্সের ভিত্তিতে মূল্যায়ন করা হয়েছিল। সারণিতে চিহ্নিত মূল্যায়নের ফলাফলগুলো হলো নির্দেশনা-সমন্বিত মডেলের জন্য, যেখানে প্রস্তাবিত এন্ট্রপি বাউন্ড (EB) স্যাম্পলার ব্যবহার করা হয়েছে (নিচে সেরা অনুশীলনসমূহ দেখুন)।

বেঞ্চমার্ক ডিফিউশনজেমা ২৬বি এ৪বি জেমা ৪ ২৬বি এ৪বি
এমএমএলইউ প্রো ৭৭.৬% ৮২.৬%
AIME 2026 কোন সরঞ্জাম নেই ৬৯.১% ৮৮.৩%
লাইভকোডবেঞ্চ ভি৬ ৬৯.১% ৭৭.১%
কোডফোর্সেস ইএলও ১৪২৯ ১৭১৮
জিপিকিউএ ডায়মন্ড ৭৩.২% ৮২.৩%
টাউ২ (৩ এর গড়) ৫৬.২% ৬৮.২%
HLE কোন সরঞ্জাম নেই ১১.০% ৮.৭%
HLE অনুসন্ধানের সাথে ১১.৯% ১৭.২%
বিগবেঞ্চ এক্সট্রা হার্ড ৪৭.৬% ৬৪.৮%
এমএমএমএলইউ ৮১.৫% ৮৬.৩%
দৃষ্টি
এমএমএমইউ প্রো ৫৪.৩% ৭৩.৮%
OmniDocBench 1.5 (গড় সম্পাদনা দূরত্ব, কম হলে ভালো) ০.৩১৯ ০.১৪৯
গণিত-দৃষ্টি ৭০.৫% ৮২.৪%
মেডএক্সপার্টকিউএ এমএম ৪৯.০% ৫৮.১%
দীর্ঘ প্রেক্ষাপট
এমআরসিআর ভি২ ৮ নিডল ১২৮কে (গড়) ৩২.০% ৪৪.১%

মূল সক্ষমতা

ডিফিউশনজেমা টেক্সট এবং ভিশন উভয় ক্ষেত্রেই বিস্তৃত পরিসরের কাজ পরিচালনা করে। এর প্রধান সক্ষমতাগুলোর মধ্যে রয়েছে:

  • উচ্চ-গতির জেনারেশন - ডিফিউশন স্যাম্পলিংয়ের মাধ্যমে ২৫৬টি টোকেনের প্যারালাল ডিনয়েজিং প্রতি ফরোয়ার্ড পাসে ১৫-২০টি টোকেন তৈরি করে কম ল্যাটেন্সি অর্জন করে, যা কম ব্যাচ সাইজ সেটিংসে (H100, FP8) ব্যবহারকারী প্রতি সেকেন্ডে ১১০০-এর বেশি টোকেন জেনারেশনের গতি সক্ষম করে।
  • অভিযোজিত ইনফারেন্স টাইম গণনা - সরল প্রম্পট এবং কোডের মতো কাঠামোগত কাজগুলির জন্য কম ডিনয়েজিং ধাপের প্রয়োজন হয়, যা কাজের জটিলতার উপর ভিত্তি করে প্রতি সেকেন্ডে টোকেনের গতিশীল গতি সক্ষম করে।
  • চিন্তা – অন্তর্নির্মিত যুক্তি পদ্ধতি যা মডেলটিকে উত্তর দেওয়ার আগে ধাপে ধাপে চিন্তা করতে দেয়।
  • দীর্ঘ প্রসঙ্গ – সর্বোচ্চ ২৫৬কে টোকেনের প্রসঙ্গ উইন্ডো।
  • ইমেজ আন্ডারস্ট্যান্ডিং – অবজেক্ট ডিটেকশন, ডকুমেন্ট/পিডিএফ পার্সিং, স্ক্রিন ও ইউআই আন্ডারস্ট্যান্ডিং, চার্ট কম্প্রিহেনশন, ওসিআর (বহুভাষিক সহ), হস্তাক্ষর শনাক্তকরণ, এবং পয়েন্টিং। ইমেজ বিভিন্ন অ্যাস্পেক্ট রেশিও এবং রেজোলিউশনে প্রসেস করা যায়।
  • ভিডিও অনুধাবন – ফ্রেমের অনুক্রম প্রক্রিয়াকরণের মাধ্যমে ভিডিওর বিষয়বস্তু বিশ্লেষণ ও বর্ণনা করে।
  • আন্তঃসংযুক্ত বহুমাধ্যমীয় ইনপুট – প্রসঙ্গ-নির্ভর যুক্তির জন্য একটিমাত্র প্রম্পটের মধ্যে ছবি, ভিডিও এবং টেক্সট মিশ্রিত করুন।
  • ফাংশন কলিং – কাঠামোগত টুল ব্যবহারের জন্য নেটিভ সাপোর্ট, যা এজেন্টিক ওয়ার্কফ্লো সক্ষম করে।
  • কোডিং ও যুক্তিপ্রক্রিয়া – কোড তৈরি, সম্পূর্ণকরণ এবং ধাপে ধাপে যৌক্তিক যুক্তি প্রদর্শনে সক্ষম।
  • বহুভাষিক – ৩৫টিরও বেশি ভাষার জন্য বিল্ট-ইন সাপোর্ট, ১৪০টিরও বেশি ভাষায় প্রি-ট্রেইনড।

সর্বোত্তম অনুশীলন

সর্বোত্তম পারফরম্যান্সের জন্য, এই কনফিগারেশন এবং সেরা অনুশীলনগুলি ব্যবহার করুন:

১. ডিফিউশন স্যাম্পলিং সেটিংস

সকল ব্যবহারের ক্ষেত্রে নিম্নলিখিত প্রমিত নমুনা বিন্যাসটি ব্যবহার করুন:

  • পদ্ধতি: এন্ট্রপি-সীমাবদ্ধ ডিনয়েজিং এবং অভিযোজিত স্টপিং সহ ডিফিউশন স্যাম্পলিং।
  • নমুনা বিন্যাস:
    • ডিনয়েজিং ধাপের সর্বোচ্চ সংখ্যা = ৪৮
    • তাপমাত্রার সময়সূচী (লজিট শেপিং-এর জন্য): ০.৮ থেকে ০.৪ পর্যন্ত রৈখিক হ্রাস
    • টোকেন নির্বাচন: প্রতিটি ধাপে, স্যাম্পলার সর্বনিম্ন এনট্রপির টোকেনগুলো এমনভাবে নির্বাচন করে, যাতে তাদের পারস্পরিক তথ্যের সীমা এনট্রপি সীমা = ০.১-এর নিচে থাকে।
    • টোকেন রিনোইজিং: স্যাম্পলারটি অনির্বাচিত টোকেনগুলোকে সম্পূর্ণরূপে রিনোইজ করে।
  • অভিযোজিত সমাপ্তি: স্যাম্পলিং নির্ধারিত সময়ের আগেই সমাপ্ত হয় যদি এবং কেবল যদি নিম্নলিখিত উভয় শর্ত একই সাথে পূরণ হয়:
    • আত্মবিশ্বাসী পূর্বাভাস: ক্যানভাস জুড়ে মডেলের গড় এনট্রপি এনট্রপি থ্রেশহোল্ড = ০.০০৫-এর নিচে রয়েছে।
    • স্থিতিশীল পূর্বাভাস: সর্বোচ্চ সম্ভাবনাময় টোকেন পূর্বাভাসগুলো পরপর দুটি ডিনয়েজিং ধাপে অভিন্ন থাকে।

২. চিন্তার ধরণ কনফিগারেশন

জেমা ৪ মডেলের মতোই, আমরা প্রচলিত system , assistant এবং user রোল ব্যবহার করি। চিন্তন প্রক্রিয়াটি সঠিকভাবে পরিচালনা করার জন্য, নিম্নলিখিত কন্ট্রোল টোকেনগুলো ব্যবহার করুন:

  • চিন্তা সক্রিয় করা: সিস্টেম প্রম্পটের শুরুতে <|think|> টোকেনটি অন্তর্ভুক্ত করার মাধ্যমে চিন্তা সক্রিয় করা হয়। চিন্তা নিষ্ক্রিয় করতে, টোকেনটি সরিয়ে ফেলুন (মনে রাখবেন যে একটি খালি থিঙ্কিং চ্যানেল তখনও নির্গত হতে পারে)।
  • স্ট্যান্ডার্ড জেনারেশন: যখন চিন্তাভাবনা সক্রিয় করা হয়, তখন মডেলটি তার অভ্যন্তরীণ যুক্তি এবং তারপরে এই কাঠামো ব্যবহার করে চূড়ান্ত উত্তরটি আউটপুট করবে: <|channel>thought\n [অভ্যন্তরীণ যুক্তি] <channel|>
  • নিষ্ক্রিয় চিন্তন আচরণ: যদি চিন্তন নিষ্ক্রিয় করা থাকে, মডেলটি ট্যাগগুলি তৈরি করবে ঠিকই, কিন্তু একটি খালি চিন্তার ব্লক সহ: <|channel>thought\n<channel|> [চূড়ান্ত উত্তর]

উল্লেখ্য যে, ট্রান্সফর্মারের মতো অনেক লাইব্রেরি আপনার জন্য চ্যাট টেমপ্লেটের জটিলতাগুলো সামলে নেয়।

৩. একাধিক পালায় কথোপকথন

  • ইতিহাসে কোনো চিন্তামূলক বিষয়বস্তু নয়: একাধিক পালাবিশিষ্ট কথোপকথনে, ঐতিহাসিক মডেলের আউটপুটে শুধুমাত্র চূড়ান্ত উত্তরটি অন্তর্ভুক্ত থাকবে। পরবর্তী ব্যবহারকারীর পালা শুরু হওয়ার আগে পূর্ববর্তী মডেলের পালার কোনো চিন্তা যোগ করা যাবে না।

৪. মোডালিটি ক্রম

  • মাল্টিমোডাল ইনপুটের সাথে সর্বোত্তম পারফরম্যান্সের জন্য, আপনার প্রম্পটে টেক্সটের আগে ছবির কন্টেন্ট রাখুন।

৫. পরিবর্তনশীল ছবির রেজোলিউশন

পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ছাড়াও, ডিফিউশনজেমা একটি কনফিগারযোগ্য ভিজ্যুয়াল টোকেন বাজেটের মাধ্যমে পরিবর্তনশীল ইমেজ রেজোলিউশন সমর্থন করে, যা একটি ইমেজকে উপস্থাপন করতে কতগুলো টোকেন ব্যবহৃত হবে তা নিয়ন্ত্রণ করে। একটি উচ্চতর টোকেন বাজেট অতিরিক্ত কম্পিউটের বিনিময়ে আরও বেশি ভিজ্যুয়াল ডিটেইল সংরক্ষণ করে, অন্যদিকে একটি নিম্ন বাজেট এমন কাজগুলোর জন্য দ্রুততর ইনফারেন্স সক্ষম করে যেগুলোর জন্য সূক্ষ্ম বোঝার প্রয়োজন হয় না।

  • সমর্থিত টোকেন বাজেটগুলো হলো: ৭০ , ১৪০ , ২৮০ , ৫৬০ এবং ১১২০
    • শ্রেণীবিভাগ, ক্যাপশনিং বা ভিডিও বোঝার জন্য কম বাজেট ব্যবহার করুন, যেখানে দ্রুততর অনুমান এবং অনেক ফ্রেম প্রক্রিয়াকরণ সূক্ষ্ম বিবরণের চেয়ে বেশি গুরুত্বপূর্ণ।
    • OCR, ডকুমেন্ট পার্সিং বা ছোট লেখা পড়ার মতো কাজের জন্য বেশি বাজেট ব্যবহার করুন।

৬. ভিডিওর দৈর্ঘ্য

সব মডেলই ইমেজ ইনপুট সমর্থন করে এবং ভিডিওকে ফ্রেম হিসেবে প্রসেস করতে পারে। প্রতি সেকেন্ডে একটি ফ্রেম হারে ইমেজ প্রসেস করা হলে, ভিডিও সর্বোচ্চ ৬০ সেকেন্ড পর্যন্ত সমর্থন করে।

মডেল ডেটা

মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং ডেটা প্রক্রিয়াকরণ পদ্ধতি।

প্রশিক্ষণ ডেটাসেট

আমাদের প্রি-ট্রেনিং ডেটাসেটটি হলো বিভিন্ন ডোমেইন ও মোডালিটি জুড়ে থাকা ডেটার একটি বৃহৎ ও বৈচিত্র্যময় সংগ্রহ, যার মধ্যে রয়েছে ওয়েব ডকুমেন্ট, কোড, ছবি, অডিও এবং এর কাট-অফ তারিখ হলো জানুয়ারি ২০২৫। এর মূল উপাদানগুলো হলো:

  • ওয়েব ডকুমেন্ট: ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ মডেলটিকে বিস্তৃত পরিসরের ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের সংস্পর্শে আনে। প্রশিক্ষণ ডেটাসেটটিতে ১৪০টিরও বেশি ভাষার কন্টেন্ট অন্তর্ভুক্ত রয়েছে।
  • কোড: মডেলকে কোডের সংস্পর্শে আনলে তা প্রোগ্রামিং ভাষার সিনট্যাক্স ও প্যাটার্ন শিখতে পারে, যা তার কোড তৈরি করার এবং কোড-সম্পর্কিত প্রশ্ন বোঝার ক্ষমতা উন্নত করে।
  • গণিত: গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।
  • ছবি: বিভিন্ন ধরনের ছবি মডেলটিকে চিত্র বিশ্লেষণ এবং দৃশ্যমান তথ্য নিষ্কাশনের কাজ সম্পাদন করতে সক্ষম করে।

বিভিন্ন ধরনের কাজ ও ডেটা ফরম্যাট সামলাতে সক্ষম একটি শক্তিশালী মাল্টিমোডাল মডেল প্রশিক্ষণের জন্য এই বৈচিত্র্যময় ডেটা উৎসগুলোর সমন্বয় অত্যন্ত গুরুত্বপূর্ণ।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটার উপর প্রয়োগ করা প্রধান ডেটা পরিষ্কারকরণ এবং ফিল্টারিং পদ্ধতিগুলো নিচে দেওয়া হলো:

  • সিএসএএম ফিল্টারিং: ক্ষতিকর ও অবৈধ বিষয়বস্তু বাদ দেওয়া নিশ্চিত করতে ডেটা প্রস্তুতি প্রক্রিয়ার একাধিক পর্যায়ে কঠোর সিএসএএম (শিশু যৌন নির্যাতনমূলক সামগ্রী) ফিল্টারিং প্রয়োগ করা হয়েছিল।
  • সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রি-ট্রেইনড মডেলগুলোকে নিরাপদ ও নির্ভরযোগ্য করার অংশ হিসেবে, ট্রেনিং সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করে বাদ দেওয়ার জন্য স্বয়ংক্রিয় কৌশল ব্যবহার করা হয়েছিল।
  • অতিরিক্ত পদ্ধতি: আমাদের নীতিমালা অনুযায়ী বিষয়বস্তুর গুণমান ও নিরাপত্তার ভিত্তিতে ফিল্টার করা।

নৈতিকতা এবং নিরাপত্তা

এন্টারপ্রাইজ অবকাঠামোতে ওপেন মডেলগুলো কেন্দ্রীয় ভূমিকা পালন করায়, তথ্যের উৎস এবং নিরাপত্তা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। গুগল ডিপমাইন্ড দ্বারা তৈরি ডিফিউশনজেমা, আমাদের নিজস্ব জেমিনি মডেলগুলোর মতোই একই কঠোর নিরাপত্তা মূল্যায়নের মধ্য দিয়ে যায়।

মূল্যায়ন পদ্ধতি

অভ্যন্তরীণ নিরাপত্তা এবং দায়িত্বশীল এআই দলগুলোর সাথে অংশীদারিত্বের ভিত্তিতে ডিফিউশনজেমা তৈরি করা হয়েছে। মডেলের নিরাপত্তা উন্নত করার লক্ষ্যে বিভিন্ন ধরনের স্বয়ংক্রিয় এবং মানব-পরিচালিত মূল্যায়ন করা হয়েছে। এই মূল্যায়নগুলো গুগলের এআই নীতিমালা এবং নিরাপত্তা নীতিমালার সাথে সামঞ্জস্যপূর্ণ, যার লক্ষ্য হলো আমাদের জেনারেটিভ এআই মডেলগুলোকে ক্ষতিকর বিষয়বস্তু তৈরি করা থেকে বিরত রাখা, যার মধ্যে অন্তর্ভুক্ত রয়েছে:

  • শিশু যৌন নির্যাতন সামগ্রী এবং শোষণ সম্পর্কিত বিষয়বস্তু
  • বিপজ্জনক বিষয়বস্তু (যেমন, আত্মহত্যার প্রচার, বা এমন কোনো কাজের নির্দেশ দেওয়া যা বাস্তব জীবনে ক্ষতি করতে পারে)
  • যৌনতাপূর্ণ বিষয়বস্তু
  • বিদ্বেষমূলক বক্তব্য (যেমন, সংরক্ষিত গোষ্ঠীর সদস্যদের অমানবিকীকরণ)
  • হয়রানি (যেমন, মানুষের বিরুদ্ধে সহিংসতায় উসকানি দেওয়া)

মূল্যায়ন ফলাফল

নিরাপত্তা পরীক্ষার সমস্ত ক্ষেত্রে, আমরা পূর্ববর্তী প্রজন্মের জেমা মডেলগুলির তুলনায় বিষয়বস্তু সুরক্ষার সমস্ত বিভাগে উল্লেখযোগ্য উন্নতি দেখেছি। সামগ্রিকভাবে, জেমা ৪ মডেলের মতোই, ডিফিউশনজেমা নিরাপত্তা উন্নত করার ক্ষেত্রে জেমা ৩ এবং ৩এন মডেলকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়, এবং একই সাথে অযৌক্তিক প্রত্যাখ্যানের হার কম রাখে। মডেলটির মৌলিক ক্ষমতা এবং বেসলাইন আচরণ মূল্যায়ন করার জন্য সমস্ত পরীক্ষা ইচ্ছাকৃতভাবে কোনো নিরাপত্তা ফিল্টার ছাড়াই পরিচালিত হয়েছিল। টেক্সট-টু-টেক্সট এবং ইমেজ-টু-টেক্সট উভয় ক্ষেত্রেই, এবং সমস্ত মডেল সাইজ জুড়ে, মডেলটি ন্যূনতম নীতি লঙ্ঘন করেছে এবং পূর্ববর্তী জেমা মডেলগুলির তুলনায় উল্লেখযোগ্য উন্নতি দেখিয়েছে।

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলোর কিছু সীমাবদ্ধতা রয়েছে, যেগুলো সম্পর্কে ব্যবহারকারীদের অবগত থাকা উচিত।

উদ্দিষ্ট ব্যবহার

মাল্টিমোডাল মডেল (যা দৃষ্টি, ভাষা এবং/অথবা অডিও প্রক্রিয়াকরণে সক্ষম) বিভিন্ন শিল্প ও ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়। সম্ভাব্য ব্যবহারের নিম্নলিখিত তালিকাটি সম্পূর্ণ নয়। এই তালিকার উদ্দেশ্য হলো সেইসব সম্ভাব্য ব্যবহার-ক্ষেত্র সম্পর্কে প্রাসঙ্গিক তথ্য প্রদান করা, যা মডেল নির্মাতারা মডেল প্রশিক্ষণ ও উন্নয়নের অংশ হিসেবে বিবেচনা করেছিলেন।

  • বিষয়বস্তু তৈরি এবং যোগাযোগ
    • টেক্সট তৈরি: কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফটের মতো সৃজনশীল টেক্সট ফরম্যাট তৈরি করে।
    • চ্যাটবট ও কথোপকথনমূলক এআই: গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনের জন্য কথোপকথনমূলক ইন্টারফেসকে শক্তিশালী করে।
    • পাঠ্য সারাংশ তৈরি: কোনো পাঠ্য সংকলন, গবেষণাপত্র বা প্রতিবেদনের সংক্ষিপ্ত সার তৈরি করে।
    • চিত্র তথ্য নিষ্কাশন: লিখিত যোগাযোগের জন্য দৃশ্যমান তথ্য নিষ্কাশন, ব্যাখ্যা এবং সংক্ষিপ্তকরণ করে।
  • গবেষণা ও শিক্ষা
    • ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) এবং ভিএলএম গবেষণা: এটি গবেষকদের ভিএলএম ও এনএলপি কৌশল নিয়ে পরীক্ষা-নিরীক্ষা করতে, অ্যালগরিদম তৈরি করতে এবং এই ক্ষেত্রের অগ্রগতিতে অবদান রাখার জন্য একটি ভিত্তি হিসেবে কাজ করে।
    • ভাষা শেখার উপকরণ: ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতাকে সমর্থন করে, যা ব্যাকরণ সংশোধনে বা লেখার অনুশীলনে সহায়তা করে।
    • জ্ঞান অন্বেষণ: সারসংক্ষেপ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে গবেষকদের বিশাল পরিমাণ পাঠ্য অন্বেষণে সহায়তা করে।

সীমাবদ্ধতা

  • প্রশিক্ষণ ডেটা
    • প্রশিক্ষণ ডেটার গুণমান এবং বৈচিত্র্য মডেলের সক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণ ডেটার পক্ষপাত বা ঘাটতি মডেলের প্রতিক্রিয়ায় সীমাবদ্ধতা তৈরি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের পরিধি নির্ধারণ করে দেয় যে মডেলটি কোন কোন বিষয় কার্যকরভাবে পরিচালনা করতে পারবে।
  • প্রসঙ্গ এবং কাজের জটিলতা
    • যেসব কাজ স্পষ্ট ইঙ্গিত ও নির্দেশাবলী দিয়ে সাজানো যায়, সেগুলোতে মডেলটি ভালোভাবে কাজ করে। অনির্দিষ্ট বা অত্যন্ত জটিল কাজগুলো এর জন্য কঠিন হতে পারে।
    • প্রদত্ত প্রেক্ষাপটের পরিমাণ মডেলের কর্মক্ষমতাকে প্রভাবিত করতে পারে (একটি নির্দিষ্ট সীমা পর্যন্ত, দীর্ঘতর প্রেক্ষাপট সাধারণত উন্নততর ফলাফল প্রদান করে)।
  • ভাষার অস্পষ্টতা এবং সূক্ষ্মতা
    • স্বাভাবিক ভাষা স্বভাবতই জটিল। মডেলটি হয়তো সূক্ষ্ম ভাবার্থ, ব্যঙ্গ বা আলঙ্কারিক ভাষা বুঝতে হিমশিম খেতে পারে।
  • তথ্যগত নির্ভুলতা
    • মডেলটি তার প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলো জ্ঞানভান্ডার নয়। এটি ভুল বা সেকেলে তথ্যমূলক বিবৃতি তৈরি করতে পারে।
  • সাধারণ জ্ঞান
    • মডেলটি ভাষার পরিসংখ্যানগত বিন্যাসের উপর নির্ভর করে। কিছু পরিস্থিতিতে সাধারণ জ্ঞান প্রয়োগের ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

একটি উন্মুক্ত, রূপকল্প-ভাষা মডেল তৈরি করার ক্ষেত্রে আমরা নিম্নলিখিত বিষয়গুলো সতর্কতার সাথে বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বৃহৎ পরিসরের বাস্তব টেক্সট এবং ইমেজ ডেটার উপর প্রশিক্ষিত ভিএলএম (VLM) প্রশিক্ষণ সামগ্রীতে অন্তর্নিহিত সামাজিক-সাংস্কৃতিক পক্ষপাত প্রতিফলিত করতে পারে। এই কার্ডে উল্লিখিত অনুযায়ী, এই পক্ষপাতগুলোর ঝুঁকি প্রশমিত করতে ডিফিউশনজেমা (DiffusionGemma) সতর্ক নিরীক্ষা, ইনপুট ডেটার প্রি-প্রসেসিং এবং প্রশিক্ষণ-পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • ভিএলএম-এর অপব্যবহারের মাধ্যমে মিথ্যা, বিভ্রান্তিকর বা ক্ষতিকর টেক্সট তৈরি করা যেতে পারে।
    • মডেলটির দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা দেওয়া আছে, ‘রেসপনসিবল জেনারেটিভ এআই টুলকিট’ দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটিতে মডেলটির গঠন, সক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়া সম্পর্কে বিস্তারিত তথ্য সংক্ষেপে তুলে ধরা হয়েছে।
    • দায়িত্বশীলভাবে বিকশিত একটি উন্মুক্ত মডেল এআই ইকোসিস্টেম জুড়ে ডেভেলপার ও গবেষকদের কাছে ভিএলএম প্রযুক্তিকে সহজলভ্য করার মাধ্যমে উদ্ভাবন ভাগ করে নেওয়ার সুযোগ তৈরি করে।

চিহ্নিত ঝুঁকি এবং তার প্রতিকার :

  • ক্ষতিকর বিষয়বস্তু তৈরি: বিষয়বস্তুর সুরক্ষার জন্য পদ্ধতি ও নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্যের নীতিমালা ও অ্যাপ্লিকেশনের ব্যবহারের ক্ষেত্র অনুযায়ী উপযুক্ত বিষয়বস্তু সুরক্ষা ব্যবস্থা প্রয়োগ করতে উৎসাহিত করা হচ্ছে।
  • ক্ষতিকর উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং ডেভেলপার ও ব্যবহারকারীদের সচেতনতা বৃদ্ধি ভিএলএম-এর ক্ষতিকর প্রয়োগ প্রতিরোধ করতে সাহায্য করতে পারে। ব্যবহারকারীদের অপব্যবহার চিহ্নিত করার জন্য শিক্ষামূলক উপকরণ এবং অভিযোগ জানানোর ব্যবস্থা রয়েছে।
  • গোপনীয়তা লঙ্ঘন: কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল তথ্য অপসারণ করে ফিল্টার করা ডেটার উপর মডেলগুলোকে প্রশিক্ষণ দেওয়া হয়েছিল। ডেভেলপারদের গোপনীয়তা-সংরক্ষণকারী কৌশল ব্যবহার করে গোপনীয়তা বিধিমালা মেনে চলার জন্য উৎসাহিত করা হচ্ছে।
  • পক্ষপাতের বিস্তার: মডেল প্রশিক্ষণ, সূক্ষ্ম সমন্বয় এবং অন্যান্য ব্যবহারের ক্ষেত্রে ক্রমাগত পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স ও মানব পর্যালোচনার মাধ্যমে) এবং পক্ষপাত দূরীকরণের কৌশল অন্বেষণ করতে উৎসাহিত করা হয়।

সুবিধা

প্রকাশের সময়, এটি একটি স্বল্প-বিলম্ব ও উচ্চ-কর্মক্ষমতাসম্পন্ন উন্মুক্ত ভিশন-ল্যাঙ্গুয়েজ মডেল, যা ডেভেলপারদের এবং যারা ডিফিউশন ল্যাঙ্গুয়েজ মডেল নিয়ে গবেষণা করতে আগ্রহী তাদের জন্য একটি আকর্ষণীয় বিকল্প প্রদান করে। একই আকারের অন্যান্য মডেলের তুলনায় দায়িত্বশীল এআই উন্নয়নের কথা মাথায় রেখে মডেলটি একেবারে গোড়া থেকে ডিজাইন করা হয়েছে।