টেক্সট, অডিও ও ইমেজ ইনপুট এবং ২৫৬কেবি পর্যন্ত দীর্ঘ কনটেক্সট উইন্ডো সহ জেমা ৪ প্রকাশিত হয়েছে! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

জেমা ৪ মডেল কার্ড

জেমা ৪ ব্যানার

আলিঙ্গনরত মুখ | গিটহাব | লঞ্চ ব্লগ | ডকুমেন্টেশন
লাইসেন্স : অ্যাপাচি ২.০ | লেখক : গুগল ডিপমাইন্ড

জেমা হলো গুগল ডিপমাইন্ড দ্বারা নির্মিত ওপেন মডেলের একটি পরিবার। জেমা ৪ মডেলগুলো মাল্টিমোডাল, যা টেক্সট এবং ইমেজ ইনপুট গ্রহণ করতে পারে (E2B, E4B, এবং 12B মডেলে অডিও সমর্থিত) এবং টেক্সট আউটপুট তৈরি করে। এই রিলিজে প্রি-ট্রেইনড এবং ইনস্ট্রাকশন-টিউনড উভয় ধরনের ওপেন-ওয়েটস মডেল অন্তর্ভুক্ত রয়েছে। জেমা ৪-এ ২৫৬ হাজার টোকেন পর্যন্ত একটি কনটেক্সট উইন্ডো রয়েছে এবং এটি ১৪০টিরও বেশি ভাষায় বহুভাষিক সমর্থন বজায় রাখে।

ডেন্স এবং মিক্সচার-অফ-এক্সপার্টস (MoE) উভয় আর্কিটেকচার থাকায়, জেমা ৪ টেক্সট জেনারেশন, কোডিং এবং রিজনিং-এর মতো কাজের জন্য বিশেষভাবে উপযুক্ত। মডেলগুলো পাঁচটি ভিন্ন আকারে পাওয়া যায়: E2B , E4B , 12B , 26B A4B এবং 31B । এদের বিভিন্ন আকারের কারণে এগুলো হাই-এন্ড ফোন থেকে শুরু করে ল্যাপটপ এবং সার্ভারের মতো পরিবেশে স্থাপনযোগ্য, যা অত্যাধুনিক এআই-এর ব্যবহারকে সকলের জন্য সহজলভ্য করে তোলে।

জেমা ৪-এ নিম্নলিখিত প্রধান সক্ষমতা এবং স্থাপত্যগত উন্নয়নগুলো প্রবর্তন করা হয়েছে:

যুক্তি – এই সিরিজের সমস্ত মডেলই কনফিগারযোগ্য চিন্তন মোড সহ অত্যন্ত সক্ষম যুক্তিবাদী হিসেবে ডিজাইন করা হয়েছে।
বর্ধিত মাল্টিমোডালিটি – টেক্সট, পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ও রেজোলিউশন সমর্থনসহ ছবি (সকল মডেলে), ভিডিও এবং অডিও প্রসেস করে (যা E2B, E4B, এবং 12B মডেলে স্বাভাবিকভাবেই রয়েছে)।
বৈচিত্র্যময় ও কার্যকর আর্কিটেকচার – পরিবর্ধনযোগ্য স্থাপনার জন্য বিভিন্ন আকারের ডেন্স এবং মিক্সচার-অফ-এক্সপার্টস (MoE) ভ্যারিয়েন্ট প্রদান করে।
ডিভাইসে ব্যবহারের জন্য বিশেষভাবে তৈরি – ছোট মডেলগুলো ল্যাপটপ ও মোবাইল ডিভাইসে দক্ষতার সাথে স্থানীয়ভাবে চালানোর জন্য বিশেষভাবে ডিজাইন করা হয়েছে।
বর্ধিত কনটেক্সট উইন্ডো – ছোট মডেলগুলিতে একটি ১২৮কেবি কনটেক্সট উইন্ডো রয়েছে, যেখানে মাঝারি মডেলগুলি ২৫৬কেবি সমর্থন করে।
উন্নত কোডিং ও এজেন্টিক সক্ষমতা – নেটিভ ফাংশন-কলিং সমর্থনের পাশাপাশি কোডিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি সাধন করে, যা অত্যন্ত সক্ষম স্বায়ত্তশাসিত এজেন্টদের শক্তি জোগায়।
নেটিভ সিস্টেম প্রম্পট সাপোর্ট – জেমা ৪ system রোলের জন্য নেটিভ সাপোর্ট চালু করেছে, যা আরও সুসংগঠিত এবং নিয়ন্ত্রণযোগ্য কথোপকথন সম্ভব করে তোলে।

মডেলগুলির সংক্ষিপ্ত বিবরণ

জেমা ৪ মডেলগুলো প্রতিটি আকারে অত্যাধুনিক পারফরম্যান্স প্রদানের জন্য ডিজাইন করা হয়েছে, যা মোবাইল ও এজ ডিভাইস (E2B, E4B) থেকে শুরু করে কনজিউমার জিপিইউ এবং ওয়ার্কস্টেশন (12B, 26B A4B, 31B) পর্যন্ত বিভিন্ন ডেপ্লয়মেন্ট সিনারিওকে লক্ষ্য করে তৈরি। এগুলো রিজনিং, এজেন্টিক ওয়ার্কফ্লো, কোডিং এবং মাল্টিমোডাল আন্ডারস্ট্যান্ডিং-এর জন্য বিশেষভাবে উপযোগী।

এই মডেলগুলিতে একটি হাইব্রিড অ্যাটেনশন মেকানিজম ব্যবহার করা হয়, যা লোকাল স্লাইডিং উইন্ডো অ্যাটেনশনের সাথে ফুল গ্লোবাল অ্যাটেনশনকে পর্যায়ক্রমে সাজিয়ে রাখে এবং নিশ্চিত করে যে চূড়ান্ত স্তরটি সর্বদা গ্লোবাল থাকে। এই হাইব্রিড ডিজাইনটি জটিল ও দীর্ঘ-প্রসঙ্গের কাজগুলির জন্য প্রয়োজনীয় গভীর সচেতনতা বজায় রেখেই একটি লাইটওয়েট মডেলের মতো দ্রুত প্রসেসিং এবং কম মেমরি ব্যবহারের সুবিধা প্রদান করে। দীর্ঘ প্রসঙ্গের জন্য মেমরি অপ্টিমাইজ করতে, গ্লোবাল স্তরগুলিতে একীভূত কী (Key) এবং ভ্যালু (Value) ব্যবহার করা হয় এবং প্রোপোরশনাল RoPE (p-RoPE) প্রয়োগ করা হয়।

ঘন মডেল

সম্পত্তি	ই২বি	E4B	১২বি একীভূত	31B ঘন
মোট পরামিতি	২.৩ বিলিয়ন কার্যকরী (এম্বেডিং সহ ৫.১ বিলিয়ন)	৪.৫ বিলিয়ন কার্যকরী (এম্বেডিং সহ ৮ বিলিয়ন)	১১.৯৫ বিলিয়ন	৩০.৭ বিলিয়ন
স্তর	৩৫	৪২	৪৮	৬০
স্লাইডিং জানালা	৫১২টি টোকেন	৫১২টি টোকেন	১০২৪টি টোকেন	১০২৪টি টোকেন
প্রসঙ্গের দৈর্ঘ্য	১২৮ হাজার টোকেন	১২৮ হাজার টোকেন	২৫৬ হাজার টোকেন	২৫৬ হাজার টোকেন
শব্দভান্ডার আকার	২৬২ হাজার	২৬২ হাজার	২৬২ হাজার	২৬২ হাজার
সমর্থিত পদ্ধতি	লেখা, ছবি, অডিও	লেখা, ছবি, অডিও	লেখা, ছবি, অডিও	লেখা, ছবি
ভিশন এনকোডার প্যারামিটার	~১৫০ মিলিয়ন	~১৫০ মিলিয়ন	-	~৫৫০ মিলিয়ন
অডিও এনকোডার প্যারামিটার	~৩০০ মিলিয়ন	~৩০০ মিলিয়ন	-	কোন অডিও নেই

E2B এবং E4B-এর "E" অক্ষরটি "কার্যকরী" প্যারামিটার বোঝায়। ছোট মডেলগুলোতে ডিভাইসে স্থাপনের ক্ষেত্রে প্যারামিটারের কার্যকারিতা সর্বোচ্চ করার জন্য পার-লেয়ার এমবেডিংস (PLE) অন্তর্ভুক্ত করা হয়। মডেলে আরও লেয়ার বা প্যারামিটার যোগ করার পরিবর্তে, PLE প্রতিটি টোকেনের জন্য প্রত্যেক ডিকোডার লেয়ারকে তার নিজস্ব একটি ছোট এমবেডিং প্রদান করে। এই এমবেডিং টেবিলগুলো আকারে বড় হলেও শুধুমাত্র দ্রুত অনুসন্ধানের জন্য ব্যবহৃত হয়, যে কারণে কার্যকরী প্যারামিটারের সংখ্যা মোট সংখ্যার চেয়ে অনেক কম।

Gemma 4 12B Unified-এর "Unified" অংশটি এর এনকোডার-মুক্ত আর্কিটেকচারকে বোঝায়। অন্যান্য Gemma 4 মডেলগুলো মাল্টিমোডাল ডেটা LLM-এ পাঠানোর আগে তা প্রসেস করার জন্য ডেডিকেটেড এনকোডার ব্যবহার করে। Gemma 4 12B এই এনকোডারগুলোকে সম্পূর্ণরূপে বাদ দেয় এবং লাইটওয়েট লিনিয়ার লেয়ারের মাধ্যমে র ইমেজ প্যাচ ও অডিও ওয়েভফর্মগুলোকে সরাসরি LLM-এর এমবেডিং স্পেসে প্রজেক্ট করে। এই সমন্বিত পদ্ধতির অর্থ হলো, সমস্ত মোডালিটি সরাসরি একটিমাত্র ডিকোডার-ভিত্তিক ট্রান্সফর্মারে প্রবাহিত হয়, যা মাল্টিমোডাল ল্যাটেন্সি কমায় এবং পুরো মডেলটিকে একবারে ফাইন-টিউন করার সুযোগ দেয়।

বিশেষজ্ঞদের মিশ্রণ (MoE) মডেল

সম্পত্তি	২৬বি এ৪বি শিক্ষা মন্ত্রণালয়
মোট পরামিতি	২৫.২ বিলিয়ন
সক্রিয় প্যারামিটার	৩.৮ বিলিয়ন
স্তর	৩০
স্লাইডিং জানালা	১০২৪টি টোকেন
প্রসঙ্গের দৈর্ঘ্য	২৫৬ হাজার টোকেন
শব্দভান্ডার আকার	২৬২ হাজার
বিশেষজ্ঞ গণনা	৮টি সক্রিয় / মোট ১২৮টি এবং ১টি শেয়ার করা
সমর্থিত পদ্ধতি	লেখা, ছবি
ভিশন এনকোডার প্যারামিটার	~৫৫০ মিলিয়ন

26B A4B-এর "A" অক্ষরটি "অ্যাক্টিভ প্যারামিটার" বোঝায়, যা মডেলটিতে থাকা মোট প্যারামিটার সংখ্যার বিপরীত। ইনফারেন্সের সময় শুধুমাত্র 4B প্যারামিটারের একটি উপসেট সক্রিয় করার মাধ্যমে, মিক্সচার-অফ-এক্সপার্টস মডেলটি তার 26B মোট সংখ্যার তুলনায় অনেক দ্রুত চলে। এটি ডেন্স 31B মডেলের তুলনায় দ্রুত ইনফারেন্সের জন্য এটিকে একটি চমৎকার পছন্দ করে তোলে, কারণ এটি প্রায় একটি 4B-প্যারামিটার মডেলের মতোই দ্রুত চলে।

বেঞ্চমার্ক ফলাফল

টেক্সট জেনারেশনের বিভিন্ন দিক তুলে ধরার জন্য এই মডেলগুলোকে বিপুল সংখ্যক বিভিন্ন ডেটাসেট ও মেট্রিক্সের ভিত্তিতে মূল্যায়ন করা হয়েছিল। সারণিতে চিহ্নিত মূল্যায়নের ফলাফলগুলো নির্দেশনা-সমন্বিত মডেলগুলোর জন্য প্রযোজ্য।

	জেমা ৪ ৩১বি	জেমা ৪ ২৬বি এ৪বি	জেমা ৪ ১২বি ইউনিফাইড	জেমা ৪ ই৪বি	জেমা ৪ ই২বি	জেমা ৩ ২৭বি (চিন্তা নেই)
এমএমএলইউ প্রো	৮৫.২%	৮২.৬%	৭৭.২%	৬৯.৪%	৬০.০%	৬৭.৬%
AIME 2026 কোন সরঞ্জাম নেই	৮৯.২%	৮৮.৩%	৭৭.৫%	৪২.৫%	৩৭.৫%	২০.৮%
লাইভকোডবেঞ্চ ভি৬	৮০.০%	৭৭.১%	৭২.০%	৫২.০%	৪৪.০%	২৯.১%
কোডফোর্সেস ইএলও	২১৫০	১৭১৮	১৬৫৯	৯৪০	৬৩৩	১১০
জিপিকিউএ ডায়মন্ড	৮৪.৩%	৮২.৩%	৭৮.৮%	৫৮.৬%	৪৩.৪%	৪২.৪%
টাউ২ (৩ এর গড়)	৭৬.৯%	৬৮.২%	৬৯.০%	৪২.২%	২৪.৫%	১৬.২%
HLE কোন সরঞ্জাম নেই	১৯.৫%	৮.৭%	৫.২%	-	-	-
HLE অনুসন্ধান সহ	২৬.৫%	১৭.২%	-	-	-	-
বিগবেঞ্চ এক্সট্রা হার্ড	৭৪.৪%	৬৪.৮%	৫৩.০%	৩৩.১%	২১.৯%	১৯.৩%
এমএমএমএলইউ	৮৮.৪%	৮৬.৩%	৮৩.৪%	৭৬.৬%	৬৭.৪%	৭০.৭%
দৃষ্টি
এমএমএমইউ প্রো	৭৬.৯%	৭৩.৮%	৬৯.১%	৫২.৬%	৪৪.২%	৪৯.৭%
OmniDocBench 1.5 (গড় সম্পাদনা দূরত্ব, কম হলে ভালো)	০.১৩১	০.১৪৯	০.১৬৪	০.১৮১	০.২৯০	০.৩৬৫
গণিত-দৃষ্টি	৮৫.৬%	৮২.৪%	৭৯.৭%	৫৯.৫%	৫২.৪%	৪৬.০%
মেডএক্সপার্টকিউএ এমএম	৬১.৩%	৫৮.১%	৪৮.৭%	২৮.৭%	২৩.৫%	-
অডিও
কোভোএসটি	-	-	৩৮.৫ ^*	৩৫.৫৪	৩৩.৪৭	-
ফ্লেউরস (কম হলে ভালো)	-	-	০.০৬৯ ^*	০.০৮	০.০৯	-
দীর্ঘ প্রেক্ষাপট
এমআরসিআর ভি২ ৮ নিডল ১২৮কে (গড়)	৬৬.৪%	৪৪.১%	৪৩.৪%	২৫.৪%	১৯.১%	১৩.৫%

চীনা ভাষা ^{ব্যতীত} ।

মূল সক্ষমতা

জেমা ৪ মডেলগুলো টেক্সট, ভিশন এবং অডিও জুড়ে বিস্তৃত পরিসরের কাজ পরিচালনা করে। এর প্রধান সক্ষমতাগুলোর মধ্যে রয়েছে:

চিন্তা – অন্তর্নির্মিত যুক্তি পদ্ধতি যা মডেলটিকে উত্তর দেওয়ার আগে ধাপে ধাপে চিন্তা করতে দেয়।
লং কনটেক্সট – সর্বোচ্চ ১২৮কে টোকেন (ই২বি/ই৪বি) এবং ২৫৬কে টোকেন (১২বি/২৬বি এ৪বি/৩১বি) পর্যন্ত কনটেক্সট উইন্ডো।
ইমেজ আন্ডারস্ট্যান্ডিং – অবজেক্ট ডিটেকশন, ডকুমেন্ট/পিডিএফ পার্সিং, স্ক্রিন ও ইউআই আন্ডারস্ট্যান্ডিং, চার্ট কম্প্রিহেনশন, ওসিআর (বহুভাষিক সহ), হস্তাক্ষর শনাক্তকরণ, এবং পয়েন্টিং। ইমেজ বিভিন্ন অ্যাস্পেক্ট রেশিও এবং রেজোলিউশনে প্রসেস করা যায়।
ভিডিও অনুধাবন – ফ্রেমের অনুক্রম প্রক্রিয়াকরণের মাধ্যমে ভিডিও বিশ্লেষণ করা।
আন্তঃমিশ্রিত বহুমাধ্যম ইনপুট – একটিমাত্র প্রম্পটের মধ্যে যেকোনো ক্রমে টেক্সট এবং ছবি অবাধে মেশান।
ফাংশন কলিং – কাঠামোগত টুল ব্যবহারের জন্য নেটিভ সাপোর্ট, যা এজেন্টিক ওয়ার্কফ্লো সক্ষম করে।
কোডিং – কোড তৈরি, সম্পূর্ণকরণ এবং সংশোধন।
বহুভাষিক – ৩৫টিরও বেশি ভাষার জন্য বিল্ট-ইন সাপোর্ট, ১৪০টিরও বেশি ভাষায় প্রি-ট্রেইনড।
অডিও (শুধুমাত্র E2B, E4B, এবং 12B ইউনিফাইড-এর জন্য) – স্বয়ংক্রিয় কথন শনাক্তকরণ (ASR) এবং একাধিক ভাষার মধ্যে কথন থেকে অনূদিত পাঠ্যে অনুবাদ।

সর্বোত্তম অনুশীলন

সর্বোত্তম পারফরম্যান্সের জন্য, এই কনফিগারেশন এবং সেরা অনুশীলনগুলি ব্যবহার করুন:

১. নমুনা পরামিতি

সকল ব্যবহারের ক্ষেত্রে নিম্নলিখিত প্রমিত নমুনা বিন্যাসটি ব্যবহার করুন:

temperature=1.0
top_p=0.95
top_k=64

২. চিন্তার ধরণ কনফিগারেশন

জেমা ৩-এর তুলনায়, মডেলগুলো সাধারণ system , assistant এবং user রোল ব্যবহার করে। চিন্তন প্রক্রিয়াটি সঠিকভাবে পরিচালনা করার জন্য, নিম্নলিখিত কন্ট্রোল টোকেনগুলো ব্যবহার করুন:

চিন্তা সক্রিয় করা: সিস্টেম প্রম্পটের শুরুতে <|think|> টোকেনটি অন্তর্ভুক্ত করার মাধ্যমে চিন্তা সক্রিয় করা হয়। চিন্তা নিষ্ক্রিয় করতে, টোকেনটি সরিয়ে ফেলুন।
স্ট্যান্ডার্ড জেনারেশন: যখন চিন্তাভাবনা সক্রিয় করা হয়, তখন মডেলটি তার অভ্যন্তরীণ যুক্তি এবং তারপরে এই কাঠামো ব্যবহার করে চূড়ান্ত উত্তরটি আউটপুট করবে: <|channel>thought\n [Internal reasoning] <channel|>
নিষ্ক্রিয় চিন্তন আচরণ: E2B এবং E4B ভ্যারিয়েন্ট ব্যতীত অন্য সকল মডেলের ক্ষেত্রে, যদি চিন্তন নিষ্ক্রিয় করা থাকে, মডেলটি ট্যাগগুলি তৈরি করবে ঠিকই কিন্তু একটি খালি থট ব্লক সহ: <|channel>thought\n<channel|> [চূড়ান্ত উত্তর]

উল্লেখ্য যে, Transformers এবং llama.cpp-এর মতো অনেক লাইব্রেরি আপনার জন্য চ্যাট টেমপ্লেটের জটিলতাগুলো সামলে নেয়।

৩. একাধিক পালায় কথোপকথন

ইতিহাসে কোনো চিন্তামূলক বিষয়বস্তু নয় : একাধিক পালাবিশিষ্ট কথোপকথনে, ঐতিহাসিক মডেলের আউটপুটে শুধুমাত্র চূড়ান্ত উত্তরটি অন্তর্ভুক্ত থাকবে। পরবর্তী ব্যবহারকারীর পালা শুরু হওয়ার আগে পূর্ববর্তী মডেলের পালার কোনো চিন্তা যোগ করা যাবে না ।

৪. মোডালিটি ক্রম

মাল্টিমোডাল ইনপুটের সাথে সর্বোত্তম পারফরম্যান্সের জন্য, রাখুন:

আপনার প্রম্পটে থাকা টেক্সটের আগে ছবির বিষয়বস্তু।
আপনার প্রম্পটে থাকা টেক্সটের পরের অডিও কন্টেন্ট।

৫. পরিবর্তনশীল ছবির রেজোলিউশন

পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ছাড়াও, জেমা ৪ একটি কনফিগারযোগ্য ভিজ্যুয়াল টোকেন বাজেটের মাধ্যমে পরিবর্তনশীল ইমেজ রেজোলিউশন সমর্থন করে, যা একটি ইমেজকে উপস্থাপন করতে কতগুলো টোকেন ব্যবহৃত হবে তা নিয়ন্ত্রণ করে। একটি উচ্চতর টোকেন বাজেট অতিরিক্ত কম্পিউটের বিনিময়ে আরও বেশি ভিজ্যুয়াল ডিটেইল সংরক্ষণ করে, অন্যদিকে একটি নিম্ন বাজেট এমন কাজগুলোর জন্য দ্রুততর ইনফারেন্স সক্ষম করে যেগুলোর জন্য সূক্ষ্ম বোঝার প্রয়োজন হয় না।

সমর্থিত টোকেন বাজেটগুলো হলো: ৭০ , ১৪০ , ২৮০ , ৫৬০ এবং ১১২০ ।
- শ্রেণীবিভাগ, ক্যাপশনিং বা ভিডিও বোঝার জন্য কম বাজেট ব্যবহার করুন, যেখানে দ্রুততর অনুমান এবং অনেক ফ্রেম প্রক্রিয়াকরণ সূক্ষ্ম বিবরণের চেয়ে বেশি গুরুত্বপূর্ণ।
- OCR, ডকুমেন্ট পার্সিং বা ছোট লেখা পড়ার মতো কাজের জন্য বেশি বাজেট ব্যবহার করুন।

৬. অডিও

অডিও প্রক্রিয়াকরণের জন্য নিম্নলিখিত প্রম্পট কাঠামো ব্যবহার করুন:

অডিও স্পিচ রিকগনিশন (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

স্বয়ংক্রিয় বক্তৃতা অনুবাদ (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

৭. অডিও এবং ভিডিওর দৈর্ঘ্য

সমস্ত মডেলই ইমেজ ইনপুট সমর্থন করে এবং ভিডিওকে ফ্রেম হিসেবে প্রসেস করতে পারে, অন্যদিকে E2B, E4B, এবং 12B মডেলগুলো অডিও ইনপুটও সমর্থন করে। অডিওর সর্বোচ্চ দৈর্ঘ্য ৩০ সেকেন্ড। ভিডিও সর্বোচ্চ ৬০ সেকেন্ড পর্যন্ত সমর্থন করে, যদি ইমেজগুলো প্রতি সেকেন্ডে একটি ফ্রেমে প্রসেস করা হয়।

মডেল ডেটা

মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং ডেটা প্রক্রিয়াকরণ পদ্ধতি।

প্রশিক্ষণ ডেটাসেট

আমাদের প্রি-ট্রেনিং ডেটাসেটটি হলো বিভিন্ন ডোমেইন ও মোডালিটি জুড়ে থাকা ডেটার একটি বৃহৎ ও বৈচিত্র্যময় সংগ্রহ, যার মধ্যে রয়েছে ওয়েব ডকুমেন্ট, কোড, ছবি, অডিও এবং এর কাট-অফ তারিখ হলো জানুয়ারি ২০২৫। এর মূল উপাদানগুলো হলো:

ওয়েব ডকুমেন্ট : ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ মডেলটিকে বিস্তৃত পরিসরের ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের সংস্পর্শে আনে। প্রশিক্ষণ ডেটাসেটটিতে ১৪০টিরও বেশি ভাষার কন্টেন্ট অন্তর্ভুক্ত রয়েছে।
কোড : মডেলকে কোডের সংস্পর্শে আনলে তা প্রোগ্রামিং ভাষার সিনট্যাক্স ও প্যাটার্ন শিখতে পারে, যা তার কোড তৈরি করার এবং কোড-সম্পর্কিত প্রশ্ন বোঝার ক্ষমতা উন্নত করে।
গণিত : গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।
ছবি : বিভিন্ন ধরনের ছবি মডেলটিকে চিত্র বিশ্লেষণ এবং দৃশ্যমান তথ্য নিষ্কাশনের কাজ সম্পাদন করতে সক্ষম করে।

বিভিন্ন ধরনের কাজ ও ডেটা ফরম্যাট সামলাতে সক্ষম একটি শক্তিশালী মাল্টিমোডাল মডেল প্রশিক্ষণের জন্য এই বৈচিত্র্যময় ডেটা উৎসগুলোর সমন্বয় অত্যন্ত গুরুত্বপূর্ণ।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটার উপর প্রয়োগ করা প্রধান ডেটা পরিষ্কারকরণ এবং ফিল্টারিং পদ্ধতিগুলো নিচে দেওয়া হলো:

সিএসএএম ফিল্টারিং : ক্ষতিকর এবং অবৈধ বিষয়বস্তু বাদ দেওয়া নিশ্চিত করার জন্য ডেটা প্রস্তুতি প্রক্রিয়ার একাধিক পর্যায়ে কঠোর সিএসএএম (শিশু যৌন নির্যাতনমূলক সামগ্রী) ফিল্টারিং প্রয়োগ করা হয়েছিল।
সংবেদনশীল ডেটা ফিল্টারিং : জেমা প্রি-ট্রেইনড মডেলগুলোকে নিরাপদ ও নির্ভরযোগ্য করার অংশ হিসেবে, ট্রেনিং সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করে বাদ দেওয়ার জন্য স্বয়ংক্রিয় কৌশল ব্যবহার করা হয়েছিল।
অতিরিক্ত পদ্ধতি : আমাদের নীতিমালা অনুযায়ী বিষয়বস্তুর গুণমান ও নিরাপত্তার ভিত্তিতে পরিস্রাবণ।

নৈতিকতা এবং নিরাপত্তা

এন্টারপ্রাইজ অবকাঠামোতে ওপেন মডেলগুলো কেন্দ্রীয় ভূমিকা পালন করায়, তথ্যের উৎস এবং নিরাপত্তা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। গুগল ডিপমাইন্ড দ্বারা তৈরি জেমা ৪, আমাদের নিজস্ব জেমিনি মডেলগুলোর মতোই একই কঠোর নিরাপত্তা মূল্যায়নের মধ্য দিয়ে যায়।

মূল্যায়ন পদ্ধতি

জেমা ৪ মডেলগুলো অভ্যন্তরীণ নিরাপত্তা এবং দায়িত্বশীল এআই টিমের সাথে অংশীদারিত্বের ভিত্তিতে তৈরি করা হয়েছে। মডেলের নিরাপত্তা উন্নত করার জন্য বিভিন্ন ধরনের স্বয়ংক্রিয় এবং মানব-পরিচালিত মূল্যায়ন করা হয়েছে। এই মূল্যায়নগুলো গুগলের এআই নীতিমালা এবং নিরাপত্তা নীতিমালার সাথে সামঞ্জস্যপূর্ণ, যার লক্ষ্য হলো আমাদের জেনারেটিভ এআই মডেলগুলোকে ক্ষতিকর বিষয়বস্তু তৈরি করা থেকে বিরত রাখা, যার মধ্যে অন্তর্ভুক্ত রয়েছে:

শিশু যৌন নির্যাতন সামগ্রী এবং শোষণ সম্পর্কিত বিষয়বস্তু
বিপজ্জনক বিষয়বস্তু (যেমন, আত্মহত্যার প্রচার, বা এমন কোনো কাজের নির্দেশ দেওয়া যা বাস্তব জীবনে ক্ষতি করতে পারে)
যৌনতাপূর্ণ বিষয়বস্তু
বিদ্বেষমূলক বক্তব্য (যেমন, সংরক্ষিত গোষ্ঠীর সদস্যদের অমানবিকীকরণ)
হয়রানি (যেমন, মানুষের বিরুদ্ধে সহিংসতায় উসকানি দেওয়া)

মূল্যায়ন ফলাফল

নিরাপত্তা পরীক্ষার সমস্ত ক্ষেত্রে, আমরা পূর্ববর্তী জেমা মডেলগুলোর তুলনায় কন্টেন্ট নিরাপত্তার সকল বিভাগে উল্লেখযোগ্য উন্নতি দেখেছি। সামগ্রিকভাবে, জেমা ৪ মডেলগুলো নিরাপত্তা উন্নত করার ক্ষেত্রে জেমা ৩ এবং ৩এন মডেলগুলোকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে, এবং একই সাথে অযৌক্তিক প্রত্যাখ্যানের হারও কম রেখেছে। মডেলের সক্ষমতা ও আচরণ মূল্যায়ন করার জন্য সমস্ত পরীক্ষা কোনো নিরাপত্তা ফিল্টার ছাড়াই পরিচালিত হয়েছিল। টেক্সট-টু-টেক্সট এবং ইমেজ-টু-টেক্সট উভয় ক্ষেত্রেই, এবং সকল মডেল সাইজ জুড়ে, মডেলটি ন্যূনতম পলিসি লঙ্ঘন করেছে এবং পূর্ববর্তী জেমা মডেলগুলোর পারফরম্যান্সের তুলনায় উল্লেখযোগ্য উন্নতি দেখিয়েছে।

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলোর কিছু সীমাবদ্ধতা রয়েছে, যেগুলো সম্পর্কে ব্যবহারকারীদের অবগত থাকা উচিত।

উদ্দিষ্ট ব্যবহার

মাল্টিমোডাল মডেল (যা দৃষ্টি, ভাষা এবং/অথবা অডিও প্রক্রিয়াকরণে সক্ষম) বিভিন্ন শিল্প ও ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়। সম্ভাব্য ব্যবহারের নিম্নলিখিত তালিকাটি সম্পূর্ণ নয়। এই তালিকার উদ্দেশ্য হলো সেইসব সম্ভাব্য ব্যবহার-ক্ষেত্র সম্পর্কে প্রাসঙ্গিক তথ্য প্রদান করা, যা মডেল নির্মাতারা মডেল প্রশিক্ষণ ও উন্নয়নের অংশ হিসেবে বিবেচনা করেছিলেন।

বিষয়বস্তু তৈরি এবং যোগাযোগ
- টেক্সট তৈরি : এই মডেলগুলো কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফটের মতো সৃজনশীল টেক্সট ফরম্যাট তৈরি করতে ব্যবহার করা যেতে পারে।
- চ্যাটবট ও কথোপকথনমূলক এআই : গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনের জন্য কথোপকথনমূলক ইন্টারফেসকে শক্তিশালী করে।
- পাঠ্য সারাংশ : কোনো পাঠ্য সংকলন, গবেষণাপত্র বা প্রতিবেদনের সংক্ষিপ্ত সার তৈরি করুন।
- চিত্র থেকে তথ্য নিষ্কাশন : এই মডেলগুলো লিখিত যোগাযোগের জন্য দৃশ্যমান তথ্য নিষ্কাশন, ব্যাখ্যা এবং সংক্ষিপ্ত করতে ব্যবহার করা যেতে পারে।
- অডিও প্রক্রিয়াকরণ এবং মিথস্ক্রিয়া : E2B, E4B, এবং 12B মডেলগুলো অডিও ইনপুট বিশ্লেষণ ও ব্যাখ্যা করতে পারে, যা ভয়েস-চালিত মিথস্ক্রিয়া এবং ট্রান্সক্রিপশন সক্ষম করে।
গবেষণা ও শিক্ষা
- প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) এবং ভিএলএম গবেষণা : এই মডেলগুলো গবেষকদের ভিএলএম ও এনএলপি কৌশল নিয়ে পরীক্ষা-নিরীক্ষা করতে, অ্যালগরিদম তৈরি করতে এবং এই ক্ষেত্রের অগ্রগতিতে অবদান রাখার জন্য একটি ভিত্তি হিসেবে কাজ করতে পারে।
- ভাষা শেখার উপকরণ : ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতাকে সমর্থন করে, যা ব্যাকরণ সংশোধনে বা লেখার অনুশীলনে সহায়তা করে।
- জ্ঞান অন্বেষণ : সারসংক্ষেপ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে গবেষকদের বিশাল পরিমাণ পাঠ্য অন্বেষণে সহায়তা করা।

সীমাবদ্ধতা

প্রশিক্ষণ ডেটা
- প্রশিক্ষণ ডেটার গুণমান এবং বৈচিত্র্য মডেলের সক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণ ডেটার পক্ষপাত বা ঘাটতি মডেলের প্রতিক্রিয়ায় সীমাবদ্ধতা তৈরি করতে পারে।
- প্রশিক্ষণ ডেটাসেটের পরিধি নির্ধারণ করে দেয় যে মডেলটি কোন কোন বিষয় কার্যকরভাবে পরিচালনা করতে পারবে।
প্রসঙ্গ এবং কাজের জটিলতা
- যেসব কাজ স্পষ্ট ইঙ্গিত ও নির্দেশাবলী দিয়ে সাজানো যায়, মডেলরা সেগুলিতে ভালো পারফর্ম করে। অনির্দিষ্ট বা অত্যন্ত জটিল কাজ তাদের জন্য চ্যালেঞ্জিং হতে পারে।
- একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রেক্ষাপটের পরিমাণ দ্বারা প্রভাবিত হতে পারে (একটি নির্দিষ্ট সীমা পর্যন্ত, দীর্ঘতর প্রেক্ষাপট সাধারণত উন্নততর ফলাফল প্রদান করে)।
ভাষার অস্পষ্টতা এবং সূক্ষ্মতা
- স্বাভাবিক ভাষা স্বভাবতই জটিল। মডেলগুলো সূক্ষ্ম ভাবার্থ, ব্যঙ্গ বা আলঙ্কারিক ভাষা বুঝতে হিমশিম খেতে পারে।
তথ্যগত নির্ভুলতা
- মডেলগুলো তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলো জ্ঞানভান্ডার নয়। সেগুলো ভুল বা সেকেলে তথ্যমূলক বিবৃতি তৈরি করতে পারে।
সাধারণ জ্ঞান
- মডেলগুলো ভাষার পরিসংখ্যানগত বিন্যাসের উপর নির্ভর করে। নির্দিষ্ট কিছু পরিস্থিতিতে সাধারণ জ্ঞান প্রয়োগের ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেল (ভিএলএম)-এর বিকাশ বেশ কিছু নৈতিক উদ্বেগ সৃষ্টি করে। একটি উন্মুক্ত মডেল তৈরি করার ক্ষেত্রে, আমরা নিম্নলিখিত বিষয়গুলো সতর্কতার সাথে বিবেচনা করেছি:

পক্ষপাত এবং ন্যায্যতা
- বৃহৎ পরিসরের বাস্তব টেক্সট এবং ইমেজ ডেটার উপর প্রশিক্ষিত ভিএলএম (VLM) মডেলগুলো প্রশিক্ষণ উপাদানে অন্তর্নিহিত সামাজিক-সাংস্কৃতিক পক্ষপাত প্রতিফলিত করতে পারে। এই কার্ডে উল্লিখিত প্রতিবেদন অনুযায়ী, এই পক্ষপাতগুলোর ঝুঁকি প্রশমিত করতে জেমা ৪ (Gemma 4) মডেলগুলো সতর্ক নিরীক্ষা, ইনপুট ডেটার প্রি-প্রসেসিং এবং প্রশিক্ষণ-পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
ভুল তথ্য এবং অপব্যবহার
- ভিএলএম-এর অপব্যবহারের মাধ্যমে মিথ্যা, বিভ্রান্তিকর বা ক্ষতিকর টেক্সট তৈরি করা যেতে পারে।
- মডেলটির দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা দেওয়া আছে, ‘রেসপনসিবল জেনারেটিভ এআই টুলকিট’ দেখুন।
স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটিতে মডেলগুলোর গঠন, সক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়া সম্পর্কে বিস্তারিত তথ্য সংক্ষেপে তুলে ধরা হয়েছে।
- দায়িত্বশীলভাবে বিকশিত একটি উন্মুক্ত মডেল এআই ইকোসিস্টেম জুড়ে ডেভেলপার ও গবেষকদের কাছে ভিএলএম প্রযুক্তিকে সহজলভ্য করার মাধ্যমে উদ্ভাবন ভাগ করে নেওয়ার সুযোগ তৈরি করে।

চিহ্নিত ঝুঁকি এবং তার প্রতিকার :

ক্ষতিকর বিষয়বস্তু তৈরি : বিষয়বস্তুর সুরক্ষার জন্য পদ্ধতি ও নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্যের নীতিমালা ও অ্যাপ্লিকেশনের ব্যবহারের ক্ষেত্র অনুযায়ী উপযুক্ত বিষয়বস্তু সুরক্ষা ব্যবস্থা প্রয়োগ করতে উৎসাহিত করা হচ্ছে।
ক্ষতিকর উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং ডেভেলপার ও ব্যবহারকারীদের সচেতনতা বৃদ্ধি ভিএলএম-এর ক্ষতিকর প্রয়োগ প্রতিরোধ করতে সাহায্য করতে পারে। ব্যবহারকারীদের অপব্যবহার চিহ্নিত করার জন্য শিক্ষামূলক উপকরণ এবং অভিযোগ জানানোর ব্যবস্থা রয়েছে।
গোপনীয়তা লঙ্ঘন : কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল তথ্য অপসারণ করে ফিল্টার করা ডেটার উপর মডেলগুলোকে প্রশিক্ষণ দেওয়া হয়েছিল। ডেভেলপারদের গোপনীয়তা-সংরক্ষণকারী কৌশল ব্যবহার করে গোপনীয়তা বিধিমালা মেনে চলার জন্য উৎসাহিত করা হচ্ছে।
পক্ষপাতের বিস্তার : মডেল প্রশিক্ষণ, সূক্ষ্ম সমন্বয় এবং অন্যান্য ব্যবহারের ক্ষেত্রে ক্রমাগত পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স ও মানব পর্যালোচনার মাধ্যমে) এবং পক্ষপাত দূরীকরণের কৌশল অন্বেষণ করতে উৎসাহিত করা হয়।

সুবিধা

প্রকাশের সময়, এই মডেল পরিবারটি একই আকারের মডেলগুলোর তুলনায় দায়িত্বশীল এআই উন্নয়নের জন্য একেবারে গোড়া থেকে ডিজাইন করা উচ্চ-কর্মক্ষমতাসম্পন্ন ওপেন ভিশন-ল্যাঙ্গুয়েজ মডেল বাস্তবায়ন প্রদান করে।