জেমা ৪ মডেল কার্ড

জেমা ৪ ব্যানার

আলিঙ্গনরত মুখ | গিটহাব | লঞ্চ ব্লগ | ডকুমেন্টেশন
লাইসেন্স : অ্যাপাচি ২.০ | লেখক : গুগল ডিপমাইন্ড

জেমা হলো গুগল ডিপমাইন্ড দ্বারা নির্মিত ওপেন মডেলের একটি পরিবার। জেমা ৪ মডেলগুলো মাল্টিমোডাল, যা টেক্সট এবং ইমেজ ইনপুট গ্রহণ করতে পারে (ছোট মডেলগুলোতে অডিও সমর্থিত) এবং টেক্সট আউটপুট তৈরি করে। এই রিলিজে প্রি-ট্রেইনড এবং ইনস্ট্রাকশন-টিউনড উভয় ভ্যারিয়েন্টের ওপেন-ওয়েটস মডেল অন্তর্ভুক্ত রয়েছে। জেমা ৪-এ ২৫৬ হাজার টোকেন পর্যন্ত একটি কনটেক্সট উইন্ডো রয়েছে এবং এটি ১৪০টিরও বেশি ভাষায় বহুভাষিক সমর্থন বজায় রাখে।

ডেন্স এবং মিক্সচার-অফ-এক্সপার্টস (MoE) উভয় আর্কিটেকচার থাকায়, জেমা ৪ টেক্সট জেনারেশন, কোডিং এবং রিজনিং-এর মতো কাজের জন্য বিশেষভাবে উপযুক্ত। মডেলগুলো চারটি ভিন্ন আকারে পাওয়া যায়: E2B , E4B , 26B A4B এবং 31B । এদের বিভিন্ন আকারের কারণে এগুলো হাই-এন্ড ফোন থেকে শুরু করে ল্যাপটপ এবং সার্ভারের মতো পরিবেশে স্থাপনযোগ্য, যা সর্বাধুনিক এআই-এর ব্যবহারকে সকলের জন্য সহজলভ্য করে তোলে।

জেমা ৪-এ নিম্নলিখিত প্রধান সক্ষমতা এবং স্থাপত্যগত উন্নয়নগুলো প্রবর্তন করা হয়েছে:

  • যুক্তি – এই সিরিজের সমস্ত মডেলই কনফিগারযোগ্য চিন্তন মোড সহ অত্যন্ত সক্ষম যুক্তিবাদী হিসেবে ডিজাইন করা হয়েছে।

  • বর্ধিত মাল্টিমোডালিটি – টেক্সট, পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ও রেজোলিউশন সমর্থনসহ ছবি (সকল মডেলে), ভিডিও এবং অডিও প্রসেস করে (যা E2B এবং E4B মডেলে স্বাভাবিকভাবেই রয়েছে)।

  • বৈচিত্র্যময় ও কার্যকর আর্কিটেকচার – পরিবর্ধনযোগ্য স্থাপনার জন্য বিভিন্ন আকারের ডেন্স এবং মিক্সচার-অফ-এক্সপার্টস (MoE) ভ্যারিয়েন্ট প্রদান করে।

  • ডিভাইসে ব্যবহারের জন্য বিশেষভাবে তৈরি – ছোট মডেলগুলো ল্যাপটপ ও মোবাইল ডিভাইসে দক্ষতার সাথে স্থানীয়ভাবে চালানোর জন্য বিশেষভাবে ডিজাইন করা হয়েছে।

  • বর্ধিত কনটেক্সট উইন্ডো – ছোট মডেলগুলিতে একটি ১২৮কেবি কনটেক্সট উইন্ডো রয়েছে, যেখানে মাঝারি মডেলগুলি ২৫৬কেবি সমর্থন করে।

  • উন্নত কোডিং ও এজেন্টিক সক্ষমতা – নেটিভ ফাংশন-কলিং সমর্থনের পাশাপাশি কোডিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি সাধন করে, যা অত্যন্ত সক্ষম স্বায়ত্তশাসিত এজেন্টদের শক্তি জোগায়।

  • নেটিভ সিস্টেম প্রম্পট সাপোর্ট – জেমা ৪ system রোলের জন্য নেটিভ সাপোর্ট চালু করেছে, যা আরও সুসংগঠিত এবং নিয়ন্ত্রণযোগ্য কথোপকথন সম্ভব করে তোলে।

মডেলগুলির সংক্ষিপ্ত বিবরণ

জেমা ৪ মডেলগুলো প্রতিটি আকারে অত্যাধুনিক পারফরম্যান্স প্রদানের জন্য ডিজাইন করা হয়েছে, যা মোবাইল ও এজ ডিভাইস (E2B, E4B) থেকে শুরু করে কনজিউমার জিপিইউ এবং ওয়ার্কস্টেশন (26B A4B, 31B) পর্যন্ত বিভিন্ন ডেপ্লয়মেন্ট সিনারিওকে লক্ষ্য করে তৈরি। এগুলো রিজনিং, এজেন্টিক ওয়ার্কফ্লো, কোডিং এবং মাল্টিমোডাল আন্ডারস্ট্যান্ডিং-এর জন্য বিশেষভাবে উপযোগী।

এই মডেলগুলিতে একটি হাইব্রিড অ্যাটেনশন মেকানিজম ব্যবহার করা হয়, যা লোকাল স্লাইডিং উইন্ডো অ্যাটেনশনের সাথে ফুল গ্লোবাল অ্যাটেনশনকে পর্যায়ক্রমে সাজিয়ে রাখে এবং নিশ্চিত করে যে চূড়ান্ত স্তরটি সর্বদা গ্লোবাল থাকে। এই হাইব্রিড ডিজাইনটি জটিল ও দীর্ঘ-প্রসঙ্গের কাজগুলির জন্য প্রয়োজনীয় গভীর সচেতনতা বজায় রেখেই একটি লাইটওয়েট মডেলের মতো দ্রুত প্রসেসিং এবং কম মেমরি ব্যবহারের সুবিধা প্রদান করে। দীর্ঘ প্রসঙ্গের জন্য মেমরি অপ্টিমাইজ করতে, গ্লোবাল স্তরগুলিতে একীভূত কী (Key) এবং ভ্যালু (Value) ব্যবহার করা হয় এবং প্রোপোরশনাল RoPE (p-RoPE) প্রয়োগ করা হয়।

ঘন মডেল

সম্পত্তি ই২বি E4B 31B ঘন
মোট পরামিতি ২.৩ বিলিয়ন কার্যকরী (এম্বেডিং সহ ৫.১ বিলিয়ন) ৪.৫ বিলিয়ন কার্যকরী (এম্বেডিং সহ ৮ বিলিয়ন) ৩০.৭ বিলিয়ন
স্তর ৩৫ ৪২ ৬০
স্লাইডিং জানালা ৫১২টি টোকেন ৫১২টি টোকেন ১০২৪টি টোকেন
প্রসঙ্গের দৈর্ঘ্য ১২৮ হাজার টোকেন ১২৮ হাজার টোকেন ২৫৬ হাজার টোকেন
শব্দভান্ডার আকার ২৬২ হাজার ২৬২ হাজার ২৬২ হাজার
সমর্থিত পদ্ধতি লেখা, ছবি, অডিও লেখা, ছবি, অডিও লেখা, ছবি
ভিশন এনকোডার প্যারামিটার ~১৫০ মিলিয়ন ~১৫০ মিলিয়ন ~৫৫০ মিলিয়ন
অডিও এনকোডার প্যারামিটার ~৩০০ মিলিয়ন ~৩০০ মিলিয়ন কোন অডিও নেই

E2B এবং E4B-এর "E" অক্ষরটি "কার্যকরী" প্যারামিটার বোঝায়। ছোট মডেলগুলোতে ডিভাইসে স্থাপনের ক্ষেত্রে প্যারামিটারের কার্যকারিতা সর্বোচ্চ করার জন্য পার-লেয়ার এমবেডিংস (PLE) অন্তর্ভুক্ত করা হয়। মডেলে আরও লেয়ার বা প্যারামিটার যোগ করার পরিবর্তে, PLE প্রতিটি টোকেনের জন্য প্রত্যেক ডিকোডার লেয়ারকে তার নিজস্ব একটি ছোট এমবেডিং প্রদান করে। এই এমবেডিং টেবিলগুলো আকারে বড় হলেও শুধুমাত্র দ্রুত অনুসন্ধানের জন্য ব্যবহৃত হয়, যে কারণে কার্যকরী প্যারামিটারের সংখ্যা মোট সংখ্যার চেয়ে অনেক কম।

বিশেষজ্ঞদের মিশ্রণ (MoE) মডেল

সম্পত্তি ২৬বি এ৪বি শিক্ষা মন্ত্রণালয়
মোট পরামিতি ২৫.২ বিলিয়ন
সক্রিয় প্যারামিটার ৩.৮ বিলিয়ন
স্তর ৩০
স্লাইডিং জানালা ১০২৪টি টোকেন
প্রসঙ্গের দৈর্ঘ্য ২৫৬ হাজার টোকেন
শব্দভান্ডার আকার ২৬২ হাজার
বিশেষজ্ঞ গণনা ৮টি সক্রিয় / মোট ১২৮টি এবং ১টি শেয়ার করা
সমর্থিত পদ্ধতি লেখা, ছবি
ভিশন এনকোডার প্যারামিটার ~৫৫০ মিলিয়ন

26B A4B-এর "A" অক্ষরটি "অ্যাক্টিভ প্যারামিটার" বোঝায়, যা মডেলটিতে থাকা মোট প্যারামিটার সংখ্যার বিপরীত। ইনফারেন্সের সময় শুধুমাত্র 4B প্যারামিটারের একটি উপসেট সক্রিয় করার মাধ্যমে, মিক্সচার-অফ-এক্সপার্টস মডেলটি তার 26B মোট সংখ্যার তুলনায় অনেক দ্রুত চলে। এটি ডেন্স 31B মডেলের তুলনায় দ্রুত ইনফারেন্সের জন্য এটিকে একটি চমৎকার পছন্দ করে তোলে, কারণ এটি প্রায় একটি 4B-প্যারামিটার মডেলের মতোই দ্রুত চলে।

বেঞ্চমার্ক ফলাফল

টেক্সট জেনারেশনের বিভিন্ন দিক তুলে ধরার জন্য এই মডেলগুলোকে বিপুল সংখ্যক ভিন্ন ভিন্ন ডেটাসেট ও মেট্রিক্সের ভিত্তিতে মূল্যায়ন করা হয়েছিল। সারণিতে চিহ্নিত মূল্যায়নের ফলাফলগুলো নির্দেশনা-সমন্বিত মডেলগুলোর জন্য প্রযোজ্য।

জেমা ৪ ৩১বি জেমা ৪ ২৬বি এ৪বি জেমা ৪ ই৪বি জেমা ৪ ই২বি জেমা ৩ ২৭বি (চিন্তা নেই)
এমএমএলইউ প্রো ৮৫.২% ৮২.৬% ৬৯.৪% ৬০.০% ৬৭.৬%
AIME 2026 কোন সরঞ্জাম নেই ৮৯.২% ৮৮.৩% ৪২.৫% ৩৭.৫% ২০.৮%
লাইভকোডবেঞ্চ ভি৬ ৮০.০% ৭৭.১% ৫২.০% ৪৪.০% ২৯.১%
কোডফোর্সেস ইএলও ২১৫০ ১৭১৮ ৯৪০ ৬৩৩ ১১০
জিপিকিউএ ডায়মন্ড ৮৪.৩% ৮২.৩% ৫৮.৬% ৪৩.৪% ৪২.৪%
টাউ২ (৩ এর গড়) ৭৬.৯% ৬৮.২% ৪২.২% ২৪.৫% ১৬.২%
HLE কোন সরঞ্জাম নেই ১৯.৫% ৮.৭% - - -
HLE অনুসন্ধান সহ ২৬.৫% ১৭.২% - - -
বিগবেঞ্চ এক্সট্রা হার্ড ৭৪.৪% ৬৪.৮% ৩৩.১% ২১.৯% ১৯.৩%
এমএমএমএলইউ ৮৮.৪% ৮৬.৩% ৭৬.৬% ৬৭.৪% ৭০.৭%
দৃষ্টি
এমএমএমইউ প্রো ৭৬.৯% ৭৩.৮% ৫২.৬% ৪৪.২% ৪৯.৭%
OmniDocBench 1.5 (গড় সম্পাদনা দূরত্ব, কম হলে ভালো) ০.১৩১ ০.১৪৯ ০.১৮১ ০.২৯০ ০.৩৬৫
গণিত-দৃষ্টি ৮৫.৬% ৮২.৪% ৫৯.৫% ৫২.৪% ৪৬.০%
মেডএক্সপার্টকিউএ এমএম ৬১.৩% ৫৮.১% ২৮.৭% ২৩.৫% -
অডিও
কোভোএসটি - - ৩৫.৫৪ ৩৩.৪৭ -
ফ্লেউরস (কম হলে ভালো) - - ০.০৮ ০.০৯ -
দীর্ঘ প্রেক্ষাপট
এমআরসিআর ভি২ ৮ নিডল ১২৮কে (গড়) ৬৬.৪% ৪৪.১% ২৫.৪% ১৯.১% ১৩.৫%

মূল সক্ষমতা

জেমা ৪ মডেলগুলো টেক্সট, ভিশন এবং অডিও জুড়ে বিস্তৃত পরিসরের কাজ পরিচালনা করে। এর প্রধান সক্ষমতাগুলোর মধ্যে রয়েছে:

  • চিন্তা – অন্তর্নির্মিত যুক্তি পদ্ধতি যা মডেলটিকে উত্তর দেওয়ার আগে ধাপে ধাপে চিন্তা করতে দেয়।
  • লং কনটেক্সট – সর্বোচ্চ ১২৮কে টোকেন (ই২বি/ই৪বি) এবং ২৫৬কে টোকেন (২৬বি এ৪বি/৩১বি) পর্যন্ত কনটেক্সট উইন্ডো।
  • ইমেজ আন্ডারস্ট্যান্ডিং – অবজেক্ট ডিটেকশন, ডকুমেন্ট/পিডিএফ পার্সিং, স্ক্রিন ও ইউআই আন্ডারস্ট্যান্ডিং, চার্ট কম্প্রিহেনশন, ওসিআর (বহুভাষিক সহ), হস্তাক্ষর শনাক্তকরণ, এবং পয়েন্টিং। ইমেজ বিভিন্ন অ্যাস্পেক্ট রেশিও এবং রেজোলিউশনে প্রসেস করা যায়।
  • ভিডিও অনুধাবন – ফ্রেমের অনুক্রম প্রক্রিয়াকরণের মাধ্যমে ভিডিও বিশ্লেষণ করা।
  • আন্তঃমিশ্রিত বহুমাধ্যম ইনপুট – একটিমাত্র প্রম্পটের মধ্যে যেকোনো ক্রমে টেক্সট এবং ছবি অবাধে মেশান।
  • ফাংশন কলিং – কাঠামোগত টুল ব্যবহারের জন্য নেটিভ সাপোর্ট, যা এজেন্টিক ওয়ার্কফ্লো সক্ষম করে।
  • কোডিং – কোড তৈরি, সম্পূর্ণকরণ এবং সংশোধন।
  • বহুভাষিক – ৩৫টিরও বেশি ভাষার জন্য বিল্ট-ইন সাপোর্ট, ১৪০টিরও বেশি ভাষায় প্রি-ট্রেইনড।
  • অডিও (শুধুমাত্র E2B এবং E4B-এর জন্য) – স্বয়ংক্রিয় কথন শনাক্তকরণ (ASR) এবং একাধিক ভাষায় কথন থেকে অনূদিত পাঠ্যে অনুবাদ।

শুরু করা

আপনি Transformers-এর সর্বশেষ সংস্করণের সাথে সমস্ত Gemma 4 মডেল ব্যবহার করতে পারবেন। শুরু করার জন্য, আপনার পরিবেশে প্রয়োজনীয় ডিপেন্ডেন্সিগুলো ইনস্টল করুন:

pip install -U transformers torch accelerate

সবকিছু ইনস্টল হয়ে গেলে, আপনি নিচের কোডটি ব্যবহার করে মডেলটি লোড করতে পারেন:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

মডেলটি লোড হয়ে গেলে, আপনি আউটপুট তৈরি করা শুরু করতে পারেন:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

যুক্তি প্রয়োগ সক্ষম করতে, enable_thinking=True সেট করুন এবং parse_response ফাংশনটি চিন্তার আউটপুট পার্স করার কাজটি করবে।

সর্বোত্তম অনুশীলন

সর্বোত্তম পারফরম্যান্সের জন্য, এই কনফিগারেশন এবং সেরা অনুশীলনগুলি ব্যবহার করুন:

১. নমুনা পরামিতি

সকল ব্যবহারের ক্ষেত্রে নিম্নলিখিত প্রমিত নমুনা বিন্যাসটি ব্যবহার করুন:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

২. চিন্তার ধরণ কনফিগারেশন

জেমা ৩-এর তুলনায়, মডেলগুলো সাধারণ system , assistant এবং user রোল ব্যবহার করে। চিন্তন প্রক্রিয়াটি সঠিকভাবে পরিচালনা করার জন্য, নিম্নলিখিত কন্ট্রোল টোকেনগুলো ব্যবহার করুন:

  • চিন্তা সক্রিয় করা: সিস্টেম প্রম্পটের শুরুতে <|think|> টোকেনটি অন্তর্ভুক্ত করার মাধ্যমে চিন্তা সক্রিয় করা হয়। চিন্তা নিষ্ক্রিয় করতে, টোকেনটি সরিয়ে ফেলুন।
  • স্ট্যান্ডার্ড জেনারেশন: যখন চিন্তাভাবনা সক্রিয় করা হয়, তখন মডেলটি তার অভ্যন্তরীণ যুক্তি এবং তারপরে এই কাঠামো ব্যবহার করে চূড়ান্ত উত্তরটি আউটপুট করবে: <|channel>thought\n [Internal reasoning] <channel|>
  • নিষ্ক্রিয় চিন্তন আচরণ: E2B এবং E4B ভ্যারিয়েন্ট ব্যতীত অন্য সকল মডেলের ক্ষেত্রে, যদি চিন্তন নিষ্ক্রিয় করা থাকে, মডেলটি ট্যাগগুলি তৈরি করবে ঠিকই কিন্তু একটি খালি থট ব্লক সহ: <|channel>thought\n<channel|> [চূড়ান্ত উত্তর]

উল্লেখ্য যে, Transformers এবং llama.cpp-এর মতো অনেক লাইব্রেরি আপনার জন্য চ্যাট টেমপ্লেটের জটিলতাগুলো সামলে নেয়।

৩. একাধিক পালায় কথোপকথন

  • ইতিহাসে কোনো চিন্তামূলক বিষয়বস্তু নয় : একাধিক পালাবিশিষ্ট কথোপকথনে, ঐতিহাসিক মডেলের আউটপুটে শুধুমাত্র চূড়ান্ত উত্তরটি অন্তর্ভুক্ত থাকবে। পরবর্তী ব্যবহারকারীর পালা শুরু হওয়ার আগে পূর্ববর্তী মডেলের পালার কোনো চিন্তা যোগ করা যাবে না

৪. মোডালিটি ক্রম

  • মাল্টিমোডাল ইনপুটের সাথে সর্বোত্তম পারফরম্যান্সের জন্য, আপনার প্রম্পটে টেক্সটের আগে ছবি এবং/অথবা অডিও কন্টেন্ট রাখুন।

৫. পরিবর্তনশীল ছবির রেজোলিউশন

পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ছাড়াও, জেমা ৪ একটি কনফিগারযোগ্য ভিজ্যুয়াল টোকেন বাজেটের মাধ্যমে পরিবর্তনশীল ইমেজ রেজোলিউশন সমর্থন করে, যা একটি ইমেজকে উপস্থাপন করতে কতগুলো টোকেন ব্যবহৃত হবে তা নিয়ন্ত্রণ করে। একটি উচ্চতর টোকেন বাজেট অতিরিক্ত কম্পিউটের বিনিময়ে আরও বেশি ভিজ্যুয়াল ডিটেইল সংরক্ষণ করে, অন্যদিকে একটি নিম্ন বাজেট এমন কাজগুলোর জন্য দ্রুততর ইনফারেন্স সক্ষম করে যেগুলোর জন্য সূক্ষ্ম বোঝার প্রয়োজন হয় না।

  • সমর্থিত টোকেন বাজেটগুলো হলো: ৭০ , ১৪০ , ২৮০ , ৫৬০ এবং ১১২০
    • শ্রেণীবিভাগ, ক্যাপশনিং বা ভিডিও বোঝার জন্য কম বাজেট ব্যবহার করুন, যেখানে দ্রুততর অনুমান এবং অনেক ফ্রেম প্রক্রিয়াকরণ সূক্ষ্ম বিবরণের চেয়ে বেশি গুরুত্বপূর্ণ।
    • OCR, ডকুমেন্ট পার্সিং বা ছোট লেখা পড়ার মতো কাজের জন্য বেশি বাজেট ব্যবহার করুন।

৬. অডিও

অডিও প্রক্রিয়াকরণের জন্য নিম্নলিখিত প্রম্পট কাঠামো ব্যবহার করুন:

  • অডিও স্পিচ রিকগনিশন (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • স্বয়ংক্রিয় বক্তৃতা অনুবাদ (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

৭. অডিও এবং ভিডিওর দৈর্ঘ্য

সমস্ত মডেলই ইমেজ ইনপুট সমর্থন করে এবং ভিডিওকে ফ্রেম হিসেবে প্রসেস করতে পারে, অন্যদিকে E2B এবং E4B মডেলগুলি অডিও ইনপুটও সমর্থন করে। অডিওর সর্বোচ্চ দৈর্ঘ্য ৩০ সেকেন্ড। ভিডিও সর্বোচ্চ ৬০ সেকেন্ড পর্যন্ত সমর্থন করে, যদি ইমেজগুলি প্রতি সেকেন্ডে একটি ফ্রেমে প্রসেস করা হয়।

মডেল ডেটা

মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং ডেটা প্রক্রিয়াকরণ পদ্ধতি।

প্রশিক্ষণ ডেটাসেট

আমাদের প্রি-ট্রেনিং ডেটাসেটটি হলো বিভিন্ন ডোমেইন ও মোডালিটি জুড়ে থাকা ডেটার একটি বৃহৎ ও বৈচিত্র্যময় সংগ্রহ, যার মধ্যে রয়েছে ওয়েব ডকুমেন্ট, কোড, ছবি, অডিও এবং এর কাট-অফ তারিখ হলো জানুয়ারি ২০২৫। এর মূল উপাদানগুলো হলো:

  • ওয়েব ডকুমেন্ট : ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ মডেলটিকে বিস্তৃত পরিসরের ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের সংস্পর্শে আনে। প্রশিক্ষণ ডেটাসেটটিতে ১৪০টিরও বেশি ভাষার কন্টেন্ট অন্তর্ভুক্ত রয়েছে।
  • কোড : মডেলকে কোডের সংস্পর্শে আনলে তা প্রোগ্রামিং ভাষার সিনট্যাক্স ও প্যাটার্ন শিখতে পারে, যা তার কোড তৈরি করার এবং কোড-সম্পর্কিত প্রশ্ন বোঝার ক্ষমতা উন্নত করে।
  • গণিত : গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।
  • ছবি : বিভিন্ন ধরনের ছবি মডেলটিকে চিত্র বিশ্লেষণ এবং দৃশ্যমান তথ্য নিষ্কাশনের কাজ সম্পাদন করতে সক্ষম করে।

বিভিন্ন ধরনের কাজ ও ডেটা ফরম্যাট সামলাতে সক্ষম একটি শক্তিশালী মাল্টিমোডাল মডেল প্রশিক্ষণের জন্য এই বৈচিত্র্যময় ডেটা উৎসগুলোর সমন্বয় অত্যন্ত গুরুত্বপূর্ণ।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটার উপর প্রয়োগ করা প্রধান ডেটা পরিষ্কারকরণ এবং ফিল্টারিং পদ্ধতিগুলো নিচে দেওয়া হলো:

  • সিএসএএম ফিল্টারিং : ক্ষতিকর এবং অবৈধ বিষয়বস্তু বাদ দেওয়া নিশ্চিত করার জন্য ডেটা প্রস্তুতি প্রক্রিয়ার একাধিক পর্যায়ে কঠোর সিএসএএম (শিশু যৌন নির্যাতনমূলক সামগ্রী) ফিল্টারিং প্রয়োগ করা হয়েছিল।
  • সংবেদনশীল ডেটা ফিল্টারিং : জেমা প্রি-ট্রেইনড মডেলগুলোকে নিরাপদ ও নির্ভরযোগ্য করার অংশ হিসেবে, ট্রেনিং সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করে বাদ দেওয়ার জন্য স্বয়ংক্রিয় কৌশল ব্যবহার করা হয়েছিল।
  • অতিরিক্ত পদ্ধতি : আমাদের নীতিমালা অনুযায়ী বিষয়বস্তুর গুণমান ও নিরাপত্তার ভিত্তিতে পরিস্রাবণ।

নৈতিকতা এবং নিরাপত্তা

এন্টারপ্রাইজ অবকাঠামোতে ওপেন মডেলগুলো কেন্দ্রীয় ভূমিকা পালন করায়, তথ্যের উৎস এবং নিরাপত্তা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। গুগল ডিপমাইন্ড দ্বারা তৈরি জেমা ৪, আমাদের নিজস্ব জেমিনি মডেলগুলোর মতোই একই কঠোর নিরাপত্তা মূল্যায়নের মধ্য দিয়ে যায়।

মূল্যায়ন পদ্ধতি

জেমা ৪ মডেলগুলো অভ্যন্তরীণ নিরাপত্তা এবং দায়িত্বশীল এআই টিমের সাথে অংশীদারিত্বের ভিত্তিতে তৈরি করা হয়েছে। মডেলের নিরাপত্তা উন্নত করার জন্য বিভিন্ন ধরনের স্বয়ংক্রিয় এবং মানব-পরিচালিত মূল্যায়ন করা হয়েছে। এই মূল্যায়নগুলো গুগলের এআই নীতিমালা এবং নিরাপত্তা নীতিমালার সাথে সামঞ্জস্যপূর্ণ, যার লক্ষ্য হলো আমাদের জেনারেটিভ এআই মডেলগুলোকে ক্ষতিকর বিষয়বস্তু তৈরি করা থেকে বিরত রাখা, যার মধ্যে অন্তর্ভুক্ত রয়েছে:

  • শিশু যৌন নির্যাতন সামগ্রী এবং শোষণ সম্পর্কিত বিষয়বস্তু
  • বিপজ্জনক বিষয়বস্তু (যেমন, আত্মহত্যার প্রচার, বা এমন কোনো কাজের নির্দেশ দেওয়া যা বাস্তব জীবনে ক্ষতি করতে পারে)
  • যৌনতাপূর্ণ বিষয়বস্তু
  • বিদ্বেষমূলক বক্তব্য (যেমন, সংরক্ষিত গোষ্ঠীর সদস্যদের অমানবিকীকরণ)
  • হয়রানি (যেমন, মানুষের বিরুদ্ধে সহিংসতায় উসকানি দেওয়া)

মূল্যায়ন ফলাফল

নিরাপত্তা পরীক্ষার সমস্ত ক্ষেত্রে, আমরা পূর্ববর্তী জেমা মডেলগুলোর তুলনায় কন্টেন্ট নিরাপত্তার সকল বিভাগে উল্লেখযোগ্য উন্নতি দেখেছি। সামগ্রিকভাবে, জেমা ৪ মডেলগুলো নিরাপত্তা উন্নত করার ক্ষেত্রে জেমা ৩ এবং ৩এন মডেলগুলোকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে, এবং একই সাথে অযৌক্তিক প্রত্যাখ্যানের হারও কম রেখেছে। মডেলের সক্ষমতা ও আচরণ মূল্যায়ন করার জন্য সমস্ত পরীক্ষা কোনো নিরাপত্তা ফিল্টার ছাড়াই পরিচালিত হয়েছিল। টেক্সট-টু-টেক্সট এবং ইমেজ-টু-টেক্সট উভয় ক্ষেত্রেই, এবং সকল মডেল সাইজ জুড়ে, মডেলটি ন্যূনতম পলিসি লঙ্ঘন করেছে এবং পূর্ববর্তী জেমা মডেলগুলোর পারফরম্যান্সের তুলনায় উল্লেখযোগ্য উন্নতি দেখিয়েছে।

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলোর কিছু সীমাবদ্ধতা রয়েছে, যেগুলো সম্পর্কে ব্যবহারকারীদের অবগত থাকা উচিত।

উদ্দিষ্ট ব্যবহার

মাল্টিমোডাল মডেল (যা দৃষ্টি, ভাষা এবং/অথবা অডিও প্রক্রিয়াকরণে সক্ষম) বিভিন্ন শিল্প ও ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়। সম্ভাব্য ব্যবহারের নিম্নলিখিত তালিকাটি সম্পূর্ণ নয়। এই তালিকার উদ্দেশ্য হলো সেইসব সম্ভাব্য ব্যবহার-ক্ষেত্র সম্পর্কে প্রাসঙ্গিক তথ্য প্রদান করা, যা মডেল নির্মাতারা মডেল প্রশিক্ষণ ও উন্নয়নের অংশ হিসেবে বিবেচনা করেছিলেন।

  • বিষয়বস্তু তৈরি এবং যোগাযোগ
    • টেক্সট তৈরি : এই মডেলগুলো কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফটের মতো সৃজনশীল টেক্সট ফরম্যাট তৈরি করতে ব্যবহার করা যেতে পারে।
    • চ্যাটবট ও কথোপকথনমূলক এআই : গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনের জন্য কথোপকথনমূলক ইন্টারফেসকে শক্তিশালী করে।
    • পাঠ্য সারাংশ : কোনো পাঠ্য সংকলন, গবেষণাপত্র বা প্রতিবেদনের সংক্ষিপ্ত সার তৈরি করুন।
    • চিত্র থেকে তথ্য নিষ্কাশন : এই মডেলগুলো লিখিত যোগাযোগের জন্য দৃশ্যমান তথ্য নিষ্কাশন, ব্যাখ্যা এবং সংক্ষিপ্ত করতে ব্যবহার করা যেতে পারে।
    • অডিও প্রক্রিয়াকরণ এবং মিথস্ক্রিয়া : ছোট মডেলগুলো (E2B এবং E4B) অডিও ইনপুট বিশ্লেষণ ও ব্যাখ্যা করতে পারে, যার ফলে কণ্ঠ-চালিত মিথস্ক্রিয়া এবং প্রতিলিপি তৈরি করা সম্ভব হয়।
  • গবেষণা ও শিক্ষা
    • প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) এবং ভিএলএম গবেষণা : এই মডেলগুলো গবেষকদের ভিএলএম ও এনএলপি কৌশল নিয়ে পরীক্ষা-নিরীক্ষা করতে, অ্যালগরিদম তৈরি করতে এবং এই ক্ষেত্রের অগ্রগতিতে অবদান রাখার জন্য একটি ভিত্তি হিসেবে কাজ করতে পারে।
    • ভাষা শেখার উপকরণ : ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতাকে সমর্থন করে, যা ব্যাকরণ সংশোধনে বা লেখার অনুশীলনে সহায়তা করে।
      • জ্ঞান অন্বেষণ : সারসংক্ষেপ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে গবেষকদের বিশাল পরিমাণ পাঠ্য অন্বেষণে সহায়তা করা।

সীমাবদ্ধতা

  • প্রশিক্ষণ ডেটা
    • প্রশিক্ষণ ডেটার গুণমান এবং বৈচিত্র্য মডেলের সক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণ ডেটার পক্ষপাত বা ঘাটতি মডেলের প্রতিক্রিয়ায় সীমাবদ্ধতা তৈরি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের পরিধি নির্ধারণ করে দেয় যে মডেলটি কোন কোন বিষয় কার্যকরভাবে পরিচালনা করতে পারবে।
  • প্রসঙ্গ এবং কাজের জটিলতা
    • যেসব কাজ স্পষ্ট ইঙ্গিত ও নির্দেশাবলী দিয়ে সাজানো যায়, মডেলরা সেগুলিতে ভালো পারফর্ম করে। অনির্দিষ্ট বা অত্যন্ত জটিল কাজ তাদের জন্য চ্যালেঞ্জিং হতে পারে।
    • একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রেক্ষাপটের পরিমাণ দ্বারা প্রভাবিত হতে পারে (একটি নির্দিষ্ট সীমা পর্যন্ত, দীর্ঘতর প্রেক্ষাপট সাধারণত উন্নততর ফলাফল প্রদান করে)।
  • ভাষার অস্পষ্টতা এবং সূক্ষ্মতা
    • স্বাভাবিক ভাষা স্বভাবতই জটিল। মডেলগুলো সূক্ষ্ম ভাবার্থ, ব্যঙ্গ বা আলঙ্কারিক ভাষা বুঝতে হিমশিম খেতে পারে।
  • তথ্যগত নির্ভুলতা
    • মডেলগুলো তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলো জ্ঞানভান্ডার নয়। সেগুলো ভুল বা সেকেলে তথ্যমূলক বিবৃতি তৈরি করতে পারে।
  • সাধারণ জ্ঞান
    • মডেলগুলো ভাষার পরিসংখ্যানগত বিন্যাসের উপর নির্ভর করে। নির্দিষ্ট কিছু পরিস্থিতিতে সাধারণ জ্ঞান প্রয়োগের ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেল (ভিএলএম)-এর বিকাশ বেশ কিছু নৈতিক উদ্বেগ সৃষ্টি করে। একটি উন্মুক্ত মডেল তৈরি করার ক্ষেত্রে, আমরা নিম্নলিখিত বিষয়গুলো সতর্কতার সাথে বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বৃহৎ পরিসরের বাস্তব টেক্সট এবং ইমেজ ডেটার উপর প্রশিক্ষিত ভিএলএম (VLM) মডেলগুলো প্রশিক্ষণ উপাদানে অন্তর্নিহিত সামাজিক-সাংস্কৃতিক পক্ষপাত প্রতিফলিত করতে পারে। এই কার্ডে উল্লিখিত প্রতিবেদন অনুযায়ী, এই পক্ষপাতগুলোর ঝুঁকি প্রশমিত করতে জেমা ৪ (Gemma 4) মডেলগুলো সতর্ক নিরীক্ষা, ইনপুট ডেটার প্রি-প্রসেসিং এবং প্রশিক্ষণ-পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • ভিএলএম-এর অপব্যবহারের মাধ্যমে মিথ্যা, বিভ্রান্তিকর বা ক্ষতিকর টেক্সট তৈরি করা যেতে পারে।
    • মডেলটির দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা দেওয়া আছে, ‘রেসপনসিবল জেনারেটিভ এআই টুলকিট’ দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটিতে মডেলগুলোর গঠন, সক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়া সম্পর্কে বিস্তারিত তথ্য সংক্ষেপে তুলে ধরা হয়েছে।
    • দায়িত্বশীলভাবে বিকশিত একটি উন্মুক্ত মডেল এআই ইকোসিস্টেম জুড়ে ডেভেলপার ও গবেষকদের কাছে ভিএলএম প্রযুক্তিকে সহজলভ্য করার মাধ্যমে উদ্ভাবন ভাগ করে নেওয়ার সুযোগ তৈরি করে।

চিহ্নিত ঝুঁকি এবং তার প্রতিকার :

  • ক্ষতিকর বিষয়বস্তু তৈরি : বিষয়বস্তুর সুরক্ষার জন্য পদ্ধতি ও নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্যের নীতিমালা ও অ্যাপ্লিকেশনের ব্যবহারের ক্ষেত্র অনুযায়ী উপযুক্ত বিষয়বস্তু সুরক্ষা ব্যবস্থা প্রয়োগ করতে উৎসাহিত করা হচ্ছে।
  • ক্ষতিকর উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং ডেভেলপার ও ব্যবহারকারীদের সচেতনতা বৃদ্ধি ভিএলএম-এর ক্ষতিকর প্রয়োগ প্রতিরোধ করতে সাহায্য করতে পারে। ব্যবহারকারীদের অপব্যবহার চিহ্নিত করার জন্য শিক্ষামূলক উপকরণ এবং অভিযোগ জানানোর ব্যবস্থা রয়েছে।
  • গোপনীয়তা লঙ্ঘন : কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল তথ্য অপসারণ করে ফিল্টার করা ডেটার উপর মডেলগুলোকে প্রশিক্ষণ দেওয়া হয়েছিল। ডেভেলপারদের গোপনীয়তা-সংরক্ষণকারী কৌশল ব্যবহার করে গোপনীয়তা বিধিমালা মেনে চলার জন্য উৎসাহিত করা হচ্ছে।
  • পক্ষপাতের বিস্তার : মডেল প্রশিক্ষণ, সূক্ষ্ম সমন্বয় এবং অন্যান্য ব্যবহারের ক্ষেত্রে ক্রমাগত পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স ও মানব পর্যালোচনার মাধ্যমে) এবং পক্ষপাত দূরীকরণের কৌশল অন্বেষণ করতে উৎসাহিত করা হয়।

সুবিধা

প্রকাশের সময়, এই মডেল পরিবারটি একই আকারের মডেলগুলোর তুলনায় দায়িত্বশীল এআই উন্নয়নের জন্য একেবারে গোড়া থেকে ডিজাইন করা উচ্চ-কর্মক্ষমতাসম্পন্ন ওপেন ভিশন-ল্যাঙ্গুয়েজ মডেল বাস্তবায়ন প্রদান করে।