জেমা 3 মডেল কার্ড

মডেল পৃষ্ঠা : Gemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন :

ব্যবহারের শর্তাবলী : শর্তাবলী

লেখকঃ গুগল ডিপমাইন্ড

মডেল তথ্য

সংক্ষিপ্ত বিবরণ এবং ইনপুট এবং আউটপুট সংক্ষিপ্ত সংজ্ঞা.

বর্ণনা

Gemma হল Google-এর লাইটওয়েট, অত্যাধুনিক ওপেন মডেলগুলির একটি পরিবার, যা একই গবেষণা এবং প্রযুক্তি থেকে তৈরি করা হয়েছে যা জেমিনি মডেলগুলি তৈরি করতে ব্যবহৃত হয়৷ Gemma 3 মডেলগুলি হল মাল্টিমোডাল, টেক্সট এবং ইমেজ ইনপুট পরিচালনা করে এবং টেক্সট আউটপুট তৈরি করে, প্রাক-প্রশিক্ষিত ভেরিয়েন্ট এবং ইন্সট্রাকশন-টিউনড ভেরিয়েন্ট উভয়ের জন্য খোলা ওজন সহ। Gemma 3 এর একটি বড়, 128K প্রসঙ্গ উইন্ডো রয়েছে, 140টিরও বেশি ভাষায় বহুভাষিক সমর্থন রয়েছে এবং এটি পূর্ববর্তী সংস্করণের চেয়ে বেশি আকারে উপলব্ধ। প্রশ্ন উত্তর, সংক্ষিপ্তকরণ এবং যুক্তি সহ বিভিন্ন পাঠ্য তৈরি এবং চিত্র বোঝার কাজগুলির জন্য Gemma 3 মডেলগুলি উপযুক্ত। তাদের তুলনামূলকভাবে ছোট আকার ল্যাপটপ, ডেস্কটপ বা আপনার নিজস্ব ক্লাউড অবকাঠামোর মতো সীমিত সংস্থান সহ পরিবেশে তাদের স্থাপন করা সম্ভব করে, অত্যাধুনিক এআই মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করে এবং প্রত্যেকের জন্য উদ্ভাবনকে উত্সাহিত করতে সহায়তা করে।

ইনপুট এবং আউটপুট

  • ইনপুট:

    • টেক্সট স্ট্রিং, যেমন একটি প্রশ্ন, একটি প্রম্পট, বা একটি নথি সংক্ষিপ্ত করা হবে
    • চিত্রগুলি, 896 x 896 রেজোলিউশনে স্বাভাবিক করা হয়েছে এবং প্রতিটি 256 টোকেনে এনকোড করা হয়েছে
    • 4B, 12B, এবং 27B আকারের জন্য 128K টোকেনের মোট ইনপুট প্রসঙ্গ এবং 1B আকারের জন্য 32K টোকেন
  • আউটপুট:

    • ইনপুটের প্রতিক্রিয়াতে তৈরি করা পাঠ্য, যেমন একটি প্রশ্নের উত্তর, চিত্রের বিষয়বস্তুর বিশ্লেষণ, বা একটি নথির সারাংশ
    • 4B, 12B, এবং 27B আকারের জন্য 128K টোকেন পর্যন্ত মোট আউটপুট প্রসঙ্গ এবং প্রতি অনুরোধে 1B আকারের জন্য 32K টোকেন, অনুরোধ ইনপুট টোকেনগুলি বিয়োগ করে

উদ্ধৃতি

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

মডেল ডেটা

মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং কীভাবে ডেটা প্রক্রিয়া করা হয়েছিল।

প্রশিক্ষণ ডেটাসেট

এই মডেলগুলিকে টেক্সট ডেটার একটি ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছিল যাতে বিভিন্ন ধরণের উত্স রয়েছে। 27B মডেলকে 14 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল, 12B মডেলকে 12 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষণ দেওয়া হয়েছিল, 4B মডেলকে 4 ট্রিলিয়ন টোকেন এবং 1B 2 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল। প্রশিক্ষণের ডেটার জ্ঞান কাটঅফ তারিখ ছিল আগস্ট 2024। এখানে মূল উপাদানগুলি রয়েছে:

  • ওয়েব ডকুমেন্টস: ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ নিশ্চিত করে যে মডেলটি ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের বিস্তৃত পরিসরে উন্মুক্ত হয়েছে। প্রশিক্ষণ ডেটাসেটে 140 টিরও বেশি ভাষায় সামগ্রী অন্তর্ভুক্ত রয়েছে।
  • কোড: কোডে মডেলটিকে প্রকাশ করা এটিকে প্রোগ্রামিং ভাষার সিনট্যাক্স এবং প্যাটার্ন শিখতে সাহায্য করে, যা কোড তৈরি করতে এবং কোড-সম্পর্কিত প্রশ্নগুলি বোঝার ক্ষমতাকে উন্নত করে।
  • গণিত: গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।
  • ছবি: চিত্রের বিস্তৃত পরিসর মডেলটিকে চিত্র বিশ্লেষণ এবং ভিজ্যুয়াল ডেটা নিষ্কাশন কার্য সম্পাদন করতে সক্ষম করে।

এই বৈচিত্র্যময় ডেটা উত্সগুলির সংমিশ্রণ একটি শক্তিশালী মাল্টিমডাল মডেলের প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ যা বিভিন্ন ধরণের বিভিন্ন কাজ এবং ডেটা ফর্ম্যাট পরিচালনা করতে পারে।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটাতে প্রয়োগ করা মূল ডেটা পরিষ্কার এবং ফিল্টারিং পদ্ধতিগুলি এখানে রয়েছে:

  • CSAM ফিল্টারিং: ক্ষতিকারক এবং অবৈধ বিষয়বস্তু বর্জন নিশ্চিত করার জন্য ডেটা প্রস্তুতির প্রক্রিয়ার একাধিক পর্যায়ে কঠোর CSAM (শিশু যৌন নির্যাতনের উপাদান) ফিল্টারিং প্রয়োগ করা হয়েছিল।
  • সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রাক-প্রশিক্ষিত মডেলগুলিকে নিরাপদ এবং নির্ভরযোগ্য করার অংশ হিসাবে, প্রশিক্ষণ সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করার জন্য স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করা হয়েছিল।
  • অতিরিক্ত পদ্ধতি: আমাদের নীতির সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

মডেল অভ্যন্তরীণ সম্পর্কে বিস্তারিত.

হার্ডওয়্যার

জেমাকে টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv4p, TPUv5p এবং TPUv5e) ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। ভিশন-ল্যাঙ্গুয়েজ মডেল (ভিএলএমএস) প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনা শক্তি প্রয়োজন। TPUs, বিশেষভাবে মেশিন লার্নিং-এ সাধারণ ম্যাট্রিক্স অপারেশনের জন্য ডিজাইন করা হয়েছে, এই ডোমেনে বেশ কিছু সুবিধা অফার করে:

  • কর্মক্ষমতা: TPU গুলি বিশেষভাবে VLM প্রশিক্ষণের সাথে জড়িত বিশাল গণনা পরিচালনা করার জন্য ডিজাইন করা হয়েছে। তারা সিপিইউ-এর তুলনায় প্রশিক্ষণের গতি বাড়াতে পারে।
  • মেমরি: টিপিইউগুলি প্রায়শই প্রচুর পরিমাণে উচ্চ-ব্যান্ডউইথ মেমরি নিয়ে আসে, যা প্রশিক্ষণের সময় বড় মডেল এবং ব্যাচের আকারগুলি পরিচালনা করার অনুমতি দেয়। এটি আরও ভাল মডেলের মানের দিকে নিয়ে যেতে পারে।
  • পরিমাপযোগ্যতা: TPU Pods (TPUs-এর বড় ক্লাস্টার) বড় ফাউন্ডেশন মডেলের ক্রমবর্ধমান জটিলতা মোকাবেলার জন্য একটি মাপযোগ্য সমাধান প্রদান করে। আপনি দ্রুত এবং আরও দক্ষ প্রক্রিয়াকরণের জন্য একাধিক TPU ডিভাইস জুড়ে প্রশিক্ষণ বিতরণ করতে পারেন।
  • খরচ-কার্যকারিতা: অনেক পরিস্থিতিতে, TPU গুলি CPU-ভিত্তিক পরিকাঠামোর তুলনায় বড় মডেলের প্রশিক্ষণের জন্য একটি বেশি সাশ্রয়ী সমাধান প্রদান করতে পারে, বিশেষ করে যখন দ্রুত প্রশিক্ষণের কারণে সময় এবং সংস্থান সংরক্ষণ করা হয়।
  • এই সুবিধাগুলি টেকসইভাবে কাজ করার জন্য Google-এর প্রতিশ্রুতিগুলির সাথে সামঞ্জস্যপূর্ণ।

সফটওয়্যার

JAX এবং ML পাথওয়ে ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়। ML Pathways হল একাধিক কাজ জুড়ে সাধারণীকরণ করতে সক্ষম কৃত্রিমভাবে বুদ্ধিমান সিস্টেম তৈরি করার জন্য Google এর সর্বশেষ প্রচেষ্টা। এটি ফাউন্ডেশন মডেলগুলির জন্য বিশেষভাবে উপযুক্ত, যার মধ্যে এইগুলির মতো বড় ভাষা মডেলগুলি রয়েছে৷

মডেলের মিথুন পরিবার সম্পর্কে কাগজে বর্ণিত হিসাবে JAX এবং ML পাথওয়ে একসাথে ব্যবহার করা হয়েছে; "জ্যাক্স এবং পাথওয়েজের 'একক নিয়ন্ত্রক' প্রোগ্রামিং মডেলটি একটি একক পাইথন প্রক্রিয়াকে সম্পূর্ণ প্রশিক্ষণের অর্কেস্ট্রেট করার অনুমতি দেয়, নাটকীয়ভাবে উন্নয়ন কর্মপ্রবাহকে সহজতর করে।"

মূল্যায়ন

মডেল মূল্যায়ন মেট্রিক্স এবং ফলাফল.

বেঞ্চমার্ক ফলাফল

পাঠ্য তৈরির বিভিন্ন দিক কভার করার জন্য এই মডেলগুলিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বৃহৎ সংগ্রহের বিরুদ্ধে মূল্যায়ন করা হয়েছিল। IT দিয়ে চিহ্নিত মূল্যায়ন ফলাফল নির্দেশ-সুরিত মডেলের জন্য। PT দিয়ে চিহ্নিত মূল্যায়ন ফলাফল প্রাক-প্রশিক্ষিত মডেলের জন্য।

যুক্তি এবং বাস্তবতা

বেঞ্চমার্ক n-শট Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
জিপিকিউএ ডায়মন্ড 0-শট 19.2 30.8 40.9 42.4
সরল QA 0-শট 2.2 4.0 6.3 10.0
FACTS গ্রাউন্ডিং - 36.4 70.1 75.8 74.9
বিগ-বেঞ্চ হার্ড 0-শট 39.1 72.2 ৮৫.৭ ৮৭.৬
বিগ-বেঞ্চ অতিরিক্ত হার্ড 0-শট 7.2 11.0 16.3 19.3
আইএফইভাল 0-শট 80.2 90.2 ৮৮.৯ 90.4
বেঞ্চমার্ক n-শট Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10-শট 62.3 77.2 ৮৪.২ ৮৫.৬
BoolQ 0-শট 63.2 72.3 78.8 ৮২.৪
PIQA 0-শট 73.8 79.6 ৮১.৮ ৮৩.৩
সোশ্যালআইকিউএ 0-শট 48.9 51.9 53.4 54.9
ট্রিভিয়াকিউএ 5-শট ৩৯.৮ ৬৫.৮ 78.2 ৮৫.৫
প্রাকৃতিক প্রশ্ন 5-শট ৯.৪৮ 20.0 31.4 36.1
ARC-গ 25-শট 38.4 56.2 ৬৮.৯ 70.6
ARC-ই 0-শট 73.0 ৮২.৪ ৮৮.৩ ৮৯.০
উইনোগ্রান্ডে 5-শট 58.2 64.7 74.3 78.8
বিগ-বেঞ্চ হার্ড কয়েক শট 28.4 50.9 72.6 77.7
ড্রপ 1-শট 42.4 60.1 72.2 77.2

স্টেম এবং কোড

বেঞ্চমার্ক n-শট Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (প্রো) 0-শট 14.7 43.6 60.6 67.5
লাইভকোডবেঞ্চ 0-শট 1.9 12.6 24.6 ২৯.৭
Bird-SQL (dev) - 6.4 36.3 47.9 54.4
গণিত 0-শট 48.0 75.6 ৮৩.৮ ৮৯.০
লুকানো ম্যাথ 0-শট 15.8 43.0 54.5 ৬০.৩
এমবিপিপি 3-শট 35.2 63.2 73.0 74.4
হিউম্যান ইভাল 0-শট 41.5 71.3 85.4 ৮৭.৮
প্রাকৃতিক 2 কোড 0-শট 56.0 70.3 80.7 ৮৪.৫
GSM8K 0-শট 62.8 ৮৯.২ 94.4 95.9
বেঞ্চমার্ক n-শট Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5-শট 59.6 74.5 78.6
MMLU (প্রো COT) 5-শট 29.2 45.3 52.2
AGIEval 3-5-শট 42.1 57.4 ৬৬.২
গণিত 4-শট 24.2 43.3 50.0
GSM8K 8-শট 38.4 71.0 ৮২.৬
জিপিকিউএ 5-শট 15.0 25.4 24.3
এমবিপিপি 3-শট 46.0 ৬০.৪ 65.6
হিউম্যান ইভাল 0-শট 36.0 ৪৫.৭ 48.8

বহুভাষিক

বেঞ্চমার্ক n-শট Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
গ্লোবাল-এমএমএলইউ-লাইট 0-শট 34.2 54.5 69.5 75.1
ECLeKTic 0-শট 1.4 4.6 10.3 16.7
WMT24++ 0-শট 35.9 46.8 51.6 53.4
বেঞ্চমার্ক Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
এমজিএসএম 2.04 34.7 64.3 74.3
গ্লোবাল-এমএমএলইউ-লাইট 24.9 57.0 69.4 75.7
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
ফ্লোরেস 29.5 ৩৯.২ 46.0 48.8
XQuAD (সমস্ত) 43.9 68.0 74.5 76.8
ECLeKTic ৪.৬৯ 11.0 17.2 24.4
ইন্ডিজেনবেঞ্চ 41.4 57.2 61.7 63.4

মাল্টিমডাল

বেঞ্চমার্ক Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48.8 59.6 64.9
ডকভিকিউএ 75.8 87.1 ৮৬.৬
ইনফোভিকিউএ 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 ৮৪.২ ৮৪.৫
চার্টকিউএ ৬৮.৮ 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (টেস্টমিনি) 50.0 62.9 67.6
বেঞ্চমার্ক Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
কোকোক্যাপ 102 111 116
DocVQA (val) 72.8 ৮২.৩ ৮৫.৬
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) ৩৯.২ 50.3 56.1
TextVQA (val) 58.9 ৬৬.৫ ৬৮.৬
রিয়েলওয়ার্ল্ডকিউএ 45.5 52.2 53.9
রিএমআই 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
চার্টকিউএ ৬৩.৬ 74.7 76.3
VQAv2 ৬৩.৯ 71.2 72.9
BLINK 38.0 35.9 39.6
ওকেভিকিউএ 51.0 58.7 ৬০.২
ট্যালিকিউএ 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0

নৈতিকতা এবং নিরাপত্তা

নৈতিকতা এবং নিরাপত্তা মূল্যায়ন পদ্ধতি এবং ফলাফল.

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

  • শিশু সুরক্ষা : পাঠ্য থেকে পাঠ্য এবং পাঠ্য থেকে চিত্রের মূল্যায়ন শিশু যৌন নির্যাতন এবং শোষণ সহ শিশু সুরক্ষা নীতিগুলিকে কভার করে।
  • বিষয়বস্তুর নিরাপত্তা: টেক্সট-টু-টেক্সট এবং ইমেজ টু টেক্সটের মূল্যায়ন, হয়রানি, সহিংসতা এবং ঘৃণ্য বক্তব্য সহ নিরাপত্তা নীতিগুলিকে কভার করে।
  • প্রতিনিধিত্বমূলক ক্ষতি : টেক্সট থেকে টেক্সট এবং ইমেজ টু টেক্সটের মূল্যায়ন পক্ষপাত, স্টেরিওটাইপিং, এবং ক্ষতিকারক সমিতি বা ভুল সহ নিরাপত্তা নীতিগুলিকে কভার করে।

উন্নয়ন স্তরের মূল্যায়নের পাশাপাশি, আমরা "আশ্বাস মূল্যায়ন" পরিচালনা করি যা দায়িত্ব পরিচালনার সিদ্ধান্ত গ্রহণের জন্য আমাদের 'আর্ম-দৈর্ঘ্য' অভ্যন্তরীণ মূল্যায়ন। তারা মডেল ডেভেলপমেন্ট টিম থেকে আলাদাভাবে পরিচালিত হয়, মুক্তির বিষয়ে সিদ্ধান্ত নেওয়ার জন্য জানানোর জন্য। উচ্চ স্তরের ফলাফলগুলি মডেল টিমের কাছে ফেরত দেওয়া হয়, তবে অতিরিক্ত ফিটিং প্রতিরোধ করতে এবং সিদ্ধান্ত গ্রহণের বিষয়ে ফলাফলের ক্ষমতা সংরক্ষণের জন্য প্রম্পট সেটগুলি রাখা হয়। রিলিজ পর্যালোচনার অংশ হিসাবে নিশ্চয়তা মূল্যায়ন ফলাফল আমাদের দায়িত্ব ও নিরাপত্তা পরিষদে রিপোর্ট করা হয়।

মূল্যায়ন ফলাফল

নিরাপত্তা পরীক্ষার সমস্ত ক্ষেত্রে, আমরা পূর্ববর্তী জেমা মডেলগুলির তুলনায় শিশু সুরক্ষা, বিষয়বস্তু সুরক্ষা এবং প্রতিনিধিত্বমূলক ক্ষতির বিভাগে বড় উন্নতি দেখেছি। মডেল ক্ষমতা এবং আচরণের মূল্যায়ন করার জন্য সমস্ত পরীক্ষা নিরাপত্তা ফিল্টার ছাড়াই পরিচালিত হয়েছিল। টেক্সট-টু-টেক্সট এবং ইমেজ-টু-টেক্সট উভয়ের জন্য, এবং সমস্ত মডেল মাপ জুড়ে, মডেলটি ন্যূনতম নীতি লঙ্ঘন করেছে, এবং ভিত্তিহীন অনুমানগুলির ক্ষেত্রে পূর্ববর্তী জেমা মডেলগুলির কার্যকারিতার তুলনায় উল্লেখযোগ্য উন্নতি দেখায়। আমাদের মূল্যায়নের একটি সীমাবদ্ধতা ছিল তারা শুধুমাত্র ইংরেজি ভাষার প্রম্পট অন্তর্ভুক্ত করে।

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত।

উদ্দেশ্য ব্যবহার

ওপেন ভিশন-ল্যাঙ্গুয়েজ মডেল (VLMs) মডেলের বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

  • বিষয়বস্তু তৈরি এবং যোগাযোগ
    • টেক্সট জেনারেশন: এই মডেলগুলি কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফ্টের মতো সৃজনশীল পাঠ্য বিন্যাস তৈরি করতে ব্যবহার করা যেতে পারে।
    • চ্যাটবট এবং কথোপকথনমূলক এআই: গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী কথোপকথনমূলক ইন্টারফেস।
    • টেক্সট সামারাইজেশন: টেক্সট কর্পাস, রিসার্চ পেপার বা রিপোর্টের সংক্ষিপ্ত সারাংশ তৈরি করুন।
    • চিত্র ডেটা নিষ্কাশন: এই মডেলগুলি পাঠ্য যোগাযোগের জন্য ভিজ্যুয়াল ডেটা নিষ্কাশন, ব্যাখ্যা এবং সংক্ষিপ্ত করতে ব্যবহার করা যেতে পারে।
  • গবেষণা এবং শিক্ষা
    • ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) এবং ভিএলএম রিসার্চ: এই মডেলগুলি গবেষকদের ভিএলএম এবং এনএলপি কৌশল নিয়ে পরীক্ষা করার, অ্যালগরিদম তৈরি করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসেবে কাজ করতে পারে।
    • ভাষা শেখার সরঞ্জাম: ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতা সমর্থন করে, ব্যাকরণ সংশোধনে সহায়তা করে বা লেখার অনুশীলন প্রদান করে।
    • জ্ঞান অন্বেষণ: সারাংশ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে পাঠ্যের বড় অংশ অন্বেষণে গবেষকদের সহায়তা করুন।

সীমাবদ্ধতা

  • প্রশিক্ষণ ডেটা
    • প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
  • প্রসঙ্গ এবং টাস্ক জটিলতা
    • সুস্পষ্ট প্রম্পট এবং নির্দেশাবলী দিয়ে তৈরি করা যেতে পারে এমন কাজের ক্ষেত্রে মডেলগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রসঙ্গের পরিমাণ দ্বারা প্রভাবিত হতে পারে (দীর্ঘ প্রসঙ্গ সাধারণত একটি নির্দিষ্ট বিন্দু পর্যন্ত ভাল আউটপুট নিয়ে যায়)।
  • ভাষার অস্পষ্টতা এবং সংক্ষিপ্ততা
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। মডেলগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা উপলব্ধি করতে লড়াই করতে পারে।
  • বাস্তব নির্ভুলতা
    • মডেলগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
  • কমন সেন্স
    • মডেলগুলি ভাষার পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের পাঠ্য এবং চিত্র ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা:
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীত্ব : মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি : বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারীর শিক্ষা VLM-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন : মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা অপসারণের জন্য ফিল্টার করা ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সুবিধা

প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-পারফরম্যান্স ওপেন ভিশন-ভাষা মডেল বাস্তবায়ন সরবরাহ করে।

এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা প্রদান করতে দেখায়।