মডেল পৃষ্ঠা : Gemma
সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন :
- Gemma 3 প্রযুক্তিগত প্রতিবেদন
- দায়ী জেনারেটিভ এআই টুলকিট
- Kaggle উপর Gemma
- ভার্টেক্স মডেল গার্ডেনে জেমা
ব্যবহারের শর্তাবলী : শর্তাবলী
লেখকঃ গুগল ডিপমাইন্ড
মডেল তথ্য
সংক্ষিপ্ত বিবরণ এবং ইনপুট এবং আউটপুট সংক্ষিপ্ত সংজ্ঞা.
বর্ণনা
Gemma হল Google-এর লাইটওয়েট, অত্যাধুনিক ওপেন মডেলগুলির একটি পরিবার, যা একই গবেষণা এবং প্রযুক্তি থেকে তৈরি করা হয়েছে যা জেমিনি মডেলগুলি তৈরি করতে ব্যবহৃত হয়৷ Gemma 3 মডেলগুলি হল মাল্টিমোডাল, টেক্সট এবং ইমেজ ইনপুট পরিচালনা করে এবং টেক্সট আউটপুট তৈরি করে, প্রাক-প্রশিক্ষিত ভেরিয়েন্ট এবং ইন্সট্রাকশন-টিউনড ভেরিয়েন্ট উভয়ের জন্য খোলা ওজন সহ। Gemma 3 এর একটি বড়, 128K প্রসঙ্গ উইন্ডো রয়েছে, 140টিরও বেশি ভাষায় বহুভাষিক সমর্থন রয়েছে এবং এটি পূর্ববর্তী সংস্করণের চেয়ে বেশি আকারে উপলব্ধ। প্রশ্ন উত্তর, সংক্ষিপ্তকরণ এবং যুক্তি সহ বিভিন্ন পাঠ্য তৈরি এবং চিত্র বোঝার কাজগুলির জন্য Gemma 3 মডেলগুলি উপযুক্ত। তাদের তুলনামূলকভাবে ছোট আকার ল্যাপটপ, ডেস্কটপ বা আপনার নিজস্ব ক্লাউড অবকাঠামোর মতো সীমিত সংস্থান সহ পরিবেশে তাদের স্থাপন করা সম্ভব করে, অত্যাধুনিক এআই মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করে এবং প্রত্যেকের জন্য উদ্ভাবনকে উত্সাহিত করতে সহায়তা করে।
ইনপুট এবং আউটপুট
ইনপুট:
- টেক্সট স্ট্রিং, যেমন একটি প্রশ্ন, একটি প্রম্পট, বা একটি নথি সংক্ষিপ্ত করা হবে
- চিত্রগুলি, 896 x 896 রেজোলিউশনে স্বাভাবিক করা হয়েছে এবং প্রতিটি 256 টোকেনে এনকোড করা হয়েছে
- 4B, 12B, এবং 27B আকারের জন্য 128K টোকেনের মোট ইনপুট প্রসঙ্গ এবং 1B আকারের জন্য 32K টোকেন
আউটপুট:
- ইনপুটের প্রতিক্রিয়াতে তৈরি করা পাঠ্য, যেমন একটি প্রশ্নের উত্তর, চিত্রের বিষয়বস্তুর বিশ্লেষণ, বা একটি নথির সারাংশ
- 4B, 12B, এবং 27B আকারের জন্য 128K টোকেন পর্যন্ত মোট আউটপুট প্রসঙ্গ এবং প্রতি অনুরোধে 1B আকারের জন্য 32K টোকেন, অনুরোধ ইনপুট টোকেনগুলি বিয়োগ করে
উদ্ধৃতি
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
মডেল ডেটা
মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং কীভাবে ডেটা প্রক্রিয়া করা হয়েছিল।
প্রশিক্ষণ ডেটাসেট
এই মডেলগুলিকে টেক্সট ডেটার একটি ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছিল যাতে বিভিন্ন ধরণের উত্স রয়েছে। 27B মডেলকে 14 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল, 12B মডেলকে 12 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষণ দেওয়া হয়েছিল, 4B মডেলকে 4 ট্রিলিয়ন টোকেন এবং 1B 2 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল। প্রশিক্ষণের ডেটার জ্ঞান কাটঅফ তারিখ ছিল আগস্ট 2024। এখানে মূল উপাদানগুলি রয়েছে:
- ওয়েব ডকুমেন্টস: ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ নিশ্চিত করে যে মডেলটি ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের বিস্তৃত পরিসরে উন্মুক্ত হয়েছে। প্রশিক্ষণ ডেটাসেটে 140 টিরও বেশি ভাষায় সামগ্রী অন্তর্ভুক্ত রয়েছে।
- কোড: কোডে মডেলটিকে প্রকাশ করা এটিকে প্রোগ্রামিং ভাষার সিনট্যাক্স এবং প্যাটার্ন শিখতে সাহায্য করে, যা কোড তৈরি করতে এবং কোড-সম্পর্কিত প্রশ্নগুলি বোঝার ক্ষমতাকে উন্নত করে।
- গণিত: গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।
- ছবি: চিত্রের বিস্তৃত পরিসর মডেলটিকে চিত্র বিশ্লেষণ এবং ভিজ্যুয়াল ডেটা নিষ্কাশন কার্য সম্পাদন করতে সক্ষম করে।
এই বৈচিত্র্যময় ডেটা উত্সগুলির সংমিশ্রণ একটি শক্তিশালী মাল্টিমডাল মডেলের প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ যা বিভিন্ন ধরণের বিভিন্ন কাজ এবং ডেটা ফর্ম্যাট পরিচালনা করতে পারে।
ডেটা প্রিপ্রসেসিং
প্রশিক্ষণ ডেটাতে প্রয়োগ করা মূল ডেটা পরিষ্কার এবং ফিল্টারিং পদ্ধতিগুলি এখানে রয়েছে:
- CSAM ফিল্টারিং: ক্ষতিকারক এবং অবৈধ বিষয়বস্তু বর্জন নিশ্চিত করার জন্য ডেটা প্রস্তুতির প্রক্রিয়ার একাধিক পর্যায়ে কঠোর CSAM (শিশু যৌন নির্যাতনের উপাদান) ফিল্টারিং প্রয়োগ করা হয়েছিল।
- সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রাক-প্রশিক্ষিত মডেলগুলিকে নিরাপদ এবং নির্ভরযোগ্য করার অংশ হিসাবে, প্রশিক্ষণ সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করার জন্য স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করা হয়েছিল।
- অতিরিক্ত পদ্ধতি: আমাদের নীতির সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।
বাস্তবায়ন তথ্য
মডেল অভ্যন্তরীণ সম্পর্কে বিস্তারিত.
হার্ডওয়্যার
জেমাকে টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv4p, TPUv5p এবং TPUv5e) ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। ভিশন-ল্যাঙ্গুয়েজ মডেল (ভিএলএমএস) প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনা শক্তি প্রয়োজন। TPUs, বিশেষভাবে মেশিন লার্নিং-এ সাধারণ ম্যাট্রিক্স অপারেশনের জন্য ডিজাইন করা হয়েছে, এই ডোমেনে বেশ কিছু সুবিধা অফার করে:
- কর্মক্ষমতা: TPU গুলি বিশেষভাবে VLM প্রশিক্ষণের সাথে জড়িত বিশাল গণনা পরিচালনা করার জন্য ডিজাইন করা হয়েছে। তারা সিপিইউ-এর তুলনায় প্রশিক্ষণের গতি বাড়াতে পারে।
- মেমরি: টিপিইউগুলি প্রায়শই প্রচুর পরিমাণে উচ্চ-ব্যান্ডউইথ মেমরি নিয়ে আসে, যা প্রশিক্ষণের সময় বড় মডেল এবং ব্যাচের আকারগুলি পরিচালনা করার অনুমতি দেয়। এটি আরও ভাল মডেলের মানের দিকে নিয়ে যেতে পারে।
- পরিমাপযোগ্যতা: TPU Pods (TPUs-এর বড় ক্লাস্টার) বড় ফাউন্ডেশন মডেলের ক্রমবর্ধমান জটিলতা মোকাবেলার জন্য একটি মাপযোগ্য সমাধান প্রদান করে। আপনি দ্রুত এবং আরও দক্ষ প্রক্রিয়াকরণের জন্য একাধিক TPU ডিভাইস জুড়ে প্রশিক্ষণ বিতরণ করতে পারেন।
- খরচ-কার্যকারিতা: অনেক পরিস্থিতিতে, TPU গুলি CPU-ভিত্তিক পরিকাঠামোর তুলনায় বড় মডেলের প্রশিক্ষণের জন্য একটি বেশি সাশ্রয়ী সমাধান প্রদান করতে পারে, বিশেষ করে যখন দ্রুত প্রশিক্ষণের কারণে সময় এবং সংস্থান সংরক্ষণ করা হয়।
- এই সুবিধাগুলি টেকসইভাবে কাজ করার জন্য Google-এর প্রতিশ্রুতিগুলির সাথে সামঞ্জস্যপূর্ণ।
সফটওয়্যার
JAX এবং ML পাথওয়ে ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।
JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়। ML Pathways হল একাধিক কাজ জুড়ে সাধারণীকরণ করতে সক্ষম কৃত্রিমভাবে বুদ্ধিমান সিস্টেম তৈরি করার জন্য Google এর সর্বশেষ প্রচেষ্টা। এটি ফাউন্ডেশন মডেলগুলির জন্য বিশেষভাবে উপযুক্ত, যার মধ্যে এইগুলির মতো বড় ভাষা মডেলগুলি রয়েছে৷
মডেলের মিথুন পরিবার সম্পর্কে কাগজে বর্ণিত হিসাবে JAX এবং ML পাথওয়ে একসাথে ব্যবহার করা হয়েছে; "জ্যাক্স এবং পাথওয়েজের 'একক নিয়ন্ত্রক' প্রোগ্রামিং মডেলটি একটি একক পাইথন প্রক্রিয়াকে সম্পূর্ণ প্রশিক্ষণের অর্কেস্ট্রেট করার অনুমতি দেয়, নাটকীয়ভাবে উন্নয়ন কর্মপ্রবাহকে সহজতর করে।"
মূল্যায়ন
মডেল মূল্যায়ন মেট্রিক্স এবং ফলাফল.
বেঞ্চমার্ক ফলাফল
পাঠ্য তৈরির বিভিন্ন দিক কভার করার জন্য এই মডেলগুলিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বৃহৎ সংগ্রহের বিরুদ্ধে মূল্যায়ন করা হয়েছিল। IT দিয়ে চিহ্নিত মূল্যায়ন ফলাফল নির্দেশ-সুরিত মডেলের জন্য। PT দিয়ে চিহ্নিত মূল্যায়ন ফলাফল প্রাক-প্রশিক্ষিত মডেলের জন্য।
যুক্তি এবং বাস্তবতা
বেঞ্চমার্ক | n-শট | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
জিপিকিউএ ডায়মন্ড | 0-শট | 19.2 | 30.8 | 40.9 | 42.4 |
সরল QA | 0-শট | 2.2 | 4.0 | 6.3 | 10.0 |
FACTS গ্রাউন্ডিং | - | 36.4 | 70.1 | 75.8 | 74.9 |
বিগ-বেঞ্চ হার্ড | 0-শট | 39.1 | 72.2 | ৮৫.৭ | ৮৭.৬ |
বিগ-বেঞ্চ অতিরিক্ত হার্ড | 0-শট | 7.2 | 11.0 | 16.3 | 19.3 |
আইএফইভাল | 0-শট | 80.2 | 90.2 | ৮৮.৯ | 90.4 |
বেঞ্চমার্ক | n-শট | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-শট | 62.3 | 77.2 | ৮৪.২ | ৮৫.৬ |
BoolQ | 0-শট | 63.2 | 72.3 | 78.8 | ৮২.৪ |
PIQA | 0-শট | 73.8 | 79.6 | ৮১.৮ | ৮৩.৩ |
সোশ্যালআইকিউএ | 0-শট | 48.9 | 51.9 | 53.4 | 54.9 |
ট্রিভিয়াকিউএ | 5-শট | ৩৯.৮ | ৬৫.৮ | 78.2 | ৮৫.৫ |
প্রাকৃতিক প্রশ্ন | 5-শট | ৯.৪৮ | 20.0 | 31.4 | 36.1 |
ARC-গ | 25-শট | 38.4 | 56.2 | ৬৮.৯ | 70.6 |
ARC-ই | 0-শট | 73.0 | ৮২.৪ | ৮৮.৩ | ৮৯.০ |
উইনোগ্রান্ডে | 5-শট | 58.2 | 64.7 | 74.3 | 78.8 |
বিগ-বেঞ্চ হার্ড | কয়েক শট | 28.4 | 50.9 | 72.6 | 77.7 |
ড্রপ | 1-শট | 42.4 | 60.1 | 72.2 | 77.2 |
স্টেম এবং কোড
বেঞ্চমার্ক | n-শট | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (প্রো) | 0-শট | 14.7 | 43.6 | 60.6 | 67.5 |
লাইভকোডবেঞ্চ | 0-শট | 1.9 | 12.6 | 24.6 | ২৯.৭ |
Bird-SQL (dev) | - | 6.4 | 36.3 | 47.9 | 54.4 |
গণিত | 0-শট | 48.0 | 75.6 | ৮৩.৮ | ৮৯.০ |
লুকানো ম্যাথ | 0-শট | 15.8 | 43.0 | 54.5 | ৬০.৩ |
এমবিপিপি | 3-শট | 35.2 | 63.2 | 73.0 | 74.4 |
হিউম্যান ইভাল | 0-শট | 41.5 | 71.3 | 85.4 | ৮৭.৮ |
প্রাকৃতিক 2 কোড | 0-শট | 56.0 | 70.3 | 80.7 | ৮৪.৫ |
GSM8K | 0-শট | 62.8 | ৮৯.২ | 94.4 | 95.9 |
বেঞ্চমার্ক | n-শট | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-শট | 59.6 | 74.5 | 78.6 |
MMLU (প্রো COT) | 5-শট | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-শট | 42.1 | 57.4 | ৬৬.২ |
গণিত | 4-শট | 24.2 | 43.3 | 50.0 |
GSM8K | 8-শট | 38.4 | 71.0 | ৮২.৬ |
জিপিকিউএ | 5-শট | 15.0 | 25.4 | 24.3 |
এমবিপিপি | 3-শট | 46.0 | ৬০.৪ | 65.6 |
হিউম্যান ইভাল | 0-শট | 36.0 | ৪৫.৭ | 48.8 |
বহুভাষিক
বেঞ্চমার্ক | n-শট | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
গ্লোবাল-এমএমএলইউ-লাইট | 0-শট | 34.2 | 54.5 | 69.5 | 75.1 |
ECLeKTic | 0-শট | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | 0-শট | 35.9 | 46.8 | 51.6 | 53.4 |
বেঞ্চমার্ক | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
এমজিএসএম | 2.04 | 34.7 | 64.3 | 74.3 |
গ্লোবাল-এমএমএলইউ-লাইট | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
ফ্লোরেস | 29.5 | ৩৯.২ | 46.0 | 48.8 |
XQuAD (সমস্ত) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | ৪.৬৯ | 11.0 | 17.2 | 24.4 |
ইন্ডিজেনবেঞ্চ | 41.4 | 57.2 | 61.7 | 63.4 |
মাল্টিমডাল
বেঞ্চমার্ক | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48.8 | 59.6 | 64.9 |
ডকভিকিউএ | 75.8 | 87.1 | ৮৬.৬ |
ইনফোভিকিউএ | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | ৮৪.২ | ৮৪.৫ |
চার্টকিউএ | ৬৮.৮ | 75.7 | 78.0 |
VQAv2 (val) | 62.4 | 71.6 | 71.0 |
MathVista (টেস্টমিনি) | 50.0 | 62.9 | 67.6 |
বেঞ্চমার্ক | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
কোকোক্যাপ | 102 | 111 | 116 |
DocVQA (val) | 72.8 | ৮২.৩ | ৮৫.৬ |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | ৩৯.২ | 50.3 | 56.1 |
TextVQA (val) | 58.9 | ৬৬.৫ | ৬৮.৬ |
রিয়েলওয়ার্ল্ডকিউএ | 45.5 | 52.2 | 53.9 |
রিএমআই | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
চার্টকিউএ | ৬৩.৬ | 74.7 | 76.3 |
VQAv2 | ৬৩.৯ | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
ওকেভিকিউএ | 51.0 | 58.7 | ৬০.২ |
ট্যালিকিউএ | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
নৈতিকতা এবং নিরাপত্তা
নৈতিকতা এবং নিরাপত্তা মূল্যায়ন পদ্ধতি এবং ফলাফল.
মূল্যায়ন পদ্ধতি
আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:
- শিশু সুরক্ষা : পাঠ্য থেকে পাঠ্য এবং পাঠ্য থেকে চিত্রের মূল্যায়ন শিশু যৌন নির্যাতন এবং শোষণ সহ শিশু সুরক্ষা নীতিগুলিকে কভার করে।
- বিষয়বস্তুর নিরাপত্তা: টেক্সট-টু-টেক্সট এবং ইমেজ টু টেক্সটের মূল্যায়ন, হয়রানি, সহিংসতা এবং ঘৃণ্য বক্তব্য সহ নিরাপত্তা নীতিগুলিকে কভার করে।
- প্রতিনিধিত্বমূলক ক্ষতি : টেক্সট থেকে টেক্সট এবং ইমেজ টু টেক্সটের মূল্যায়ন পক্ষপাত, স্টেরিওটাইপিং, এবং ক্ষতিকারক সমিতি বা ভুল সহ নিরাপত্তা নীতিগুলিকে কভার করে।
উন্নয়ন স্তরের মূল্যায়নের পাশাপাশি, আমরা "আশ্বাস মূল্যায়ন" পরিচালনা করি যা দায়িত্ব পরিচালনার সিদ্ধান্ত গ্রহণের জন্য আমাদের 'আর্ম-দৈর্ঘ্য' অভ্যন্তরীণ মূল্যায়ন। তারা মডেল ডেভেলপমেন্ট টিম থেকে আলাদাভাবে পরিচালিত হয়, মুক্তির বিষয়ে সিদ্ধান্ত নেওয়ার জন্য জানানোর জন্য। উচ্চ স্তরের ফলাফলগুলি মডেল টিমের কাছে ফেরত দেওয়া হয়, তবে অতিরিক্ত ফিটিং প্রতিরোধ করতে এবং সিদ্ধান্ত গ্রহণের বিষয়ে ফলাফলের ক্ষমতা সংরক্ষণের জন্য প্রম্পট সেটগুলি রাখা হয়। রিলিজ পর্যালোচনার অংশ হিসাবে নিশ্চয়তা মূল্যায়ন ফলাফল আমাদের দায়িত্ব ও নিরাপত্তা পরিষদে রিপোর্ট করা হয়।
মূল্যায়ন ফলাফল
নিরাপত্তা পরীক্ষার সমস্ত ক্ষেত্রে, আমরা পূর্ববর্তী জেমা মডেলগুলির তুলনায় শিশু সুরক্ষা, বিষয়বস্তু সুরক্ষা এবং প্রতিনিধিত্বমূলক ক্ষতির বিভাগে বড় উন্নতি দেখেছি। মডেল ক্ষমতা এবং আচরণের মূল্যায়ন করার জন্য সমস্ত পরীক্ষা নিরাপত্তা ফিল্টার ছাড়াই পরিচালিত হয়েছিল। টেক্সট-টু-টেক্সট এবং ইমেজ-টু-টেক্সট উভয়ের জন্য, এবং সমস্ত মডেল মাপ জুড়ে, মডেলটি ন্যূনতম নীতি লঙ্ঘন করেছে, এবং ভিত্তিহীন অনুমানগুলির ক্ষেত্রে পূর্ববর্তী জেমা মডেলগুলির কার্যকারিতার তুলনায় উল্লেখযোগ্য উন্নতি দেখায়। আমাদের মূল্যায়নের একটি সীমাবদ্ধতা ছিল তারা শুধুমাত্র ইংরেজি ভাষার প্রম্পট অন্তর্ভুক্ত করে।
ব্যবহার এবং সীমাবদ্ধতা
এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত।
উদ্দেশ্য ব্যবহার
ওপেন ভিশন-ল্যাঙ্গুয়েজ মডেল (VLMs) মডেলের বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।
- বিষয়বস্তু তৈরি এবং যোগাযোগ
- টেক্সট জেনারেশন: এই মডেলগুলি কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফ্টের মতো সৃজনশীল পাঠ্য বিন্যাস তৈরি করতে ব্যবহার করা যেতে পারে।
- চ্যাটবট এবং কথোপকথনমূলক এআই: গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী কথোপকথনমূলক ইন্টারফেস।
- টেক্সট সামারাইজেশন: টেক্সট কর্পাস, রিসার্চ পেপার বা রিপোর্টের সংক্ষিপ্ত সারাংশ তৈরি করুন।
- চিত্র ডেটা নিষ্কাশন: এই মডেলগুলি পাঠ্য যোগাযোগের জন্য ভিজ্যুয়াল ডেটা নিষ্কাশন, ব্যাখ্যা এবং সংক্ষিপ্ত করতে ব্যবহার করা যেতে পারে।
- গবেষণা এবং শিক্ষা
- ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) এবং ভিএলএম রিসার্চ: এই মডেলগুলি গবেষকদের ভিএলএম এবং এনএলপি কৌশল নিয়ে পরীক্ষা করার, অ্যালগরিদম তৈরি করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসেবে কাজ করতে পারে।
- ভাষা শেখার সরঞ্জাম: ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতা সমর্থন করে, ব্যাকরণ সংশোধনে সহায়তা করে বা লেখার অনুশীলন প্রদান করে।
- জ্ঞান অন্বেষণ: সারাংশ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে পাঠ্যের বড় অংশ অন্বেষণে গবেষকদের সহায়তা করুন।
সীমাবদ্ধতা
- প্রশিক্ষণ ডেটা
- প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
- প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
- প্রসঙ্গ এবং টাস্ক জটিলতা
- সুস্পষ্ট প্রম্পট এবং নির্দেশাবলী দিয়ে তৈরি করা যেতে পারে এমন কাজের ক্ষেত্রে মডেলগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রসঙ্গের পরিমাণ দ্বারা প্রভাবিত হতে পারে (দীর্ঘ প্রসঙ্গ সাধারণত একটি নির্দিষ্ট বিন্দু পর্যন্ত ভাল আউটপুট নিয়ে যায়)।
- ভাষার অস্পষ্টতা এবং সংক্ষিপ্ততা
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। মডেলগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা উপলব্ধি করতে লড়াই করতে পারে।
- বাস্তব নির্ভুলতা
- মডেলগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- কমন সেন্স
- মডেলগুলি ভাষার পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
নৈতিক বিবেচনা এবং ঝুঁকি
দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:
- পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের পাঠ্য এবং চিত্র ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
- ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
- স্বচ্ছতা এবং জবাবদিহিতা:
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।
চিহ্নিত ঝুঁকি এবং প্রশমন:
- পক্ষপাতের স্থায়ীত্ব : মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
- ক্ষতিকারক বিষয়বস্তু তৈরি : বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
- দূষিত উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারীর শিক্ষা VLM-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
- গোপনীয়তা লঙ্ঘন : মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা অপসারণের জন্য ফিল্টার করা ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷
সুবিধা
প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-পারফরম্যান্স ওপেন ভিশন-ভাষা মডেল বাস্তবায়ন সরবরাহ করে।
এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা প্রদান করতে দেখায়।