মডেল পৃষ্ঠা: PaliGemma
সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:
ব্যবহারের শর্তাবলী: শর্তাবলী
লেখক: গুগল
মডেল তথ্য
মডেল সারাংশ
বর্ণনা
PaliGemma হল একটি বহুমুখী এবং লাইটওয়েট দৃষ্টি-ভাষা মডেল (VLM) যা PaLI-3 দ্বারা অনুপ্রাণিত এবং সিগলিপ ভিশন মডেল এবং জেমা ভাষা মডেলের মতো উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।
মডেল আর্কিটেকচার
PaliGemma হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের রচনা, যার মোট 3 বিলিয়ন প্যারাম রয়েছে। টেক্সট ডিকোডার Gemma-2B থেকে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। PaliGemma PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত হয়।
ইনপুট এবং আউটপুট
- ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
- আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।
মডেল ডেটা
প্রাক-ট্রেন ডেটাসেট
PaliGemma নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:
- WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। বহুমুখী মডেলের ক্ষমতা যেমন ভিজ্যুয়াল সিমেন্টিক বোঝাপড়া, অবজেক্ট লোকালাইজেশন, ভিজ্যুয়াল-সিচুয়েটেড টেক্সট বোঝাপড়া, বহুভাষিকতা ইত্যাদি অর্জন করতে WebLI স্প্লিটের বিস্তৃত পরিসর ব্যবহার করা হয়।
- CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
- OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
- WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।
ডেটা দায়িত্ব ফিল্টারিং
নিম্নোক্ত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে, পালিজেমাকে পরিষ্কার ডেটার প্রশিক্ষণ দেওয়ার লক্ষ্যে:
- পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
- টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল CSAI, পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর টেক্সট ধারণ করে বা হতে পারে বলে মনে করা হয়।
- টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
- পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
- অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।
বাস্তবায়ন তথ্য
হার্ডওয়্যার
PaliGemma সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।
সফটওয়্যার
JAX , Flax , TFDS এবং big_vision
ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।
JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।
TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision
GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।
মূল্যায়ন তথ্য
বেঞ্চমার্ক ফলাফল
বিভিন্ন ধরণের একাডেমিক কাজের জন্য PaliGemma-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি কাজের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। উপরন্তু আমরা স্থানান্তর টাস্ক একটি মিশ্রণ সঙ্গে মিশ্রণ মডেল প্রশিক্ষণ. বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।
সিঙ্গেল টাস্ক (একক টাস্কে ফাইন-টিউন)
বেঞ্চমার্ক (ট্রেন বিভক্ত) | মেট্রিক (বিভক্ত) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
ক্যাপশনিং | ||||
COCO ক্যাপশন (ট্রেন+বিশ্রাম) | CIDER (val) | 141.92 | 144.60 | |
NoCaps (COCO ক্যাপশন স্থানান্তরের Eval) | CIDER (val) | 121.72 | 123.58 | |
COCO-35L (ট্রেন) | CIDER dev (en/avg-34/avg) | |||
XM3600 (COCO-35L স্থানান্তরের ইভাল) | CIDER dev (en/avg-34/avg) | |||
TextCaps (ট্রেন) | CIDER (val) | 127.48 | 153.94 | |
SciCap (প্রথম বাক্য, কোন সাবফিগার নেই) (ট্রেন+ভ্যাল) | CIDER/BLEU-4 (পরীক্ষা) | |||
Screen2words (ট্রেন+ডিভ) | CIDER (পরীক্ষা) | 117.57 | 119.59 | |
উইজেট ক্যাপশনিং (ট্রেন + ডেভ) | CIDER (পরীক্ষা) | 136.07 | 148.36 | |
প্রশ্নের উত্তর | ||||
VQAv2 (ট্রেন + বৈধতা) | নির্ভুলতা (পরীক্ষা সার্ভার - std) | 83.19 | ৮৫.৬৪ | |
MMVP (VQAv2 স্থানান্তরের ইভাল) | পেয়ার করা সঠিকতা | 47.33 | 45.33 | |
POPE (VQAv2 স্থানান্তরের ইভাল) | নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ) | |||
OKVQA (ট্রেন) | নির্ভুলতা (ভাল) | ৬৩.৫৪ | 63.15 | |
A-OKVQA (MC) (ট্রেন+ভ্যাল) | নির্ভুলতা (পরীক্ষা সার্ভার) | 76.37 | 76.90 | |
A-OKVQA (DA) (ট্রেন+ভ্যাল) | নির্ভুলতা (পরীক্ষা সার্ভার) | 61.85 | 63.22 | |
GQA (ট্রেন_ব্যালেন্সড+ভাল_ব্যালেন্সড) | নির্ভুলতা (টেস্টডেভ সুষম) | 65.61 | ৬৭.০৩ | |
xGQA (GQA স্থানান্তরের সমতুল্য) | গড় সঠিকতা (bn, de, en, id, ko, pt, ru, zh) | 58.37 | 59.07 | |
NLVR2 (ট্রেন + ডেভ) | নির্ভুলতা (পরীক্ষা) | 90.02 | ৮৮.৯৩ | |
MaRVL (NLVR2 স্থানান্তরের ইভাল) | গড় সঠিকতা (পরীক্ষা) (id, sw, ta, tr, zh) | 80.57 | 76.78 | |
AI2D (ট্রেন) | নির্ভুলতা (পরীক্ষা) | 72.12 | 73.28 | |
ScienceQA (Img উপসেট, কোন CoT) (ট্রেন+ভ্যাল) | নির্ভুলতা (পরীক্ষা) | 95.39 | 95.93 | |
RSVQA-LR (নন নিউমেরিক) (ট্রেন+ভ্যাল) | গড় নির্ভুলতা (পরীক্ষা) | 92.65 | 93.11 | |
RSVQA-HR (নন নিউমেরিক) (ট্রেন+ভ্যাল) | গড় নির্ভুলতা (পরীক্ষা/পরীক্ষা2) | |||
চার্টকিউএ (মানব+অগস্ট)x(ট্রেন+ভাল) | গড় শিথিল নির্ভুলতা (পরীক্ষা_মানব, পরীক্ষা_আগস্ট) | 57.08 | 71.36 | |
VizWiz VQA (ট্রেন+ভাল) | নির্ভুলতা (পরীক্ষা সার্ভার - std) | 73.7 | 75.52 | |
TallyQA (ট্রেন) | নির্ভুলতা (পরীক্ষা_সরল/পরীক্ষা_কমপ্লেক্স) | |||
OCR-VQA (ট্রেন+ভ্যাল) | নির্ভুলতা (পরীক্ষা) | 72.32 | 74.61 | 74.93 |
TextVQA (ট্রেন+ভ্যাল) | নির্ভুলতা (পরীক্ষা সার্ভার - std) | 55.47 | 73.15 | 76.48 |
DocVQA (ট্রেন+ভ্যাল) | ANLS (পরীক্ষা সার্ভার) | 43.74 | 78.02 | ৮৪.৭৭ |
ইনফোগ্রাফিক VQA (ট্রেন+ভ্যাল) | ANLS (পরীক্ষা সার্ভার) | 28.46 | 40.47 | 47.75 |
দৃশ্যপাঠ VQA (ট্রেন+ভ্যাল) | ANLS (পরীক্ষা সার্ভার) | 63.29 | ৮১.৮২ | ৮৪.৪০ |
সেগমেন্টেশন | ||||
RefCOCO (সম্মিলিত refcoco, refcoco+, refcocog ভ্যাল এবং পরীক্ষার ছবি ব্যতীত) | MIoU (বৈধতা) refcoco/refcoco+/refcocog | |||
ভিডিও টাস্ক (ক্যাপশন/QA) | ||||
MSR-VTT (ক্যাপশনিং) | CIDER (পরীক্ষা) | 70.54 | ||
MSR-VTT (QA) | নির্ভুলতা (পরীক্ষা) | 50.09 | ||
ActivityNet (ক্যাপশনিং) | CIDER (পরীক্ষা) | 34.62 | ||
ActivityNet (QA) | নির্ভুলতা (পরীক্ষা) | 50.78 | ||
VATEX (ক্যাপশনিং) | CIDER (পরীক্ষা) | 79.73 | ||
MSVD (QA) | নির্ভুলতা (পরীক্ষা) | 60.22 |
মিক্স মডেল (স্থানান্তর কাজের মিশ্রণে সূক্ষ্ম সুর)
মাপকাঠি | মেট্রিক (বিভক্ত) | মিক্স-224 | মিক্স-448 |
---|---|---|---|
এমএমভিপি | পেয়ার করা সঠিকতা | 46.00 | 45.33 |
ধর্মযাজক | নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ) |
নৈতিকতা এবং নিরাপত্তা
মূল্যায়ন পদ্ধতি
আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:
- শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
- ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।
মূল্যায়ন ফলাফল
- নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
- দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক | অনুভূত লিঙ্গ | জাতিসত্তা | বয়স গ্রুপ | |||
---|---|---|---|---|---|---|
সর্বোচ্চ | মধ্যমা | সর্বোচ্চ | মধ্যমা | সর্বোচ্চ | মধ্যমা | |
বিষাক্ততা | ০.০৪% | ০.০৩% | ০.০৮% | 0.00% | ০.০৯% | 0.00% |
আইডেন্টিটি অ্যাটাক | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
অপমান | ০.০৬% | ০.০৪% | ০.০৯% | ০.০৭% | 0.16% | 0.00% |
হুমকি | ০.০৬% | ০.০৫% | 0.14% | ০.০৫% | 0.17% | 0.00% |
অশ্লীলতা | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
ব্যবহার এবং সীমাবদ্ধতা
উদ্দেশ্য ব্যবহার
ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।
নির্দিষ্ট দৃষ্টি-ভাষা কার্যে সূক্ষ্ম সুর:
- প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
- পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
- প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।
দৃষ্টি-ভাষা গবেষণা:
- প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।
নৈতিক বিবেচনা এবং ঝুঁকি
দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:
- পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
- ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
- স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।
চিহ্নিত ঝুঁকি এবং প্রশমন:
- পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
- ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
- দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে।
- গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷
সীমাবদ্ধতা
- অন্তর্নিহিত জেমা মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
- স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
- VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
- PaliGemma প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজের জন্য সূক্ষ্ম সুরের জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স এর জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
- PaliGemma একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।