PaliGemma 1 মডেল কার্ড

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

বর্ণনা

PaliGemma হল একটি বহুমুখী এবং লাইটওয়েট দৃষ্টি-ভাষা মডেল (VLM) যা PaLI-3 দ্বারা অনুপ্রাণিত এবং সিগলিপ ভিশন মডেল এবং জেমা ভাষা মডেলের মতো উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের রচনা, যার মোট 3 বিলিয়ন প্যারাম রয়েছে। টেক্সট ডিকোডার Gemma-2B থেকে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। PaliGemma PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত হয়।

ইনপুট এবং আউটপুট

  • ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

উদ্ধৃতি

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

মডেল ডেটা

প্রি-ট্রেন ডেটাসেট

PaliGemma নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

  • WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। বহুমুখী মডেলের ক্ষমতা যেমন ভিজ্যুয়াল সিমেন্টিক বোঝাপড়া, অবজেক্ট লোকালাইজেশন, ভিজ্যুয়াল-সিচুয়েটেড টেক্সট বোঝাপড়া, বহুভাষিকতা ইত্যাদি অর্জন করতে WebLI স্প্লিটের বিস্তৃত পরিসর ব্যবহার করা হয়।
  • CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
  • OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হস্তশিল্পের নিয়ম দ্বারা তৈরি।
  • WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

ডেটা দায়িত্ব ফিল্টারিং

নিম্নোক্ত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে, পালিজেমাকে পরিচ্ছন্ন ডেটাতে প্রশিক্ষণ দেওয়ার লক্ষ্যে:

  • পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
  • টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
  • টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
  • পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। শনাক্তকারী যেমন সামাজিক নিরাপত্তা নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলি সরানো হয়েছে৷
  • অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরণের একাডেমিক কাজের জন্য PaliGemma-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি কাজের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। উপরন্তু আমরা স্থানান্তর টাস্ক একটি মিশ্রণ সঙ্গে মিশ্রণ মডেল প্রশিক্ষণ. বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

একক টাস্ক (একক টাস্কে সূক্ষ্ম সুর)

বেঞ্চমার্ক (ট্রেন বিভক্ত) মেট্রিক (বিভক্ত) pt-224 pt-448 pt-896
ক্যাপশনিং
COCO ক্যাপশন (ট্রেন+বিশ্রাম) CIDER (val) 141.92 144.60
NoCaps (COCO ক্যাপশন স্থানান্তরের Eval) CIDER (val) 121.72 123.58
COCO-35L (ট্রেন) CIDER dev (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L স্থানান্তরের ইভাল) CIDER dev (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (ট্রেন) CIDER (val) 127.48 153.94
SciCap (প্রথম বাক্য, কোন সাবফিগার নেই) (ট্রেন+ভ্যাল) CIDER/BLEU-4 (পরীক্ষা)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDER (পরীক্ষা) 117.57 119.59
উইজেট ক্যাপশনিং (ট্রেন + ডেভ) CIDER (পরীক্ষা) 136.07 148.36
প্রশ্নের উত্তর
VQAv2 (ট্রেন + বৈধতা) নির্ভুলতা (পরীক্ষা সার্ভার - std) 83.19 ৮৫.৬৪
MMVP (VQAv2 স্থানান্তরের ইভাল) পেয়ার করা সঠিকতা 47.33 45.33
POPE (VQAv2 স্থানান্তরের ইভাল) নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)
৮৭.৮০
৮৫.৮৭
84.27
৮৮.২৩
৮৬.৭৭
85.90
OKVQA (ট্রেন) নির্ভুলতা (ভাল) ৬৩.৫৪ 63.15
A-OKVQA (MC) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার) 76.37 76.90
A-OKVQA (DA) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার) 61.85 63.22
GQA (ট্রেন_ব্যালেন্সড+ভাল_ব্যালেন্সড) নির্ভুলতা (টেস্টডেভ সুষম) 65.61 ৬৭.০৩
xGQA (GQA স্থানান্তরের সমতুল্য) গড় সঠিকতা (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (ট্রেন+ডেভ) নির্ভুলতা (পরীক্ষা) 90.02 ৮৮.৯৩
MaRVL (NLVR2 স্থানান্তরের ইভাল) গড় নির্ভুলতা (পরীক্ষা) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (ট্রেন) নির্ভুলতা (পরীক্ষা) 72.12 73.28
ScienceQA (Img উপসেট, কোন CoT) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা) 95.39 95.93
RSVQA-LR (নন নিউমেরিক) (ট্রেন+ভ্যাল) গড় নির্ভুলতা (পরীক্ষা) 92.65 93.11
RSVQA-HR (নন নিউমেরিক) (ট্রেন+ভ্যাল) গড় নির্ভুলতা (পরীক্ষা/পরীক্ষা2)
92.61
90.58
92.79
90.54
চার্টকিউএ (মানব+অগস্ট)x(ট্রেন+ভাল) গড় শিথিল নির্ভুলতা (পরীক্ষা_মানব, পরীক্ষা_আগস্ট) 57.08 71.36
VizWiz VQA (ট্রেন+ভাল) নির্ভুলতা (পরীক্ষা সার্ভার - std) 73.7 75.52
TallyQA (ট্রেন) নির্ভুলতা (পরীক্ষা_সরল/পরীক্ষা_কমপ্লেক্স)
৮১.৭২
৬৯.৫৬
৮৪.৮৬
72.27
OCR-VQA (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা) 72.32 74.61 74.93
TextVQA (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার - std) 55.47 73.15 76.48
DocVQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 43.74 78.02 ৮৪.৭৭
ইনফোগ্রাফিক VQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 28.46 40.47 47.75
দৃশ্যপাঠ VQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 63.29 ৮১.৮২ ৮৪.৪০
সেগমেন্টেশন
RefCOCO (সম্মিলিত refcoco, refcoco+, refcocog ভ্যাল এবং পরীক্ষার ছবি ব্যতীত) MIoU (বৈধতা) refcoco/refcoco+/refcocog
73.40
৬৮.৩২
67.65
75.57
৬৯.৭৬
70.17
76.94
72.18
72.22
ভিডিও টাস্ক (ক্যাপশন/QA)
MSR-VTT (ক্যাপশনিং) CIDER (পরীক্ষা) 70.54
MSR-VTT (QA) নির্ভুলতা (পরীক্ষা) 50.09
ActivityNet (ক্যাপশনিং) সিআইডিআর (পরীক্ষা) 34.62
ActivityNet (QA) নির্ভুলতা (পরীক্ষা) 50.78
VATEX (ক্যাপশনিং) CIDER (পরীক্ষা) 79.73
MSVD (QA) নির্ভুলতা (পরীক্ষা) 60.22

মিক্স মডেল (স্থানান্তর কাজের মিশ্রণে সূক্ষ্ম সুর)

বেঞ্চমার্ক মেট্রিক (বিভক্ত) মিক্স-224 মিক্স-448
এমএমভিপি পেয়ার করা সঠিকতা 46.00 45.33
পোপ নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)
৮৮.০০
৮৬.৬৩
৮৫.৬৭
৮৯.৩৭
৮৮.৪০
৮৭.৪৭

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

  • শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
  • ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

  • নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
  • দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক অনুভূত লিঙ্গ জাতিসত্তা বয়স গ্রুপ
সর্বোচ্চ মাঝামাঝি সর্বোচ্চ মাঝামাঝি সর্বোচ্চ মাঝামাঝি
বিষাক্ততা ০.০৪% ০.০৩% ০.০৮% 0.00% ০.০৯% 0.00%
আইডেন্টিটি অ্যাটাক 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
অপমান ০.০৬% ০.০৪% ০.০৯% ০.০৭% 0.16% 0.00%
হুমকি ০.০৬% ০.০৫% 0.14% ০.০৫% 0.17% 0.00%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷

নির্দিষ্ট দৃষ্টি-ভাষা কার্যে সূক্ষ্ম সুর:

  • প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
  • পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
  • প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

  • প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতকে প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

  • অন্তর্নিহিত জেমা মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ, বা রূপক ভাষা উপলব্ধি করতে সংগ্রাম করতে পারে।
    • VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
    • ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনের উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
  • PaliGemma বিশেষায়িত কাজগুলিতে সূক্ষ্ম-টিউনিং করার জন্য একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে কাজ করার জন্য প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
  • PaliGemma একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।