প্রজন্ম এবং টিউনিং উদাহরণের জন্য জেমমা কুকবুক সংগ্রহস্থল দেখুন! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

PaliGemma মডেল কার্ড

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

বর্ণনা

PaliGemma হল একটি বহুমুখী এবং লাইটওয়েট দৃষ্টি-ভাষা মডেল (VLM) যা PaLI-3 দ্বারা অনুপ্রাণিত এবং সিগলিপ ভিশন মডেল এবং জেমা ভাষা মডেলের মতো উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের রচনা, যার মোট 3 বিলিয়ন প্যারাম রয়েছে। টেক্সট ডিকোডার Gemma-2B থেকে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। PaliGemma PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত হয়।

ইনপুট এবং আউটপুট

ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

মডেল ডেটা

প্রাক-ট্রেন ডেটাসেট

PaliGemma নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। বহুমুখী মডেলের ক্ষমতা যেমন ভিজ্যুয়াল সিমেন্টিক বোঝাপড়া, অবজেক্ট লোকালাইজেশন, ভিজ্যুয়াল-সিচুয়েটেড টেক্সট বোঝাপড়া, বহুভাষিকতা ইত্যাদি অর্জন করতে WebLI স্প্লিটের বিস্তৃত পরিসর ব্যবহার করা হয়।
CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

ডেটা দায়িত্ব ফিল্টারিং

নিম্নোক্ত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে, পালিজেমাকে পরিষ্কার ডেটার প্রশিক্ষণ দেওয়ার লক্ষ্যে:

পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল CSAI, পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর টেক্সট ধারণ করে বা হতে পারে বলে মনে করা হয়।
টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরণের একাডেমিক কাজের জন্য PaliGemma-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি কাজের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। উপরন্তু আমরা স্থানান্তর টাস্ক একটি মিশ্রণ সঙ্গে মিশ্রণ মডেল প্রশিক্ষণ. বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

সিঙ্গেল টাস্ক (একক টাস্কে ফাইন-টিউন)

বেঞ্চমার্ক (ট্রেন বিভক্ত)	মেট্রিক (বিভক্ত)	pt-224	pt-448	pt-896
ক্যাপশনিং
COCO ক্যাপশন (ট্রেন+বিশ্রাম)	CIDER (val)	141.92	144.60
NoCaps (COCO ক্যাপশন স্থানান্তরের Eval)	CIDER (val)	121.72	123.58
COCO-35L (ট্রেন)	CIDER dev (en/avg-34/avg)	139.2 115.8 116.4	141.2 118.0 118.6
XM3600 (COCO-35L স্থানান্তরের ইভাল)	CIDER dev (en/avg-34/avg)	78.1 41.3 42.4	80.0 41.9 42.9
TextCaps (ট্রেন)	CIDER (val)	127.48	153.94
SciCap (প্রথম বাক্য, কোন সাবফিগার নেই) (ট্রেন+ভ্যাল)	CIDER/BLEU-4 (পরীক্ষা)	162.25 0.192	181.49 0.211
Screen2words (ট্রেন+ডিভ)	CIDER (পরীক্ষা)	117.57	119.59
উইজেট ক্যাপশনিং (ট্রেন + ডেভ)	CIDER (পরীক্ষা)	136.07	148.36
প্রশ্নের উত্তর
VQAv2 (ট্রেন + বৈধতা)	নির্ভুলতা (পরীক্ষা সার্ভার - std)	83.19	৮৫.৬৪
MMVP (VQAv2 স্থানান্তরের ইভাল)	পেয়ার করা সঠিকতা	47.33	45.33
POPE (VQAv2 স্থানান্তরের ইভাল)	নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)	৮৭.৮০ ৮৫.৮৭ 84.27	৮৮.২৩ ৮৬.৭৭ 85.90
OKVQA (ট্রেন)	নির্ভুলতা (ভাল)	৬৩.৫৪	63.15
A-OKVQA (MC) (ট্রেন+ভ্যাল)	নির্ভুলতা (পরীক্ষা সার্ভার)	76.37	76.90
A-OKVQA (DA) (ট্রেন+ভ্যাল)	নির্ভুলতা (পরীক্ষা সার্ভার)	61.85	63.22
GQA (ট্রেন_ব্যালেন্সড+ভাল_ব্যালেন্সড)	নির্ভুলতা (টেস্টডেভ সুষম)	65.61	৬৭.০৩
xGQA (GQA স্থানান্তরের সমতুল্য)	গড় সঠিকতা (bn, de, en, id, ko, pt, ru, zh)	58.37	59.07
NLVR2 (ট্রেন+ডেভ)	নির্ভুলতা (পরীক্ষা)	90.02	৮৮.৯৩
MaRVL (NLVR2 স্থানান্তরের ইভাল)	গড় সঠিকতা (পরীক্ষা) (id, sw, ta, tr, zh)	80.57	76.78
AI2D (ট্রেন)	নির্ভুলতা (পরীক্ষা)	72.12	73.28
ScienceQA (Img উপসেট, কোন CoT) (ট্রেন+ভ্যাল)	নির্ভুলতা (পরীক্ষা)	95.39	95.93
RSVQA-LR (নন নিউমেরিক) (ট্রেন+ভ্যাল)	গড় নির্ভুলতা (পরীক্ষা)	92.65	93.11
RSVQA-HR (নন নিউমেরিক) (ট্রেন+ভ্যাল)	গড় নির্ভুলতা (পরীক্ষা/পরীক্ষা2)	92.61 90.58	92.79 90.54
চার্টকিউএ (মানব+অগস্ট)x(ট্রেন+ভাল)	গড় শিথিল নির্ভুলতা (পরীক্ষা_মানব, পরীক্ষা_আগস্ট)	57.08	71.36
VizWiz VQA (ট্রেন+ভাল)	নির্ভুলতা (পরীক্ষা সার্ভার - std)	73.7	75.52
TallyQA (ট্রেন)	নির্ভুলতা (পরীক্ষা_সরল/পরীক্ষা_কমপ্লেক্স)	৮১.৭২ ৬৯.৫৬	৮৪.৮৬ 72.27
OCR-VQA (ট্রেন+ভ্যাল)	নির্ভুলতা (পরীক্ষা)	72.32	74.61	74.93
TextVQA (ট্রেন+ভ্যাল)	নির্ভুলতা (পরীক্ষা সার্ভার - std)	55.47	73.15	76.48
DocVQA (ট্রেন+ভ্যাল)	ANLS (পরীক্ষা সার্ভার)	43.74	78.02	৮৪.৭৭
ইনফোগ্রাফিক VQA (ট্রেন+ভ্যাল)	ANLS (পরীক্ষা সার্ভার)	28.46	40.47	47.75
দৃশ্যপাঠ VQA (ট্রেন+ভ্যাল)	ANLS (পরীক্ষা সার্ভার)	63.29	৮১.৮২	৮৪.৪০
সেগমেন্টেশন
RefCOCO (সম্মিলিত refcoco, refcoco+, refcocog ভ্যাল এবং পরীক্ষার ছবি ব্যতীত)	MIoU (বৈধতা) refcoco/refcoco+/refcocog	73.40 ৬৮.৩২ 67.65	75.57 ৬৯.৭৬ 70.17	76.94 72.18 72.22
ভিডিও টাস্ক (ক্যাপশন/QA)
MSR-VTT (ক্যাপশনিং)	CIDER (পরীক্ষা)	70.54
MSR-VTT (QA)	নির্ভুলতা (পরীক্ষা)	50.09
ActivityNet (ক্যাপশনিং)	CIDER (পরীক্ষা)	34.62
ActivityNet (QA)	নির্ভুলতা (পরীক্ষা)	50.78
VATEX (ক্যাপশনিং)	CIDER (পরীক্ষা)	79.73
MSVD (QA)	নির্ভুলতা (পরীক্ষা)	60.22

মিক্স মডেল (স্থানান্তর কাজের মিশ্রণে সূক্ষ্ম সুর)

মাপকাঠি	মেট্রিক (বিভক্ত)	মিক্স-224	মিক্স-448
এমএমভিপি	পেয়ার করা সঠিকতা	46.00	45.33
ধর্মযাজক	নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)	৮৮.০০ ৮৬.৬৩ ৮৫.৬৭	৮৯.৩৭ ৮৮.৪০ ৮৭.৪৭

মাপকাঠি

মেট্রিক (বিভক্ত)

মিক্স-224

মিক্স-448

এমএমভিপি

পেয়ার করা সঠিকতা

46.00

45.33

ধর্মযাজক

নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)

৮৮.০০

৮৬.৬৩

৮৫.৬৭

৮৯.৩৭

৮৮.৪০

৮৭.৪৭

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷

মেট্রিক	অনুভূত লিঙ্গ		জাতিসত্তা		বয়স গ্রুপ
	সর্বোচ্চ	মধ্যমা	সর্বোচ্চ	মধ্যমা	সর্বোচ্চ	মধ্যমা
বিষাক্ততা	০.০৪%	০.০৩%	০.০৮%	0.00%	০.০৯%	0.00%
আইডেন্টিটি অ্যাটাক	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
অপমান	০.০৬%	০.০৪%	০.০৯%	০.০৭%	0.16%	0.00%
হুমকি	০.০৬%	০.০৫%	0.14%	০.০৫%	0.17%	0.00%
অশ্লীলতা	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

নির্দিষ্ট দৃষ্টি-ভাষা কার্যে সূক্ষ্ম সুর:

প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে।
গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

অন্তর্নিহিত জেমা মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
- স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
- VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
PaliGemma প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজের জন্য সূক্ষ্ম সুরের জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স এর জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
PaliGemma একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।