PaliGemma মডেল কার্ড

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

বর্ণনা

PaliGemma হল একটি বহুমুখী এবং লাইটওয়েট দৃষ্টি-ভাষা মডেল (VLM) যা PaLI-3 দ্বারা অনুপ্রাণিত এবং সিগলিপ ভিশন মডেল এবং জেমা ভাষা মডেলের মতো উন্মুক্ত উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের রচনা, যার মোট 3 বিলিয়ন প্যারাম রয়েছে। টেক্সট ডিকোডার Gemma-2B থেকে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। PaliGemma PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত হয়।

ইনপুট এবং আউটপুট

  • ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

মডেল ডেটা

প্রাক-ট্রেন ডেটাসেট

PaliGemma নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

  • WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। বহুমুখী মডেলের ক্ষমতা যেমন ভিজ্যুয়াল সিমেন্টিক বোঝাপড়া, অবজেক্ট লোকালাইজেশন, ভিজ্যুয়াল-সিচুয়েটেড টেক্সট বোঝাপড়া, বহুভাষিকতা ইত্যাদি অর্জন করতে WebLI স্প্লিটের বিস্তৃত পরিসর ব্যবহার করা হয়।
  • CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
  • OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
  • WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

ডেটা দায়িত্ব ফিল্টারিং

নিম্নোক্ত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে, পালিজেমাকে পরিষ্কার ডেটার প্রশিক্ষণ দেওয়ার লক্ষ্যে:

  • পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
  • টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল CSAI, পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর টেক্সট ধারণ করে বা হতে পারে বলে মনে করা হয়।
  • টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
  • পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
  • অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরণের একাডেমিক কাজের জন্য PaliGemma-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি কাজের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। উপরন্তু আমরা স্থানান্তর টাস্ক একটি মিশ্রণ সঙ্গে মিশ্রণ মডেল প্রশিক্ষণ. বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

সিঙ্গেল টাস্ক (একক টাস্কে ফাইন-টিউন)

বেঞ্চমার্ক (ট্রেন বিভক্ত) মেট্রিক (বিভক্ত) pt-224 pt-448 pt-896
ক্যাপশনিং
COCO ক্যাপশন (ট্রেন+বিশ্রাম) CIDER (val) 141.92 144.60
NoCaps (COCO ক্যাপশন স্থানান্তরের Eval) CIDER (val) 121.72 123.58
COCO-35L (ট্রেন) CIDER dev (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (COCO-35L স্থানান্তরের ইভাল) CIDER dev (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (ট্রেন) CIDER (val) 127.48 153.94
SciCap (প্রথম বাক্য, কোন সাবফিগার নেই) (ট্রেন+ভ্যাল) CIDER/BLEU-4 (পরীক্ষা)
162.25
0.192
181.49
0.211
Screen2words (ট্রেন+ডিভ) CIDER (পরীক্ষা) 117.57 119.59
উইজেট ক্যাপশনিং (ট্রেন + ডেভ) CIDER (পরীক্ষা) 136.07 148.36
প্রশ্নের উত্তর
VQAv2 (ট্রেন + বৈধতা) নির্ভুলতা (পরীক্ষা সার্ভার - std) 83.19 ৮৫.৬৪
MMVP (VQAv2 স্থানান্তরের ইভাল) পেয়ার করা সঠিকতা 47.33 45.33
POPE (VQAv2 স্থানান্তরের ইভাল) নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)
৮৭.৮০
৮৫.৮৭
84.27
৮৮.২৩
৮৬.৭৭
85.90
OKVQA (ট্রেন) নির্ভুলতা (ভাল) ৬৩.৫৪ 63.15
A-OKVQA (MC) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার) 76.37 76.90
A-OKVQA (DA) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার) 61.85 63.22
GQA (ট্রেন_ব্যালেন্সড+ভাল_ব্যালেন্সড) নির্ভুলতা (টেস্টডেভ সুষম) 65.61 ৬৭.০৩
xGQA (GQA স্থানান্তরের সমতুল্য) গড় সঠিকতা (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (ট্রেন + ডেভ) নির্ভুলতা (পরীক্ষা) 90.02 ৮৮.৯৩
MaRVL (NLVR2 স্থানান্তরের ইভাল) গড় সঠিকতা (পরীক্ষা) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (ট্রেন) নির্ভুলতা (পরীক্ষা) 72.12 73.28
ScienceQA (Img উপসেট, কোন CoT) (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা) 95.39 95.93
RSVQA-LR (নন নিউমেরিক) (ট্রেন+ভ্যাল) গড় নির্ভুলতা (পরীক্ষা) 92.65 93.11
RSVQA-HR (নন নিউমেরিক) (ট্রেন+ভ্যাল) গড় নির্ভুলতা (পরীক্ষা/পরীক্ষা2)
92.61
90.58
92.79
90.54
চার্টকিউএ (মানব+অগস্ট)x(ট্রেন+ভাল) গড় শিথিল নির্ভুলতা (পরীক্ষা_মানব, পরীক্ষা_আগস্ট) 57.08 71.36
VizWiz VQA (ট্রেন+ভাল) নির্ভুলতা (পরীক্ষা সার্ভার - std) 73.7 75.52
TallyQA (ট্রেন) নির্ভুলতা (পরীক্ষা_সরল/পরীক্ষা_কমপ্লেক্স)
৮১.৭২
৬৯.৫৬
৮৪.৮৬
72.27
OCR-VQA (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা) 72.32 74.61 74.93
TextVQA (ট্রেন+ভ্যাল) নির্ভুলতা (পরীক্ষা সার্ভার - std) 55.47 73.15 76.48
DocVQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 43.74 78.02 ৮৪.৭৭
ইনফোগ্রাফিক VQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 28.46 40.47 47.75
দৃশ্যপাঠ VQA (ট্রেন+ভ্যাল) ANLS (পরীক্ষা সার্ভার) 63.29 ৮১.৮২ ৮৪.৪০
সেগমেন্টেশন
RefCOCO (সম্মিলিত refcoco, refcoco+, refcocog ভ্যাল এবং পরীক্ষার ছবি ব্যতীত) MIoU (বৈধতা) refcoco/refcoco+/refcocog
73.40
৬৮.৩২
67.65
75.57
৬৯.৭৬
70.17
76.94
72.18
72.22
ভিডিও টাস্ক (ক্যাপশন/QA)
MSR-VTT (ক্যাপশনিং) CIDER (পরীক্ষা) 70.54
MSR-VTT (QA) নির্ভুলতা (পরীক্ষা) 50.09
ActivityNet (ক্যাপশনিং) CIDER (পরীক্ষা) 34.62
ActivityNet (QA) নির্ভুলতা (পরীক্ষা) 50.78
VATEX (ক্যাপশনিং) CIDER (পরীক্ষা) 79.73
MSVD (QA) নির্ভুলতা (পরীক্ষা) 60.22

মিক্স মডেল (স্থানান্তর কাজের মিশ্রণে সূক্ষ্ম সুর)

মাপকাঠি মেট্রিক (বিভক্ত) মিক্স-224 মিক্স-448
এমএমভিপি পেয়ার করা সঠিকতা 46.00 45.33
ধর্মযাজক নির্ভুলতা (এলোমেলো/জনপ্রিয়/প্রতিপক্ষ)
৮৮.০০
৮৬.৬৩
৮৫.৬৭
৮৯.৩৭
৮৮.৪০
৮৭.৪৭

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

  • শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
  • ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

  • নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
  • দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক অনুভূত লিঙ্গ জাতিসত্তা বয়স গ্রুপ
সর্বোচ্চ মধ্যমা সর্বোচ্চ মধ্যমা সর্বোচ্চ মধ্যমা
বিষাক্ততা ০.০৪% ০.০৩% ০.০৮% 0.00% ০.০৯% 0.00%
আইডেন্টিটি অ্যাটাক 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
অপমান ০.০৬% ০.০৪% ০.০৯% ০.০৭% 0.16% 0.00%
হুমকি ০.০৬% ০.০৫% 0.14% ০.০৫% 0.17% 0.00%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

নির্দিষ্ট দৃষ্টি-ভাষা কার্যে সূক্ষ্ম সুর:

  • প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
  • পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
  • প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

  • প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে।
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

  • অন্তর্নিহিত জেমা মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
    • VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
    • ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
  • PaliGemma প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজের জন্য সূক্ষ্ম সুরের জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স এর জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
  • PaliGemma একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।