PaliGemma 2 মডেল কার্ড

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

PaliGemma 2 হল PaliGemma vision-language model (VLM) এর একটি আপডেট যা জেমা 2 মডেলের ক্ষমতাকে অন্তর্ভুক্ত করে। মডেলের PaliGemma পরিবার PaLI-3 দ্বারা অনুপ্রাণিত এবং SigLIP দৃষ্টি মডেল এবং Gemma 2 ভাষার মডেলের মতো খোলা উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma 2 হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের সংমিশ্রণ। টেক্সট ডিকোডার Gemma 2 থেকে 2B, 9B, এবং 27B প্যারামিটার আকারে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। মূল PaliGemma মডেলের মতো, PaliGemma 2 PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত।

ইনপুট এবং আউটপুট

  • ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

উদ্ধৃতি

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

মডেল ডেটা

প্রাক-ট্রেন ডেটাসেট

PaliGemma 2 নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

  • WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। ওয়েবএলআই বিভক্তের একটি বিস্তৃত পরিসর বহুমুখী মডেলের ক্ষমতা অর্জনের জন্য ব্যবহৃত হয়, যেমন ভিজ্যুয়াল শব্দার্থিক বোঝাপড়া, বস্তুর স্থানীয়করণ, দৃশ্যত-অবস্থিত পাঠ্য বোঝা এবং বহুভাষিকতা।
  • CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
  • OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
  • WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

PaliGemma 2 Gemma 2-এর উপর ভিত্তি করে তৈরি করা হয়েছে, এবং আপনি Gemma 2 মডেল কার্ডে Gemma 2-এর প্রাক-প্রশিক্ষণ ডেটাসেটের তথ্য পেতে পারেন।

ডেটা দায়িত্ব ফিল্টারিং

নিরাপদ এবং দায়িত্বশীল ডেটার উপর PaliGemma 2-কে প্রশিক্ষণের লক্ষ্যে নিম্নলিখিত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে:

  • পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
  • টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
  • টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
  • পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
  • অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma 2 সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma 2 ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরনের একাডেমিক কাজের জন্য PaliGemma 2-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি টাস্কের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

PaliGemma 2 মডেল রেজোলিউশন এবং আকার দ্বারা ফলাফল

বেঞ্চমার্ক 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 ৮৩.২ 76.0 ৮৪.৪ ৮৪.৬
AOKVQA-DA (val) 64.2 ৬৮.৯ 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 ৮৩.৭ ৮৪.৭ ৮২.৫ ৮৫.৯ 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
কোকোক্যাপ 141.3 143.7 144.0 143.4 145.0 145.2
চার্টকিউএ (গড়) 74.4 74.2 ৬৮.৯ ৮৯.২ 90.1 ৮৫.১
চার্টকিউএ (মানুষ) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 ৮৬.৪ 82.0 ৮৫.৩ ৮৭.৪
DocVQA (val) ৩৯.৯ 43.9 44.9 73.6 76.6 76.1
জিকিউএ ৬৬.২ 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) ৮৩.৫ ৮৯.৫ 90.6 ৮২.৭ ৮৯.১ ৮৯.৭
MSRVTT-CAP ৬৮.৫ 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
ওকেভিকিউএ 64.2 68.0 71.2 64.1 ৬৮.৬ 70.6
RSVQA-hr (পরীক্ষা) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (পরীক্ষা2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (টেস্টএ) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (পরীক্ষাবি) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (টেস্টএ) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (পরীক্ষাবি) 64.2 ৬৮.৪ 67.1 67.0 71.1 ৬৮.৬
RefCOCO+ (val) ৬৮.৬ 72.0 70.3 72.1 74.4 72.8
RefCOCOg (পরীক্ষা) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 ৮১.৮
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (জটিল) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (সহজ) ৮১.৮ ৮৩.২ ৮৩.৪ ৮৫.৩ ৮৬.২ ৮৫.৭
টেক্সটক্যাপস 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 ৮২.৭ - - - -
VQAv2 (মিনিভাল) 83.0 84.3 ৮৪.৫ ৮৪.৮ ৮৫.৮ ৮৫.৮
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
উইজেটক্যাপ 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 ৮১.৫ 81.0
xGQA (avg7) 58.6 61.4 61.1 ৬০.৪ 62.6 62.1

অতিরিক্ত মানদণ্ড

ICDAR 2015 ঘটনাগত

মডেল যথার্থতা স্মরণ করুন F1
PaliGemma 2 3B ৮১.৮৮ 70.73 75.9

টোটাল-টেক্সট

মডেল যথার্থতা স্মরণ করুন F1
PaliGemma 2 3B 73.8। 74.54 74.17

FinTabNet

মডেল এস-টেডস TEDS GriTS-শীর্ষ GriTS-Con
PaliGemma 2 3B 99.18 ৯৮.৯৪ 99.43 99.21

পাবট্যাবনেট

মডেল এস-টেডস TEDS GriTS-শীর্ষ GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

গ্র্যান্ড স্টাফ

মডেল সিইআর এলইআর এসইআর
PaliGemma 2 3B 1.6 ৬.৭ 2.3

পাবকেম

  • PaliGemma 2 3B, সম্পূর্ণ মিল: 94.8

DOCCI

মডেল avg#char গড় #প্রেরিত NES %
PaliGemma 2 3B 529 ৭.৭৪ 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char : অক্ষরের গড় সংখ্যা
  • avg#sent : বাক্যের গড় সংখ্যা
  • NES : নন-এনটেইলমেন্ট বাক্য

MIMIC-CXR

মডেল CIDER BLEU4 রুজ-এল RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

ভিজ্যুয়াল স্থানিক যুক্তি

মডেল ভিএসআর জিরোশট স্প্লিট (পরীক্ষা) ভিএসআর র্যান্ডম স্প্লিট (পরীক্ষা)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতিতে প্রাসঙ্গিক বিষয়বস্তু নীতি জুড়ে কাঠামোবদ্ধ নৈতিকতা এবং নিরাপত্তা মূল্যায়ন অন্তর্ভুক্ত রয়েছে, যার মধ্যে রয়েছে:

  • শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
  • ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

  • নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
  • দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক অনুভূত লিঙ্গ জাতিসত্তা বয়স গ্রুপ
মডেলের আকার 3B 10B 28B 3B 10B 28B 3B 10B 28B
সর্বোচ্চ
বিষাক্ততা 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
আইডেন্টিটি অ্যাটাক ০.০৪% ০.০২% ০.০২% 0.13% ০.০৬% ০.০৬% ০.০৬% ০.০৩% ০.০৬%
অপমান 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
হুমকি 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
মাঝামাঝি
বিষাক্ততা 0.13% 0.10% 0.18% ০.০৭% ০.০৭% 0.14% 0.12% ০.০৮% 0.12%
আইডেন্টিটি অ্যাটাক ০.০২% ০.০১% ০.০২% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
অপমান 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% ০.০৯% 0.18% 0.16%
হুমকি 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷

সুনির্দিষ্ট দৃষ্টি-ভাষা টাস্কে সূক্ষ্ম সুর:

  • প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
  • পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
  • প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

  • প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

  • অন্তর্নিহিত জেমা 2 মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
    • VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
    • ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
  • PaliGemma 2 প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজগুলিতে ফাইন-টিউনিং করার জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
  • PaliGemma 2 একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।
,

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

PaliGemma 2 হল PaliGemma vision-language model (VLM) এর একটি আপডেট যা জেমা 2 মডেলের ক্ষমতাকে অন্তর্ভুক্ত করে। মডেলের PaliGemma পরিবার PaLI-3 দ্বারা অনুপ্রাণিত এবং SigLIP দৃষ্টি মডেল এবং Gemma 2 ভাষার মডেলের মতো খোলা উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma 2 হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের সংমিশ্রণ। টেক্সট ডিকোডার Gemma 2 থেকে 2B, 9B, এবং 27B প্যারামিটার আকারে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। মূল PaliGemma মডেলের মতো, PaliGemma 2 PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত।

ইনপুট এবং আউটপুট

  • ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

উদ্ধৃতি

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

মডেল ডেটা

প্রাক-ট্রেন ডেটাসেট

PaliGemma 2 নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

  • WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। ওয়েবএলআই বিভক্তের একটি বিস্তৃত পরিসর বহুমুখী মডেলের ক্ষমতা অর্জনের জন্য ব্যবহৃত হয়, যেমন ভিজ্যুয়াল শব্দার্থিক বোঝাপড়া, বস্তুর স্থানীয়করণ, দৃশ্যত-অবস্থিত পাঠ্য বোঝা এবং বহুভাষিকতা।
  • CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
  • VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
  • OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
  • WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

PaliGemma 2 Gemma 2-এর উপর ভিত্তি করে তৈরি করা হয়েছে, এবং আপনি Gemma 2 মডেল কার্ডে Gemma 2-এর প্রাক-প্রশিক্ষণ ডেটাসেটের তথ্য পেতে পারেন।

ডেটা দায়িত্ব ফিল্টারিং

নিরাপদ এবং দায়িত্বশীল ডেটার উপর PaliGemma 2-কে প্রশিক্ষণের লক্ষ্যে নিম্নলিখিত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে:

  • পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
  • টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
  • টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
  • পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
  • অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma 2 সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma 2 ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরনের একাডেমিক কাজের জন্য PaliGemma 2-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি টাস্কের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

PaliGemma 2 মডেল রেজোলিউশন এবং আকার দ্বারা ফলাফল

বেঞ্চমার্ক 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 ৮৩.২ 76.0 ৮৪.৪ ৮৪.৬
AOKVQA-DA (val) 64.2 ৬৮.৯ 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 ৮৩.৭ ৮৪.৭ ৮২.৫ ৮৫.৯ 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
কোকোক্যাপ 141.3 143.7 144.0 143.4 145.0 145.2
চার্টকিউএ (গড়) 74.4 74.2 ৬৮.৯ ৮৯.২ 90.1 ৮৫.১
চার্টকিউএ (মানুষ) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 ৮৬.৪ 82.0 ৮৫.৩ ৮৭.৪
DocVQA (val) ৩৯.৯ 43.9 44.9 73.6 76.6 76.1
জিকিউএ ৬৬.২ 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) ৮৩.৫ ৮৯.৫ 90.6 ৮২.৭ ৮৯.১ ৮৯.৭
MSRVTT-CAP ৬৮.৫ 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
ওকেভিকিউএ 64.2 68.0 71.2 64.1 ৬৮.৬ 70.6
RSVQA-hr (পরীক্ষা) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (পরীক্ষা2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (টেস্টএ) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (পরীক্ষাবি) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (টেস্টএ) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (পরীক্ষাবি) 64.2 ৬৮.৪ 67.1 67.0 71.1 ৬৮.৬
RefCOCO+ (val) ৬৮.৬ 72.0 70.3 72.1 74.4 72.8
RefCOCOg (পরীক্ষা) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 ৮১.৮
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (জটিল) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (সহজ) ৮১.৮ ৮৩.২ ৮৩.৪ ৮৫.৩ ৮৬.২ ৮৫.৭
টেক্সটক্যাপস 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 ৮২.৭ - - - -
VQAv2 (মিনিভাল) 83.0 84.3 ৮৪.৫ ৮৪.৮ ৮৫.৮ ৮৫.৮
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
উইজেটক্যাপ 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 ৮১.৫ 81.0
xGQA (avg7) 58.6 61.4 61.1 ৬০.৪ 62.6 62.1

অতিরিক্ত মানদণ্ড

ICDAR 2015 ঘটনাগত

মডেল যথার্থতা স্মরণ করুন F1
PaliGemma 2 3B ৮১.৮৮ 70.73 75.9

টোটাল-টেক্সট

মডেল যথার্থতা স্মরণ করুন F1
PaliGemma 2 3B 73.8। 74.54 74.17

FinTabNet

মডেল এস-টেডস TEDS GriTS-শীর্ষ GriTS-Con
PaliGemma 2 3B 99.18 ৯৮.৯৪ 99.43 99.21

পাবট্যাবনেট

মডেল এস-টেডস TEDS GriTS-শীর্ষ GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

গ্র্যান্ড স্টাফ

মডেল সিইআর এলইআর এসইআর
PaliGemma 2 3B 1.6 ৬.৭ 2.3

পাবকেম

  • PaliGemma 2 3B, সম্পূর্ণ মিল: 94.8

DOCCI

মডেল avg#char গড় #প্রেরিত NES %
PaliGemma 2 3B 529 ৭.৭৪ 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char : অক্ষরের গড় সংখ্যা
  • avg#sent : বাক্যের গড় সংখ্যা
  • NES : নন-এনটেইলমেন্ট বাক্য

MIMIC-CXR

মডেল CIDER BLEU4 রুজ-এল RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

ভিজ্যুয়াল স্থানিক যুক্তি

মডেল ভিএসআর জিরোশট স্প্লিট (পরীক্ষা) ভিএসআর র্যান্ডম স্প্লিট (পরীক্ষা)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতিতে প্রাসঙ্গিক বিষয়বস্তু নীতি জুড়ে কাঠামোবদ্ধ নৈতিকতা এবং নিরাপত্তা মূল্যায়ন অন্তর্ভুক্ত রয়েছে, যার মধ্যে রয়েছে:

  • শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
  • ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

  • নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
  • দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক অনুভূত লিঙ্গ জাতিসত্তা বয়স গ্রুপ
মডেলের আকার 3B 10B 28B 3B 10B 28B 3B 10B 28B
সর্বোচ্চ
বিষাক্ততা 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
আইডেন্টিটি অ্যাটাক ০.০৪% ০.০২% ০.০২% 0.13% ০.০৬% ০.০৬% ০.০৬% ০.০৩% ০.০৬%
অপমান 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
হুমকি 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
মাঝামাঝি
বিষাক্ততা 0.13% 0.10% 0.18% ০.০৭% ০.০৭% 0.14% 0.12% ০.০৮% 0.12%
আইডেন্টিটি অ্যাটাক ০.০২% ০.০১% ০.০২% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
অপমান 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% ০.০৯% 0.18% 0.16%
হুমকি 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0.40%
অশ্লীলতা 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷

সুনির্দিষ্ট দৃষ্টি-ভাষা টাস্কে সূক্ষ্ম সুর:

  • প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
  • পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
  • প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

  • প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

  • অন্তর্নিহিত জেমা 2 মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
    • VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
    • ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
  • PaliGemma 2 প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজগুলিতে ফাইন-টিউনিং করার জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
  • PaliGemma 2 একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।