মডেল পৃষ্ঠা: PaliGemma
সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:
ব্যবহারের শর্তাবলী: শর্তাবলী
লেখক: গুগল
মডেল তথ্য
মডেল সারাংশ
PaliGemma 2 হল PaliGemma vision-language model (VLM) এর একটি আপডেট যা জেমা 2 মডেলের ক্ষমতাকে অন্তর্ভুক্ত করে। মডেলের PaliGemma পরিবার PaLI-3 দ্বারা অনুপ্রাণিত এবং SigLIP দৃষ্টি মডেল এবং Gemma 2 ভাষার মডেলের মতো খোলা উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।
মডেল আর্কিটেকচার
PaliGemma 2 হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের সংমিশ্রণ। টেক্সট ডিকোডার Gemma 2 থেকে 2B, 9B, এবং 27B প্যারামিটার আকারে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। মূল PaliGemma মডেলের মতো, PaliGemma 2 PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত।
ইনপুট এবং আউটপুট
- ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
- আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।
উদ্ধৃতি
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
মডেল ডেটা
প্রাক-ট্রেন ডেটাসেট
PaliGemma 2 নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:
- WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। ওয়েবএলআই বিভক্তের একটি বিস্তৃত পরিসর বহুমুখী মডেলের ক্ষমতা অর্জনের জন্য ব্যবহৃত হয়, যেমন ভিজ্যুয়াল শব্দার্থিক বোঝাপড়া, বস্তুর স্থানীয়করণ, দৃশ্যত-অবস্থিত পাঠ্য বোঝা এবং বহুভাষিকতা।
- CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
- OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
- WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।
PaliGemma 2 Gemma 2-এর উপর ভিত্তি করে তৈরি করা হয়েছে, এবং আপনি Gemma 2 মডেল কার্ডে Gemma 2-এর প্রাক-প্রশিক্ষণ ডেটাসেটের তথ্য পেতে পারেন।
ডেটা দায়িত্ব ফিল্টারিং
নিরাপদ এবং দায়িত্বশীল ডেটার উপর PaliGemma 2-কে প্রশিক্ষণের লক্ষ্যে নিম্নলিখিত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে:
- পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
- টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
- টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
- পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
- অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।
বাস্তবায়ন তথ্য
হার্ডওয়্যার
PaliGemma 2 সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।
সফটওয়্যার
JAX , Flax , TFDS এবং big_vision
ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।
JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।
TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma 2 ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision
GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।
মূল্যায়ন তথ্য
বেঞ্চমার্ক ফলাফল
বিভিন্ন ধরনের একাডেমিক কাজের জন্য PaliGemma 2-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি টাস্কের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।
PaliGemma 2 মডেল রেজোলিউশন এবং আকার দ্বারা ফলাফল
বেঞ্চমার্ক | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | ৮৩.২ | 76.0 | ৮৪.৪ | ৮৪.৬ |
AOKVQA-DA (val) | 64.2 | ৬৮.৯ | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | ৮৩.৭ | ৮৪.৭ | ৮২.৫ | ৮৫.৯ | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
কোকোক্যাপ | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
চার্টকিউএ (গড়) | 74.4 | 74.2 | ৬৮.৯ | ৮৯.২ | 90.1 | ৮৫.১ |
চার্টকিউএ (মানুষ) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | ৮৬.৪ | 82.0 | ৮৫.৩ | ৮৭.৪ |
DocVQA (val) | ৩৯.৯ | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
জিকিউএ | ৬৬.২ | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (avg5) | ৮৩.৫ | ৮৯.৫ | 90.6 | ৮২.৭ | ৮৯.১ | ৮৯.৭ |
MSRVTT-CAP | ৬৮.৫ | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
ওকেভিকিউএ | 64.2 | 68.0 | 71.2 | 64.1 | ৬৮.৬ | 70.6 |
RSVQA-hr (পরীক্ষা) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (পরীক্ষা2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (টেস্টএ) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (পরীক্ষাবি) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (টেস্টএ) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (পরীক্ষাবি) | 64.2 | ৬৮.৪ | 67.1 | 67.0 | 71.1 | ৬৮.৬ |
RefCOCO+ (val) | ৬৮.৬ | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (পরীক্ষা) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | ৮১.৮ |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (জটিল) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (সহজ) | ৮১.৮ | ৮৩.২ | ৮৩.৪ | ৮৫.৩ | ৮৬.২ | ৮৫.৭ |
টেক্সটক্যাপস | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | ৮২.৭ | - | - | - | - |
VQAv2 (মিনিভাল) | 83.0 | 84.3 | ৮৪.৫ | ৮৪.৮ | ৮৫.৮ | ৮৫.৮ |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
উইজেটক্যাপ | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (avg35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | ৮১.৫ | 81.0 |
xGQA (avg7) | 58.6 | 61.4 | 61.1 | ৬০.৪ | 62.6 | 62.1 |
অতিরিক্ত মানদণ্ড
মডেল | যথার্থতা | স্মরণ করুন | F1 |
---|---|---|---|
PaliGemma 2 3B | ৮১.৮৮ | 70.73 | 75.9 |
মডেল | যথার্থতা | স্মরণ করুন | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8। | 74.54 | 74.17 |
মডেল | এস-টেডস | TEDS | GriTS-শীর্ষ | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | ৯৮.৯৪ | 99.43 | 99.21 |
মডেল | এস-টেডস | TEDS | GriTS-শীর্ষ | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
মডেল | সিইআর | এলইআর | এসইআর |
---|---|---|---|
PaliGemma 2 3B | 1.6 | ৬.৭ | 2.3 |
- PaliGemma 2 3B, সম্পূর্ণ মিল: 94.8
মডেল | avg#char | গড় #প্রেরিত | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | ৭.৭৪ | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char : অক্ষরের গড় সংখ্যা
- avg#sent : বাক্যের গড় সংখ্যা
- NES : নন-এনটেইলমেন্ট বাক্য
মডেল | CIDER | BLEU4 | রুজ-এল | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
মডেল | ভিএসআর জিরোশট স্প্লিট (পরীক্ষা) | ভিএসআর র্যান্ডম স্প্লিট (পরীক্ষা) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
নৈতিকতা এবং নিরাপত্তা
মূল্যায়ন পদ্ধতি
আমাদের মূল্যায়ন পদ্ধতিতে প্রাসঙ্গিক বিষয়বস্তু নীতি জুড়ে কাঠামোবদ্ধ নৈতিকতা এবং নিরাপত্তা মূল্যায়ন অন্তর্ভুক্ত রয়েছে, যার মধ্যে রয়েছে:
- শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
- ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।
মূল্যায়ন ফলাফল
- নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
- দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক | অনুভূত লিঙ্গ | জাতিসত্তা | বয়স গ্রুপ | ||||||
---|---|---|---|---|---|---|---|---|---|
মডেলের আকার | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
সর্বোচ্চ | |||||||||
বিষাক্ততা | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
আইডেন্টিটি অ্যাটাক | ০.০৪% | ০.০২% | ০.০২% | 0.13% | ০.০৬% | ০.০৬% | ০.০৬% | ০.০৩% | ০.০৬% |
অপমান | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
হুমকি | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
অশ্লীলতা | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
মাঝামাঝি | |||||||||
বিষাক্ততা | 0.13% | 0.10% | 0.18% | ০.০৭% | ০.০৭% | 0.14% | 0.12% | ০.০৮% | 0.12% |
আইডেন্টিটি অ্যাটাক | ০.০২% | ০.০১% | ০.০২% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
অপমান | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | ০.০৯% | 0.18% | 0.16% |
হুমকি | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
অশ্লীলতা | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
ব্যবহার এবং সীমাবদ্ধতা
উদ্দেশ্য ব্যবহার
ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
সুনির্দিষ্ট দৃষ্টি-ভাষা টাস্কে সূক্ষ্ম সুর:
- প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
- পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
- প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।
দৃষ্টি-ভাষা গবেষণা:
- প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।
নৈতিক বিবেচনা এবং ঝুঁকি
দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:
- পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
- ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
- স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।
চিহ্নিত ঝুঁকি এবং প্রশমন:
- পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
- ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
- দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
- গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷
সীমাবদ্ধতা
- অন্তর্নিহিত জেমা 2 মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
- স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
- VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
- PaliGemma 2 প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজগুলিতে ফাইন-টিউনিং করার জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
- PaliGemma 2 একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।
মডেল পৃষ্ঠা: PaliGemma
সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:
ব্যবহারের শর্তাবলী: শর্তাবলী
লেখক: গুগল
মডেল তথ্য
মডেল সারাংশ
PaliGemma 2 হল PaliGemma vision-language model (VLM) এর একটি আপডেট যা জেমা 2 মডেলের ক্ষমতাকে অন্তর্ভুক্ত করে। মডেলের PaliGemma পরিবার PaLI-3 দ্বারা অনুপ্রাণিত এবং SigLIP দৃষ্টি মডেল এবং Gemma 2 ভাষার মডেলের মতো খোলা উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।
মডেল আর্কিটেকচার
PaliGemma 2 হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের সংমিশ্রণ। টেক্সট ডিকোডার Gemma 2 থেকে 2B, 9B, এবং 27B প্যারামিটার আকারে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। মূল PaliGemma মডেলের মতো, PaliGemma 2 PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত।
ইনপুট এবং আউটপুট
- ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
- আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।
উদ্ধৃতি
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
মডেল ডেটা
প্রাক-ট্রেন ডেটাসেট
PaliGemma 2 নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:
- WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। ওয়েবএলআই বিভক্তের একটি বিস্তৃত পরিসর বহুমুখী মডেলের ক্ষমতা অর্জনের জন্য ব্যবহৃত হয়, যেমন ভিজ্যুয়াল শব্দার্থিক বোঝাপড়া, বস্তুর স্থানীয়করণ, দৃশ্যত-অবস্থিত পাঠ্য বোঝা এবং বহুভাষিকতা।
- CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
- OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
- WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।
PaliGemma 2 Gemma 2-এর উপর ভিত্তি করে তৈরি করা হয়েছে, এবং আপনি Gemma 2 মডেল কার্ডে Gemma 2-এর প্রাক-প্রশিক্ষণ ডেটাসেটের তথ্য পেতে পারেন।
ডেটা দায়িত্ব ফিল্টারিং
নিরাপদ এবং দায়িত্বশীল ডেটার উপর PaliGemma 2-কে প্রশিক্ষণের লক্ষ্যে নিম্নলিখিত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে:
- পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
- টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
- টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
- পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
- অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।
বাস্তবায়ন তথ্য
হার্ডওয়্যার
PaliGemma 2 সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।
সফটওয়্যার
JAX , Flax , TFDS এবং big_vision
ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।
JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।
TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma 2 ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision
GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।
মূল্যায়ন তথ্য
বেঞ্চমার্ক ফলাফল
বিভিন্ন ধরনের একাডেমিক কাজের জন্য PaliGemma 2-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি টাস্কের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।
PaliGemma 2 মডেল রেজোলিউশন এবং আকার দ্বারা ফলাফল
বেঞ্চমার্ক | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | ৮৩.২ | 76.0 | ৮৪.৪ | ৮৪.৬ |
AOKVQA-DA (val) | 64.2 | ৬৮.৯ | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | ৮৩.৭ | ৮৪.৭ | ৮২.৫ | ৮৫.৯ | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (avg34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
কোকোক্যাপ | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
চার্টকিউএ (গড়) | 74.4 | 74.2 | ৬৮.৯ | ৮৯.২ | 90.1 | ৮৫.১ |
চার্টকিউএ (মানুষ) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | ৮৬.৪ | 82.0 | ৮৫.৩ | ৮৭.৪ |
DocVQA (val) | ৩৯.৯ | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
জিকিউএ | ৬৬.২ | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (avg5) | ৮৩.৫ | ৮৯.৫ | 90.6 | ৮২.৭ | ৮৯.১ | ৮৯.৭ |
MSRVTT-CAP | ৬৮.৫ | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
ওকেভিকিউএ | 64.2 | 68.0 | 71.2 | 64.1 | ৬৮.৬ | 70.6 |
RSVQA-hr (পরীক্ষা) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (পরীক্ষা2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (টেস্টএ) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (পরীক্ষাবি) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (টেস্টএ) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (পরীক্ষাবি) | 64.2 | ৬৮.৪ | 67.1 | 67.0 | 71.1 | ৬৮.৬ |
RefCOCO+ (val) | ৬৮.৬ | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (পরীক্ষা) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | ৮১.৮ |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (জটিল) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (সহজ) | ৮১.৮ | ৮৩.২ | ৮৩.৪ | ৮৫.৩ | ৮৬.২ | ৮৫.৭ |
টেক্সটক্যাপস | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | ৮২.৭ | - | - | - | - |
VQAv2 (মিনিভাল) | 83.0 | 84.3 | ৮৪.৫ | ৮৪.৮ | ৮৫.৮ | ৮৫.৮ |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
উইজেটক্যাপ | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (avg35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | ৮১.৫ | 81.0 |
xGQA (avg7) | 58.6 | 61.4 | 61.1 | ৬০.৪ | 62.6 | 62.1 |
অতিরিক্ত মানদণ্ড
মডেল | যথার্থতা | স্মরণ করুন | F1 |
---|---|---|---|
PaliGemma 2 3B | ৮১.৮৮ | 70.73 | 75.9 |
মডেল | যথার্থতা | স্মরণ করুন | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8। | 74.54 | 74.17 |
মডেল | এস-টেডস | TEDS | GriTS-শীর্ষ | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | ৯৮.৯৪ | 99.43 | 99.21 |
মডেল | এস-টেডস | TEDS | GriTS-শীর্ষ | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
মডেল | সিইআর | এলইআর | এসইআর |
---|---|---|---|
PaliGemma 2 3B | 1.6 | ৬.৭ | 2.3 |
- PaliGemma 2 3B, সম্পূর্ণ মিল: 94.8
মডেল | avg#char | গড় #প্রেরিত | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | ৭.৭৪ | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char : অক্ষরের গড় সংখ্যা
- avg#sent : বাক্যের গড় সংখ্যা
- NES : নন-এনটেইলমেন্ট বাক্য
মডেল | CIDER | BLEU4 | রুজ-এল | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
মডেল | ভিএসআর জিরোশট স্প্লিট (পরীক্ষা) | ভিএসআর র্যান্ডম স্প্লিট (পরীক্ষা) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
নৈতিকতা এবং নিরাপত্তা
মূল্যায়ন পদ্ধতি
আমাদের মূল্যায়ন পদ্ধতিতে প্রাসঙ্গিক বিষয়বস্তু নীতি জুড়ে কাঠামোবদ্ধ নৈতিকতা এবং নিরাপত্তা মূল্যায়ন অন্তর্ভুক্ত রয়েছে, যার মধ্যে রয়েছে:
- শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
- ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।
মূল্যায়ন ফলাফল
- নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
- দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷
মেট্রিক | অনুভূত লিঙ্গ | জাতিসত্তা | বয়স গ্রুপ | ||||||
---|---|---|---|---|---|---|---|---|---|
মডেলের আকার | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
সর্বোচ্চ | |||||||||
বিষাক্ততা | 0.14% | 0.15% | 0.19% | 0.29% | 0.39% | 0.39% | 0.26% | 0.18% | 0.32% |
আইডেন্টিটি অ্যাটাক | ০.০৪% | ০.০২% | ০.০২% | 0.13% | ০.০৬% | ০.০৬% | ০.০৬% | ০.০৩% | ০.০৬% |
অপমান | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
হুমকি | 0.55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
অশ্লীলতা | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
মাঝামাঝি | |||||||||
বিষাক্ততা | 0.13% | 0.10% | 0.18% | ০.০৭% | ০.০৭% | 0.14% | 0.12% | ০.০৮% | 0.12% |
আইডেন্টিটি অ্যাটাক | ০.০২% | ০.০১% | ০.০২% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
অপমান | 0.15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | ০.০৯% | 0.18% | 0.16% |
হুমকি | 0.35% | 0.27% | 0.41% | 0.28% | 0.19% | 0.42% | 0.27% | 0.31% | 0.40% |
অশ্লীলতা | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
ব্যবহার এবং সীমাবদ্ধতা
উদ্দেশ্য ব্যবহার
ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
সুনির্দিষ্ট দৃষ্টি-ভাষা টাস্কে সূক্ষ্ম সুর:
- প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
- পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
- প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।
দৃষ্টি-ভাষা গবেষণা:
- প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।
নৈতিক বিবেচনা এবং ঝুঁকি
দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:
- পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
- ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
- স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।
চিহ্নিত ঝুঁকি এবং প্রশমন:
- পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
- ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
- দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
- গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷
সীমাবদ্ধতা
- অন্তর্নিহিত জেমা 2 মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
- স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
- VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
- PaliGemma 2 প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজগুলিতে ফাইন-টিউনিং করার জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
- PaliGemma 2 একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।