প্রজন্ম এবং টিউনিং উদাহরণের জন্য জেমমা কুকবুক সংগ্রহস্থল দেখুন! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

PaliGemma 2 মডেল কার্ড

মডেল পৃষ্ঠা: PaliGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

PaliGemma 2 হল PaliGemma vision-language model (VLM) এর একটি আপডেট যা জেমা 2 মডেলের ক্ষমতাকে অন্তর্ভুক্ত করে। মডেলের PaliGemma পরিবার PaLI-3 দ্বারা অনুপ্রাণিত এবং SigLIP দৃষ্টি মডেল এবং Gemma 2 ভাষার মডেলের মতো খোলা উপাদানগুলির উপর ভিত্তি করে। এটি ইনপুট হিসাবে ইমেজ এবং টেক্সট উভয়ই নেয় এবং আউটপুট হিসাবে টেক্সট তৈরি করে, একাধিক ভাষা সমর্থন করে। এটি চিত্র এবং সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পড়া, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশনের মতো বিস্তৃত দৃষ্টি-ভাষা কার্যগুলিতে ক্লাস-নেতৃস্থানীয় সূক্ষ্ম-টিউন পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে।

মডেল আর্কিটেকচার

PaliGemma 2 হল একটি ট্রান্সফরমার ডিকোডার এবং একটি ভিশন ট্রান্সফরমার ইমেজ এনকোডারের সংমিশ্রণ। টেক্সট ডিকোডার Gemma 2 থেকে 2B, 9B, এবং 27B প্যারামিটার আকারে শুরু করা হয়েছে। ইমেজ এনকোডারটি SigLIP-So400m/14 থেকে শুরু করা হয়েছে। মূল PaliGemma মডেলের মতো, PaliGemma 2 PaLI-3 রেসিপি অনুসরণ করে প্রশিক্ষিত।

ইনপুট এবং আউটপুট

ইনপুট: ইমেজ এবং টেক্সট স্ট্রিং, যেমন ইমেজ ক্যাপশন করার জন্য একটি প্রম্পট, বা একটি প্রশ্ন।
আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে তৈরি করা পাঠ্য, যেমন চিত্রের ক্যাপশন, একটি প্রশ্নের উত্তর, অবজেক্ট বাউন্ডিং বক্স স্থানাঙ্কের একটি তালিকা, বা বিভাজন কোডওয়ার্ড।

উদ্ধৃতি

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

মডেল ডেটা

প্রাক-ট্রেন ডেটাসেট

PaliGemma 2 নিম্নলিখিত ডেটাসেটের মিশ্রণে প্রাক-প্রশিক্ষিত:

WebLI: WebLI (ওয়েব ল্যাঙ্গুয়েজ ইমেজ) হল একটি ওয়েব-স্কেল বহুভাষিক ইমেজ-টেক্সট ডেটাসেট যা পাবলিক ওয়েব থেকে তৈরি। ওয়েবএলআই বিভক্তের একটি বিস্তৃত পরিসর বহুমুখী মডেলের ক্ষমতা অর্জনের জন্য ব্যবহৃত হয়, যেমন ভিজ্যুয়াল শব্দার্থিক বোঝাপড়া, বস্তুর স্থানীয়করণ, দৃশ্যত-অবস্থিত পাঠ্য বোঝা এবং বহুভাষিকতা।
CC3M-35L: ওয়েবপেজ থেকে কিউরেট করা ইংরেজি ইমেজ-alt_text জোড়া ( শর্মা এট আল।, 2018 )। আমরা 34টি অতিরিক্ত ভাষায় অনুবাদ করতে Google ক্লাউড অনুবাদ API ব্যবহার করেছি।
VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M এর একটি উপসেট ( Changpinyo et al., 2022a ), Google Cloud Translation API ব্যবহার করে CC3M-35L এর মতো একই অতিরিক্ত 34টি ভাষায় অনুবাদ করা হয়েছে।
OpenImages: সনাক্তকরণ এবং অবজেক্ট-সচেতন প্রশ্ন এবং উত্তর ( Piergiovanni et al. 2022 ) OpenImages ডেটাসেটে হাতে তৈরি নিয়ম দ্বারা তৈরি।
WIT: উইকিপিডিয়া থেকে সংগৃহীত ছবি এবং পাঠ্য ( শ্রীনিবাসন এট আল।, 2021 )।

PaliGemma 2 Gemma 2-এর উপর ভিত্তি করে তৈরি করা হয়েছে, এবং আপনি Gemma 2 মডেল কার্ডে Gemma 2-এর প্রাক-প্রশিক্ষণ ডেটাসেটের তথ্য পেতে পারেন।

ডেটা দায়িত্ব ফিল্টারিং

নিরাপদ এবং দায়িত্বশীল ডেটার উপর PaliGemma 2-কে প্রশিক্ষণের লক্ষ্যে নিম্নলিখিত ফিল্টারগুলি WebLI-তে প্রয়োগ করা হয়েছে:

পর্নোগ্রাফিক ছবি ফিল্টারিং: এই ফিল্টারটি পর্নোগ্রাফিক প্রকৃতির বলে মনে করা ছবিগুলিকে সরিয়ে দেয়।
টেক্সট সেফটি ফিল্টারিং: আমরা অনিরাপদ টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করি এবং ফিল্টার আউট করি। অনিরাপদ টেক্সট হল শিশু যৌন নির্যাতনের চিত্র (CSAI), পর্নোগ্রাফি, অশ্লীলতা, বা অন্যথায় আপত্তিকর বলে মনে করা হয় বা সম্বন্ধে মনে করা হয়।
টেক্সট টক্সিসিটি ফিল্টারিং: অপমানজনক, অশ্লীল, ঘৃণ্য বা অন্যথায় বিষাক্ত বলে মনে করা টেক্সটের সাথে পেয়ার করা ছবি শনাক্ত করতে এবং ফিল্টার করার জন্য আমরা আরও পরিপ্রেক্ষিত API ব্যবহার করি।
পাঠ্য ব্যক্তিগত তথ্য ফিল্টারিং: ব্যক্তিদের গোপনীয়তা রক্ষা করতে আমরা ক্লাউড ডেটা লস প্রিভেনশন (DLP) API ব্যবহার করে কিছু ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করেছি। সোশ্যাল সিকিউরিটি নম্বর এবং অন্যান্য সংবেদনশীল তথ্যের ধরনগুলির মতো শনাক্তকারীগুলি সরানো হয়েছে৷
অতিরিক্ত পদ্ধতি: আমাদের নীতি এবং অনুশীলনের সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

হার্ডওয়্যার

PaliGemma 2 সর্বশেষ প্রজন্মের টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) ব্যবহার করে প্রশিক্ষিত হয়েছিল।

সফটওয়্যার

JAX , Flax , TFDS এবং big_vision ব্যবহার করে প্রশিক্ষণ সম্পন্ন করা হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

TFDS ডেটাসেট অ্যাক্সেস করতে ব্যবহৃত হয় এবং মডেল আর্কিটেকচারের জন্য Flax ব্যবহার করা হয়। PaliGemma 2 ফাইন-টিউন কোড এবং ইনফারেন্স কোড big_vision GitHub সংগ্রহস্থলে প্রকাশ করা হয়েছে।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

বিভিন্ন ধরনের একাডেমিক কাজের জন্য PaliGemma 2-এর স্থানান্তরযোগ্যতা যাচাই করার জন্য, আমরা প্রতিটি টাস্কের পূর্বপ্রশিক্ষিত মডেলগুলিকে সূক্ষ্ম-টিউন করি। উপরন্তু, আমরা স্থানান্তর কাজের মিশ্রণের সাথে মিশ্রণ মডেলকে প্রশিক্ষণ দিই। বর্ধিত রেজোলিউশন থেকে কোন কার্যগুলি উপকৃত হয় তার একটি ধারণা প্রদান করতে আমরা বিভিন্ন রেজোলিউশনের ফলাফলগুলি প্রতিবেদন করি৷ গুরুত্বপূর্ণভাবে, এই কাজগুলি বা ডেটাসেটগুলির কোনওটিই প্রি-ট্রেনিং ডেটা মিশ্রণের অংশ নয় এবং তাদের ছবিগুলি ওয়েব-স্কেল প্রাক-প্রশিক্ষণ ডেটা থেকে স্পষ্টভাবে সরানো হয়।

PaliGemma 2 মডেল রেজোলিউশন এবং আকার দ্বারা ফলাফল

বেঞ্চমার্ক	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	৮৩.২	76.0	৮৪.৪	৮৪.৬
AOKVQA-DA (val)	64.2	৬৮.৯	70.2	67.9	70.8	71.2
AOKVQA-MC (val)	79.7	৮৩.৭	৮৪.৭	৮২.৫	৮৫.৯	87.0
ActivityNet-CAP	34.2	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (avg34)	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L (en)	138.4	140.8	142.4	140.4	142.4	142.3
কোকোক্যাপ	141.3	143.7	144.0	143.4	145.0	145.2
চার্টকিউএ (গড়)	74.4	74.2	৬৮.৯	৮৯.২	90.1	৮৫.১
চার্টকিউএ (মানুষ)	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	৮৬.৪	82.0	৮৫.৩	৮৭.৪
DocVQA (val)	৩৯.৯	43.9	44.9	73.6	76.6	76.1
জিকিউএ	৬৬.২	67.2	67.3	68.1	68.3	68.3
InfoVQA (val)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL (avg5)	৮৩.৫	৮৯.৫	90.6	৮২.৭	৮৯.১	৮৯.৭
MSRVTT-CAP	৬৮.৫	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
ওকেভিকিউএ	64.2	68.0	71.2	64.1	৬৮.৬	70.6
RSVQA-hr (পরীক্ষা)	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr (পরীক্ষা2)	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (টেস্টএ)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (পরীক্ষাবি)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO (val)	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (টেস্টএ)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (পরীক্ষাবি)	64.2	৬৮.৪	67.1	67.0	71.1	৬৮.৬
RefCOCO+ (val)	৬৮.৬	72.0	70.3	72.1	74.4	72.8
RefCOCOg (পরীক্ষা)	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (val)	68.3	71.4	70.5	72.3	74.4	73.0
ST-VQA (val)	61.9	64.3	65.1	80.5	82.0	৮১.৮
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA (জটিল)	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA (সহজ)	৮১.৮	৮৩.২	৮৩.৪	৮৫.৩	৮৬.২	৮৫.৭
টেক্সটক্যাপস	127.5	137.9	139.9	152.1	157.7	153.6
TextVQA (val)	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	৮২.৭	-	-	-	-
VQAv2 (মিনিভাল)	83.0	84.3	৮৪.৫	৮৪.৮	৮৫.৮	৮৫.৮
VizWizVQA (val)	76.4	78.1	78.7	77.5	78.6	78.9
উইজেটক্যাপ	138.1	139.8	138.8	151.4	151.9	148.9
XM3600 (avg35)	42.8	44.5	45.2	43.2	44.6	45.2
XM3600 (en)	79.8	80.7	81.0	80.3	৮১.৫	81.0
xGQA (avg7)	58.6	61.4	61.1	৬০.৪	62.6	62.1

অতিরিক্ত মানদণ্ড

ICDAR 2015 ঘটনাগত

মডেল	যথার্থতা	স্মরণ করুন	F1
PaliGemma 2 3B	৮১.৮৮	70.73	75.9

টোটাল-টেক্সট

মডেল	যথার্থতা	স্মরণ করুন	F1
PaliGemma 2 3B	73.8।	74.54	74.17

FinTabNet

মডেল	এস-টেডস	TEDS	GriTS-শীর্ষ	GriTS-Con
PaliGemma 2 3B	99.18	৯৮.৯৪	99.43	99.21

পাবট্যাবনেট

মডেল	এস-টেডস	TEDS	GriTS-শীর্ষ	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

গ্র্যান্ড স্টাফ

মডেল	সিইআর	এলইআর	এসইআর
PaliGemma 2 3B	1.6	৬.৭	2.3

পাবকেম

PaliGemma 2 3B, সম্পূর্ণ মিল: 94.8

DOCCI

মডেল	avg#char	গড় #প্রেরিত	NES %
PaliGemma 2 3B	529	৭.৭৪	28.42
PaliGemma 2 10B	521	7.45	20.27

avg#char : অক্ষরের গড় সংখ্যা
avg#sent : বাক্যের গড় সংখ্যা
NES : নন-এনটেইলমেন্ট বাক্য

MIMIC-CXR

মডেল	CIDER	BLEU4	রুজ-এল	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

ভিজ্যুয়াল স্থানিক যুক্তি

মডেল	ভিএসআর জিরোশট স্প্লিট (পরীক্ষা)	ভিএসআর র্যান্ডম স্প্লিট (পরীক্ষা)
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

নৈতিকতা এবং নিরাপত্তা

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতিতে প্রাসঙ্গিক বিষয়বস্তু নীতি জুড়ে কাঠামোবদ্ধ নৈতিকতা এবং নিরাপত্তা মূল্যায়ন অন্তর্ভুক্ত রয়েছে, যার মধ্যে রয়েছে:

শিশু নিরাপত্তা, বিষয়বস্তু নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতি কভার প্রম্পট উপর মানব মূল্যায়ন. মূল্যায়ন পদ্ধতির আরও বিশদ বিবরণের জন্য জেমা মডেল কার্ডটি দেখুন, তবে চিত্রের ক্যাপশন এবং ভিজ্যুয়াল প্রশ্নের উত্তর সেটআপ সহ।
ইমেজ-টু-টেক্সট বেঞ্চমার্ক মূল্যায়ন: প্রাসঙ্গিক একাডেমিক ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক যেমন ফেয়ারফেস ডেটাসেট ( Karkkainen et al., 2021 )।

মূল্যায়ন ফলাফল

নৈতিকতা এবং নিরাপত্তা মূল্যায়নের মানব মূল্যায়নের ফলাফল শিশু নিরাপত্তা, বিষয়বস্তুর নিরাপত্তা এবং প্রতিনিধিত্বমূলক ক্ষতির মতো বিভাগের অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে।
দৃঢ় অভ্যন্তরীণ মূল্যায়নের উপরে, আমরা ফেয়ারফেস ডেটাসেট থেকে প্রাপ্ত চিত্রগুলির জন্য জেনারেট করা ক্যাপশনগুলিতে বিষাক্ততা, অশ্লীলতা এবং অন্যান্য সম্ভাব্য সমস্যাগুলি পরিমাপ করতে Perspective API (0.8-এর থ্রেশহোল্ড) ব্যবহার করি৷ আমরা প্রতিটি অনুভূত লিঙ্গ, জাতিগততা এবং বয়সের বৈশিষ্ট্যগুলির জন্য উপগোষ্ঠী জুড়ে পরিলক্ষিত সর্বাধিক এবং মধ্যম মানগুলি রিপোর্ট করি৷

মেট্রিক	অনুভূত লিঙ্গ			জাতিসত্তা			বয়স গ্রুপ
মডেলের আকার	3B	10B	28B	3B	10B	28B	3B	10B	28B
	সর্বোচ্চ
বিষাক্ততা	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
আইডেন্টিটি অ্যাটাক	০.০৪%	০.০২%	০.০২%	0.13%	০.০৬%	০.০৬%	০.০৬%	০.০৩%	০.০৬%
অপমান	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
হুমকি	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
অশ্লীলতা	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	মাঝামাঝি
বিষাক্ততা	0.13%	0.10%	0.18%	০.০৭%	০.০৭%	0.14%	0.12%	০.০৮%	0.12%
আইডেন্টিটি অ্যাটাক	০.০২%	০.০১%	০.০২%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
অপমান	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	০.০৯%	0.18%	0.16%
হুমকি	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0.40%
অশ্লীলতা	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

ব্যবহার এবং সীমাবদ্ধতা

উদ্দেশ্য ব্যবহার

ওপেন ভিশন ল্যাঙ্গুয়েজ মডেলের (ভিএলএম) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷

সুনির্দিষ্ট দৃষ্টি-ভাষা টাস্কে সূক্ষ্ম সুর:

প্রাক-প্রশিক্ষিত মডেলগুলি দৃষ্টি-ভাষা কাজের একটি বিস্তৃত পরিসরে সূক্ষ্ম-টিউন করা যেতে পারে যেমন: চিত্রের ক্যাপশনিং, সংক্ষিপ্ত ভিডিও ক্যাপশন, ভিজ্যুয়াল প্রশ্নের উত্তর, পাঠ্য পাঠ, অবজেক্ট সনাক্তকরণ এবং অবজেক্ট সেগমেন্টেশন।
পূর্ব-প্রশিক্ষিত মডেলগুলি নির্দিষ্ট ডোমেনের জন্য সুনির্দিষ্টভাবে তৈরি করা যেতে পারে যেমন রিমোট সেন্সিং প্রশ্নের উত্তর, অন্ধদের কাছ থেকে চাক্ষুষ প্রশ্ন, বিজ্ঞানের প্রশ্নের উত্তর, UI উপাদান কার্যকারিতা বর্ণনা করে।
প্রাক-প্রশিক্ষিত মডেলগুলি অ-টেক্সচুয়াল আউটপুট যেমন বাউন্ডিং বক্স বা সেগমেন্টেশন মাস্ক সহ কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে।

দৃষ্টি-ভাষা গবেষণা:

প্রাক-প্রশিক্ষিত মডেল এবং সূক্ষ্ম-টিউনড মডেলগুলি গবেষকদের VLM কৌশলগুলি নিয়ে পরীক্ষা করার, অ্যালগরিদমগুলি বিকাশ করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসাবে কাজ করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

দৃষ্টি-ভাষা মডেলের (ভিএলএম) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

পক্ষপাত এবং ন্যায্যতা
- বড় আকারের, বাস্তব-বিশ্বের ইমেজ-টেক্সট ডেটাতে প্রশিক্ষিত VLMগুলি প্রশিক্ষণ সামগ্রীতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতগুলি প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
ভুল তথ্য এবং অপব্যবহার
- মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে VLM অপব্যবহার করা যেতে পারে।
- মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
স্বচ্ছতা এবং জবাবদিহিতা
- এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
- একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল AI ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে VLM প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। ব্যবহারকারীদের অপব্যবহারের পতাকাঙ্কিত করার জন্য শিক্ষামূলক সংস্থান এবং রিপোর্টিং প্রক্রিয়া সরবরাহ করা হয়েছে: দায়বদ্ধ জেনারেটিভ এআই টুলকিট দেখুন। জেমা মডেলগুলির নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
গোপনীয়তা লঙ্ঘন: মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং সংবেদনশীল ডেটা মুছে ফেলার জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সীমাবদ্ধতা

অন্তর্নিহিত জেমা 2 মডেল থেকে উত্তরাধিকারসূত্রে প্রাপ্ত বেশিরভাগ সীমাবদ্ধতা এখনও প্রযোজ্য:
- স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে VLMগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
- প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। VLM সূক্ষ্ম সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
- VLMগুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের ভিত্তিতে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
- ভিএলএম ভাষা এবং চিত্রের পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।
PaliGemma 2 প্রথম এবং সর্বাগ্রে ডিজাইন করা হয়েছিল একটি সাধারণ প্রাক-প্রশিক্ষিত মডেল হিসাবে বিশেষায়িত কাজগুলিতে ফাইন-টিউনিং করার জন্য। তাই, এর "আউট অফ দ্য বক্স" বা "জিরো-শট" পারফরম্যান্স সাধারণ উদ্দেশ্যে ব্যবহারের জন্য বিশেষভাবে ডিজাইন করা মডেলগুলির থেকে পিছিয়ে থাকতে পারে।
PaliGemma 2 একটি মাল্টি-টার্ন চ্যাটবট নয়। এটি একটি একক রাউন্ড ইমেজ এবং টেক্সট ইনপুটের জন্য ডিজাইন করা হয়েছে।