صفحه مدل: PaliGemma
منابع و مستندات فنی:
شرایط استفاده: شرایط
نویسندگان: گوگل
اطلاعات مدل
خلاصه مدل
توضیحات
PaliGemma یک مدل زبان بینایی همه کاره و سبک (VLM) است که از PaLI-3 الهام گرفته شده است و بر پایه اجزای باز مانند مدل دید SigLIP و مدل زبان Gemma است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.
معماری مدل
PaliGemma ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است که در مجموع 3 میلیارد پارامتر دارد. رمزگشای متن از Gemma-2B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. PaliGemma طبق دستور العمل های PaLI-3 آموزش دیده است.
ورودی ها و خروجی ها
- ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
- خروجی: متنی که در پاسخ به ورودی تولید میشود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیمبندی.
نقل قول
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
داده های مدل
مجموعه داده های قبل از آموزش
PaliGemma روی مجموعه داده های زیر از قبل آموزش دیده است:
- WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گستردهای از تقسیمهای WebLI برای به دست آوردن قابلیتهای مدل همهکاره، مانند درک معنایی بصری، محلیسازی شی، درک متن در موقعیت بصری، چند زبانه بودن و غیره استفاده میشود.
- CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
- VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
- OpenImages: پرسشها و پاسخهای تشخیص و شیآگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دستساز در مجموعه داده OpenImages ایجاد میشود.
- WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).
فیلتر مسئولیت داده ها
فیلترهای زیر با هدف آموزش PaliGemma بر روی داده های پاک برای WebLI اعمال می شوند:
- فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
- فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته میشود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزهنگاری، ابتذال، یا توهینآمیز باشد.
- فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متنهایی که توهینآمیز، زشت، نفرتانگیز یا سمی تلقی میشوند جفت میشوند، استفاده میکنیم.
- فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
- روشهای اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خطمشیها و شیوههای ما.
اطلاعات پیاده سازی
سخت افزار
PaliGemma با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.
نرم افزار
آموزش با استفاده از JAX , Flax , TFDS و big_vision
تکمیل شد .
JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.
TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma و کد استنتاج در مخزن big_vision
GitHub منتشر شده است.
اطلاعات ارزیابی
نتایج محک
به منظور تأیید قابلیت انتقال PaliGemma به طیف گستردهای از وظایف دانشگاهی، مدلهای از پیش آموزشدیدهشده را برای هر کار تنظیم میکنیم. علاوه بر این ما مدل ترکیبی را با ترکیبی از وظایف انتقال آموزش می دهیم. ما نتایج را در وضوحهای مختلف گزارش میکنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه دادهها بخشی از ترکیب دادههای پیشآموزشی نیستند و تصاویر آنها به صراحت از دادههای قبل از آموزش در مقیاس وب حذف میشوند.
تک کار (کوک کردن دقیق در تک کار)
معیار (تقسیم قطار) | متریک (تقسیم) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
زیرنویس | ||||
زیرنویسهای COCO (قطار + استراحت) | سیدر (val) | 141.92 | 144.60 | |
NoCaps (ارزش انتقال زیرنویس COCO) | سیدر (val) | 121.72 | 123.58 | |
COCO-35L (قطار) | توسعه دهنده CIDEr (en/avg-34/avg) | |||
XM3600 (ارزش انتقال COCO-35L) | توسعه دهنده CIDEr (en/avg-34/avg) | |||
TextCaps (قطار) | سیدر (val) | 127.48 | 153.94 | |
SciCap (جمله اول، بدون زیرشکل) (train+val) | CIDER/BLEU-4 (تست) | |||
Screen2words (train+dev) | سیدر (تست) | 117.57 | 119.59 | |
زیرنویس ویجت (train+dev) | سیدر (تست) | 136.07 | 148.36 | |
جواب سوال | ||||
VQAv2 (قطار + اعتبارسنجی) | دقت (سرور تست - std) | 83.19 | 85.64 | |
MMVP (ارزش انتقال VQAv2) | دقت جفت شده | 47.33 | 45.33 | |
POPE (Eval of VQAv2 Transfer) | دقت (تصادفی/محبوب/متخاصم) | |||
OKVQA (قطار) | دقت (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (قطار + val) | دقت (سرور تست) | 76.37 | 76.90 | |
A-OKVQA (DA) (قطار + val) | دقت (سرور تست) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | دقت (testdev متعادل) | 65.61 | 67.03 | |
xGQA (ارزش انتقال GQA) | میانگین دقت (bn، de، en، id، ko، pt، ru، zh) | 58.37 | 59.07 | |
NLVR2 (قطار + توسعه دهنده) | دقت (تست) | 90.02 | 88.93 | |
MaRVL (ارزش انتقال NLVR2) | میانگین دقت (آزمون) (id، sw، ta، tr، zh) | 80.57 | 76.78 | |
AI2D (قطار) | دقت (تست) | 72.12 | 73.28 | |
ScienceQA (زیر مجموعه Img، بدون CoT) (train+val) | دقت (تست) | 95.39 | 95.93 | |
RSVQA-LR (غیر عددی) (قطار + val) | میانگین دقت (آزمون) | 92.65 | 93.11 | |
RSVQA-HR (غیر عددی) (قطار + val) | میانگین دقت (آزمون/آزمون2) | |||
ChartQA (انسان+اوت)x(قطار+وال) | میانگین دقت آرام (test_human، test_aug) | 57.08 | 71.36 | |
VizWiz VQA (قطار + val) | دقت (سرور تست - std) | 73.7 | 75.52 | |
TallyQA (قطار) | دقت (test_sample/test_complex) | |||
OCR-VQA (قطار + val) | دقت (تست) | 72.32 | 74.61 | 74.93 |
TextVQA (قطار + val) | دقت (سرور تست - std) | 55.47 | 73.15 | 76.48 |
DocVQA (train+val) | ANLS (سرور آزمایشی) | 43.74 | 78.02 | 84.77 |
اینفوگرافیک VQA (قطار + val) | ANLS (سرور آزمایشی) | 28.46 | 40.47 | 47.75 |
SceneText VQA (train+val) | ANLS (سرور آزمایشی) | 63.29 | 81.82 | 84.40 |
تقسیم بندی | ||||
RefCOCO (ترکیب refcoco، refcoco+، refcocog به استثنای val و تصاویر آزمایشی) | MIoU ( اعتبار سنجی) refcoco/refcoco+/refcocog | |||
وظایف ویدیویی (Caption/QA) | ||||
MSR-VTT (زیرنویس) | سیدر (تست) | 70.54 | ||
MSR-VTT (QA) | دقت (تست) | 50.09 | ||
ActivityNet (Captioning) | سیدر (تست) | 34.62 | ||
ActivityNet (QA) | دقت (تست) | 50.78 | ||
VATEX (زیرنویس) | سیدر (تست) | 79.73 | ||
MSVD (QA) | دقت (تست) | 60.22 |
مدل ترکیبی (تنظیم دقیق ترکیبی از وظایف انتقال)
معیار | متریک (تقسیم) | mix-224 | mix-448 |
---|---|---|---|
MMVP | دقت جفت شده | 46.00 | 45.33 |
پاپ | دقت (تصادفی/محبوب/متخاصم) |
اخلاق و ایمنی
رویکرد ارزشیابی
روشهای ارزیابی ما شامل ارزیابیهای ساختاریافته و آزمایشهای داخلی قرمز از خطمشیهای محتوای مرتبط است. Red-teaming توسط تعدادی تیم مختلف انجام شد که هر کدام اهداف و معیارهای ارزیابی انسانی متفاوتی داشتند. این مدل ها بر اساس تعدادی از مقوله های مختلف مرتبط با اخلاق و ایمنی مورد ارزیابی قرار گرفتند، از جمله:
- ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
- ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).
نتایج ارزیابی
- نتایج ارزیابی انسانی ارزیابیهای اخلاقی و ایمنی در آستانههای قابل قبولی برای برآورده کردن خطمشیهای داخلی برای مقولههایی مانند ایمنی کودک، ایمنی محتوا و آسیبهای بازنمایی است.
- علاوه بر ارزیابیهای داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازهگیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویسهای تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شدهاند، استفاده میکنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک | جنسیت درک شده | قومیت | گروه سنی | |||
---|---|---|---|---|---|---|
حداکثر | میانه | حداکثر | میانه | حداکثر | میانه | |
سمیت | 0.04٪ | 0.03٪ | 0.08٪ | 0.00٪ | 0.09٪ | 0.00٪ |
حمله هویت | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
توهین کردن | 0.06٪ | 0.04٪ | 0.09٪ | 0.07٪ | 0.16٪ | 0.00٪ |
تهدید | 0.06٪ | 0.05٪ | 0.14٪ | 0.05٪ | 0.17٪ | 0.00٪ |
فحاشی | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
استفاده و محدودیت ها
استفاده مورد نظر
مدلهای زبان بینایی باز (VLM) طیف گستردهای از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
تنظیم دقیق در تکالیف خاص بینایی-زبان:
- مدلهای از پیش آموزشدیده شده را میتوان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخگویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیمبندی اشیا بهخوبی تنظیم کرد.
- مدلهای از پیش آموزشدیده شده را میتوان برای حوزههای خاص مانند پاسخگویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخگویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
- مدلهای از پیش آموزشدیده را میتوان برای کارهایی با خروجیهای غیر متنی مانند جعبههای مرزی یا ماسکهای تقسیمبندی بهخوبی تنظیم کرد.
تحقیق زبان بینایی:
- مدلهای از پیش آموزشدیده و مدلهای تنظیمشده میتوانند به عنوان پایهای برای محققان برای آزمایش تکنیکهای VLM، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
ملاحظات و خطرات اخلاقی
توسعه مدلهای زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:
- تعصب و انصاف
- VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدلها تحت بررسی دقیق قرار گرفتند، پیش پردازش دادههای ورودی شرح داده شد و ارزیابیهای بعدی در این کارت گزارش شد.
- اطلاعات نادرست و سوء استفاده
- VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
- دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
- شفافیت و مسئولیت پذیری
- این کارت مدل جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعهدهندگان تشویق میشوند احتیاط کنند و بر اساس خطمشیهای خاص محصول و موارد استفاده از برنامه، پادمانهای ایمنی محتوای مناسب را اجرا کنند.
- استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
- نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
محدودیت ها
- اکثر محدودیت های به ارث رسیده از مدل زیربنایی Gemma همچنان اعمال می شود:
- VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
- زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
- VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
- VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
- PaliGemma قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
- PaliGemma یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.