صفحه مدل: PaliGemma
منابع و مستندات فنی:
شرایط استفاده: شرایط
نویسندگان: گوگل
اطلاعات مدل
خلاصه مدل
PaliGemma 2 بهروزرسانی مدل زبان بینایی PaliGemma (VLM) است که قابلیتهای مدلهای Gemma 2 را در خود جای داده است. مدل های خانواده PaliGemma از PaLI-3 الهام گرفته شده و بر پایه اجزای باز مانند مدل SigLIP vision و مدل های زبان Gemma 2 استوار است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.
معماری مدل
PaliGemma 2 ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است. رمزگشای متن از Gemma 2 در اندازه پارامترهای 2B، 9B و 27B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. مشابه مدل اصلی PaliGemma، PaliGemma 2 با دستور العمل های PaLI-3 آموزش داده شده است.
ورودی ها و خروجی ها
- ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
- خروجی: متنی که در پاسخ به ورودی تولید میشود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیمبندی.
نقل قول
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
داده های مدل
مجموعه داده های قبل از آموزش
PaliGemma 2 روی مجموعه داده های زیر از قبل آموزش داده شده است:
- WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گستردهای از تقسیمهای WebLI برای به دست آوردن قابلیتهای مدل همهکاره، مانند درک معنایی بصری، محلیسازی شی، درک متن در موقعیت بصری، و چندزبانی استفاده میشود.
- CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
- VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
- OpenImages: پرسشها و پاسخهای تشخیص و شیآگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دستساز در مجموعه داده OpenImages ایجاد میشود.
- WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).
PaliGemma 2 بر اساس Gemma 2 ساخته شده است و می توانید اطلاعات مربوط به مجموعه داده های قبل از آموزش Gemma 2 را در کارت مدل Gemma 2 بیابید.
فیلتر مسئولیت داده ها
فیلترهای زیر با هدف آموزش PaliGemma 2 در مورد داده های ایمن و مسئولانه برای WebLI اعمال می شوند:
- فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
- فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته میشود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزهنگاری، ابتذال، یا توهینآمیز باشد.
- فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متنهایی که توهینآمیز، زشت، نفرتانگیز یا سمی تلقی میشوند جفت میشوند، استفاده میکنیم.
- فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
- روشهای اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خطمشیها و شیوههای ما.
اطلاعات پیاده سازی
سخت افزار
PaliGemma 2 با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.
نرم افزار
آموزش با استفاده از JAX , Flax , TFDS و big_vision
تکمیل شد .
JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.
TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma 2 و کد استنتاج در مخزن big_vision
GitHub منتشر شده است.
اطلاعات ارزیابی
نتایج محک
به منظور تأیید قابلیت انتقال PaliGemma 2 به طیف گسترده ای از وظایف آکادمیک، مدل های از پیش آموزش دیده را برای هر کار به دقت تنظیم می کنیم. ما نتایج را در وضوحهای مختلف گزارش میکنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه دادهها بخشی از ترکیب دادههای پیشآموزشی نیستند و تصاویر آنها به صراحت از دادههای قبل از آموزش در مقیاس وب حذف میشوند.
PaliGemma 2 بر اساس وضوح مدل و اندازه نتایج حاصل می شود
معیار | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
AOKVQA-DA (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (متوسط 34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
COCOcap | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
ChartQA (متوسط) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
ChartQA (انسان) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
DocVQA (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
GQA | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (متوسط 5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
MSRVTT-CAP | 68.5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
OKVQA | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
RSVQA-hr (تست) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (تست2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (تستA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (تستB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (تستB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
RefCOCO+ (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (تست) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (مختلط) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (ساده) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
TextCaps | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | 82.7 | - | - | - | - |
VQAv2 (مینیوال) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
WidgetCap | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (متوسط 35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
xGQA (میانگین 7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
معیارهای اضافی
مدل | دقت | به یاد بیاورید | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
مدل | دقت | به یاد بیاورید | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8. | 74.54 | 74.17 |
مدل | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
مدل | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
مدل | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
- PaliGemma 2 3B، فول مچ: 94.8
مدل | میانگین#کار | میانگین# ارسال شده | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char : میانگین تعداد کاراکترها
- avg#sent : میانگین تعداد جملات
- NES : جملات غیر مستلزم
مدل | سیدر | BLEU4 | روژ-ال | رادگراف F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9٪ | 14.6٪ | 31.92٪ | 28.8٪ |
PaliGemma 2 10B | 17.4٪ | 15% | 32.41٪ | 29.5٪ |
مدل | تقسیم صفر VSR (تست) | تقسیم تصادفی VSR (تست) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
اخلاق و ایمنی
رویکرد ارزشیابی
روشهای ارزیابی ما شامل ارزیابیهای اخلاقی و ایمنی ساختاریافته در خطمشیهای محتوای مرتبط، از جمله:
- ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
- ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).
نتایج ارزیابی
- نتایج ارزیابی انسانی ارزیابیهای اخلاقی و ایمنی در آستانههای قابل قبولی برای برآورده کردن خطمشیهای داخلی برای مقولههایی مانند ایمنی کودک، ایمنی محتوا و آسیبهای بازنمایی است.
- علاوه بر ارزیابیهای داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازهگیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویسهای تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شدهاند، استفاده میکنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک | جنسیت درک شده | قومیت | گروه سنی | ||||||
---|---|---|---|---|---|---|---|---|---|
اندازه مدل | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
حداکثر | |||||||||
سمیت | 0.14٪ | 0.15٪ | 0.19٪ | 0.29٪ | 0.39٪ | 0.39٪ | 0.26٪ | 0.18٪ | 0.32٪ |
حمله هویت | 0.04٪ | 0.02٪ | 0.02٪ | 0.13٪ | 0.06٪ | 0.06٪ | 0.06٪ | 0.03٪ | 0.06٪ |
توهین کردن | 0.17٪ | 0.25٪ | 0.17٪ | 0.37٪ | 0.52٪ | 0.52٪ | 0.27٪ | 0.39٪ | 0.24٪ |
تهدید | 0.55٪ | 0.43٪ | 0.57٪ | 0.83٪ | 0.48٪ | 0.48٪ | 0.64٪ | 0.43٪ | 0.64٪ |
فحاشی | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
میانه | |||||||||
سمیت | 0.13٪ | 0.10٪ | 0.18٪ | 0.07٪ | 0.07٪ | 0.14٪ | 0.12٪ | 0.08٪ | 0.12٪ |
حمله هویت | 0.02٪ | 0.01٪ | 0.02٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
توهین کردن | 0.15٪ | 0.23٪ | 0.14٪ | 0.14٪ | 0.17٪ | 0.13٪ | 0.09٪ | 0.18٪ | 0.16٪ |
تهدید | 0.35٪ | 0.27٪ | 0.41٪ | 0.28٪ | 0.19٪ | 0.42٪ | 0.27٪ | 0.31٪ | 0.40٪ |
فحاشی | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
استفاده و محدودیت ها
استفاده مورد نظر
مدلهای زبان بینایی باز (VLM) طیف گستردهای از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
تنظیم دقیق تکلیف خاص زبان بینایی:
- مدلهای از پیش آموزشدیده شده را میتوان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخگویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیمبندی اشیا بهخوبی تنظیم کرد.
- مدلهای از پیش آموزشدیده شده را میتوان برای حوزههای خاص مانند پاسخگویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخگویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
- مدلهای از پیش آموزشدیده را میتوان برای کارهایی با خروجیهای غیر متنی مانند جعبههای مرزی یا ماسکهای تقسیمبندی بهخوبی تنظیم کرد.
تحقیق زبان بینایی:
- مدلهای از پیش آموزشدیده و مدلهای تنظیمشده میتوانند به عنوان پایهای برای محققان برای آزمایش تکنیکهای VLM، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
ملاحظات و خطرات اخلاقی
توسعه مدلهای زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:
- تعصب و انصاف
- VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدلها تحت بررسی دقیق قرار گرفتند، پیش پردازش دادههای ورودی شرح داده شد و ارزیابیهای بعدی در این کارت گزارش شد.
- اطلاعات نادرست و سوء استفاده
- VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
- دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
- شفافیت و مسئولیت پذیری
- این کارت مدل جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعهدهندگان تشویق میشوند احتیاط کنند و بر اساس خطمشیهای خاص محصول و موارد استفاده از برنامه، پادمانهای ایمنی محتوای مناسب را اجرا کنند.
- استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
- نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
محدودیت ها
- اکثر محدودیتهای به ارث رسیده از مدلهای زیربنایی Gemma 2 همچنان اعمال میشوند:
- VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
- زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
- VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
- VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
- PaliGemma 2 قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
- PaliGemma 2 یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.
صفحه مدل: PaliGemma
منابع و مستندات فنی:
شرایط استفاده: شرایط
نویسندگان: گوگل
اطلاعات مدل
خلاصه مدل
PaliGemma 2 بهروزرسانی مدل زبان بینایی PaliGemma (VLM) است که قابلیتهای مدلهای Gemma 2 را در خود جای داده است. مدل های خانواده PaliGemma از PaLI-3 الهام گرفته شده و بر پایه اجزای باز مانند مدل SigLIP vision و مدل های زبان Gemma 2 استوار است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.
معماری مدل
PaliGemma 2 ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است. رمزگشای متن از Gemma 2 در اندازه پارامترهای 2B، 9B و 27B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. مشابه مدل اصلی PaliGemma، PaliGemma 2 با دستور العمل های PaLI-3 آموزش داده شده است.
ورودی ها و خروجی ها
- ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
- خروجی: متنی که در پاسخ به ورودی تولید میشود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیمبندی.
نقل قول
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
داده های مدل
مجموعه داده های قبل از آموزش
PaliGemma 2 روی مجموعه داده های زیر از قبل آموزش داده شده است:
- WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گستردهای از تقسیمهای WebLI برای به دست آوردن قابلیتهای مدل همهکاره، مانند درک معنایی بصری، محلیسازی شی، درک متن در موقعیت بصری، و چندزبانی استفاده میشود.
- CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
- VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
- OpenImages: پرسشها و پاسخهای تشخیص و شیآگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دستساز در مجموعه داده OpenImages ایجاد میشود.
- WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).
PaliGemma 2 بر اساس Gemma 2 ساخته شده است و می توانید اطلاعات مربوط به مجموعه داده های قبل از آموزش Gemma 2 را در کارت مدل Gemma 2 بیابید.
فیلتر مسئولیت داده ها
فیلترهای زیر با هدف آموزش PaliGemma 2 در مورد داده های ایمن و مسئولانه برای WebLI اعمال می شوند:
- فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
- فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته میشود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزهنگاری، ابتذال، یا توهینآمیز باشد.
- فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متنهایی که توهینآمیز، زشت، نفرتانگیز یا سمی تلقی میشوند جفت میشوند، استفاده میکنیم.
- فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
- روشهای اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خطمشیها و شیوههای ما.
اطلاعات پیاده سازی
سخت افزار
PaliGemma 2 با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.
نرم افزار
آموزش با استفاده از JAX , Flax , TFDS و big_vision
تکمیل شد .
JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.
TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma 2 و کد استنتاج در مخزن big_vision
GitHub منتشر شده است.
اطلاعات ارزیابی
نتایج محک
به منظور تأیید قابلیت انتقال PaliGemma 2 به طیف گسترده ای از وظایف آکادمیک، مدل های از پیش آموزش دیده را برای هر کار به دقت تنظیم می کنیم. ما نتایج را در وضوحهای مختلف گزارش میکنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه دادهها بخشی از ترکیب دادههای پیشآموزشی نیستند و تصاویر آنها به صراحت از دادههای قبل از آموزش در مقیاس وب حذف میشوند.
PaliGemma 2 بر اساس وضوح مدل و اندازه نتایج حاصل می شود
معیار | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
AOKVQA-DA (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (متوسط 34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
COCOcap | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
ChartQA (متوسط) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
ChartQA (انسان) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
DocVQA (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
GQA | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (متوسط 5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
MSRVTT-CAP | 68.5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
OKVQA | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
RSVQA-hr (تست) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-hr (تست2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (تستA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (تستB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (تستB) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
RefCOCO+ (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (تست) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
SciCap | 165.1 | 159.5 | 156.9 | 183.3 | 177.2 | 172.7 |
ScienceQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (مختلط) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (ساده) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
TextCaps | 127.5 | 137.9 | 139.9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | 82.7 | - | - | - | - |
VQAv2 (مینیوال) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
WidgetCap | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148.9 |
XM3600 (متوسط 35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
xGQA (میانگین 7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
معیارهای اضافی
مدل | دقت | به یاد بیاورید | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70.73 | 75.9 |
مدل | دقت | به یاد بیاورید | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8. | 74.54 | 74.17 |
مدل | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98.94 | 99.43 | 99.21 |
مدل | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97.31 | 97.99 | 97.84 |
مدل | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
- PaliGemma 2 3B، فول مچ: 94.8
مدل | میانگین#کار | میانگین# ارسال شده | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char : میانگین تعداد کاراکترها
- avg#sent : میانگین تعداد جملات
- NES : جملات غیر مستلزم
مدل | سیدر | BLEU4 | روژ-ال | رادگراف F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9٪ | 14.6٪ | 31.92٪ | 28.8٪ |
PaliGemma 2 10B | 17.4٪ | 15% | 32.41٪ | 29.5٪ |
مدل | تقسیم صفر VSR (تست) | تقسیم تصادفی VSR (تست) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
اخلاق و ایمنی
رویکرد ارزشیابی
روشهای ارزیابی ما شامل ارزیابیهای اخلاقی و ایمنی ساختاریافته در خطمشیهای محتوای مرتبط، از جمله:
- ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
- ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).
نتایج ارزیابی
- نتایج ارزیابی انسانی ارزیابیهای اخلاقی و ایمنی در آستانههای قابل قبولی برای برآورده کردن خطمشیهای داخلی برای مقولههایی مانند ایمنی کودک، ایمنی محتوا و آسیبهای بازنمایی است.
- علاوه بر ارزیابیهای داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازهگیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویسهای تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شدهاند، استفاده میکنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک | جنسیت درک شده | قومیت | گروه سنی | ||||||
---|---|---|---|---|---|---|---|---|---|
اندازه مدل | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
حداکثر | |||||||||
سمیت | 0.14٪ | 0.15٪ | 0.19٪ | 0.29٪ | 0.39٪ | 0.39٪ | 0.26٪ | 0.18٪ | 0.32٪ |
حمله هویت | 0.04٪ | 0.02٪ | 0.02٪ | 0.13٪ | 0.06٪ | 0.06٪ | 0.06٪ | 0.03٪ | 0.06٪ |
توهین کردن | 0.17٪ | 0.25٪ | 0.17٪ | 0.37٪ | 0.52٪ | 0.52٪ | 0.27٪ | 0.39٪ | 0.24٪ |
تهدید | 0.55٪ | 0.43٪ | 0.57٪ | 0.83٪ | 0.48٪ | 0.48٪ | 0.64٪ | 0.43٪ | 0.64٪ |
فحاشی | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
میانه | |||||||||
سمیت | 0.13٪ | 0.10٪ | 0.18٪ | 0.07٪ | 0.07٪ | 0.14٪ | 0.12٪ | 0.08٪ | 0.12٪ |
حمله هویت | 0.02٪ | 0.01٪ | 0.02٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
توهین کردن | 0.15٪ | 0.23٪ | 0.14٪ | 0.14٪ | 0.17٪ | 0.13٪ | 0.09٪ | 0.18٪ | 0.16٪ |
تهدید | 0.35٪ | 0.27٪ | 0.41٪ | 0.28٪ | 0.19٪ | 0.42٪ | 0.27٪ | 0.31٪ | 0.40٪ |
فحاشی | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ | 0.00٪ |
استفاده و محدودیت ها
استفاده مورد نظر
مدلهای زبان بینایی باز (VLM) طیف گستردهای از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
تنظیم دقیق تکلیف خاص زبان بینایی:
- مدلهای از پیش آموزشدیده شده را میتوان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخگویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیمبندی اشیا بهخوبی تنظیم کرد.
- مدلهای از پیش آموزشدیده شده را میتوان برای حوزههای خاص مانند پاسخگویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخگویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
- مدلهای از پیش آموزشدیده را میتوان برای کارهایی با خروجیهای غیر متنی مانند جعبههای مرزی یا ماسکهای تقسیمبندی بهخوبی تنظیم کرد.
تحقیق زبان بینایی:
- مدلهای از پیش آموزشدیده و مدلهای تنظیمشده میتوانند به عنوان پایهای برای محققان برای آزمایش تکنیکهای VLM، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
ملاحظات و خطرات اخلاقی
توسعه مدلهای زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:
- تعصب و انصاف
- VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدلها تحت بررسی دقیق قرار گرفتند، پیش پردازش دادههای ورودی شرح داده شد و ارزیابیهای بعدی در این کارت گزارش شد.
- اطلاعات نادرست و سوء استفاده
- VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
- دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
- شفافیت و مسئولیت پذیری
- این کارت مدل جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعهدهندگان تشویق میشوند احتیاط کنند و بر اساس خطمشیهای خاص محصول و موارد استفاده از برنامه، پادمانهای ایمنی محتوای مناسب را اجرا کنند.
- استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
- نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
محدودیت ها
- اکثر محدودیتهای به ارث رسیده از مدلهای زیربنایی Gemma 2 همچنان اعمال میشوند:
- VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
- زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
- VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
- VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
- PaliGemma 2 قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
- PaliGemma 2 یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.