کارت مدل PaliGemma 2

صفحه مدل: PaliGemma

منابع و مستندات فنی:

شرایط استفاده: شرایط

نویسندگان: گوگل

اطلاعات مدل

خلاصه مدل

PaliGemma 2 به‌روزرسانی مدل زبان بینایی PaliGemma (VLM) است که قابلیت‌های مدل‌های Gemma 2 را در خود جای داده است. مدل های خانواده PaliGemma از PaLI-3 الهام گرفته شده و بر پایه اجزای باز مانند مدل SigLIP vision و مدل های زبان Gemma 2 استوار است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.

معماری مدل

PaliGemma 2 ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است. رمزگشای متن از Gemma 2 در اندازه پارامترهای 2B، 9B و 27B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. مشابه مدل اصلی PaliGemma، PaliGemma 2 با دستور العمل های PaLI-3 آموزش داده شده است.

ورودی ها و خروجی ها

  • ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
  • خروجی: متنی که در پاسخ به ورودی تولید می‌شود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیم‌بندی.

نقل قول

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

داده های مدل

مجموعه داده های قبل از آموزش

PaliGemma 2 روی مجموعه داده های زیر از قبل آموزش داده شده است:

  • WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گسترده‌ای از تقسیم‌های WebLI برای به دست آوردن قابلیت‌های مدل همه‌کاره، مانند درک معنایی بصری، محلی‌سازی شی، درک متن در موقعیت بصری، و چندزبانی استفاده می‌شود.
  • CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
  • OpenImages: پرسش‌ها و پاسخ‌های تشخیص و شی‌آگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دست‌ساز در مجموعه داده OpenImages ایجاد می‌شود.
  • WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).

PaliGemma 2 بر اساس Gemma 2 ساخته شده است و می توانید اطلاعات مربوط به مجموعه داده های قبل از آموزش Gemma 2 را در کارت مدل Gemma 2 بیابید.

فیلتر مسئولیت داده ها

فیلترهای زیر با هدف آموزش PaliGemma 2 در مورد داده های ایمن و مسئولانه برای WebLI اعمال می شوند:

  • فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
  • فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته می‌شود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزه‌نگاری، ابتذال، یا توهین‌آمیز باشد.
  • فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متن‌هایی که توهین‌آمیز، زشت، نفرت‌انگیز یا سمی تلقی می‌شوند جفت می‌شوند، استفاده می‌کنیم.
  • فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
  • روش‌های اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خط‌مشی‌ها و شیوه‌های ما.

اطلاعات پیاده سازی

سخت افزار

PaliGemma 2 با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.

نرم افزار

آموزش با استفاده از JAX , Flax , TFDS و big_vision تکمیل شد .

JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.

TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma 2 و کد استنتاج در مخزن big_vision GitHub منتشر شده است.

اطلاعات ارزیابی

نتایج محک

به منظور تأیید قابلیت انتقال PaliGemma 2 به طیف گسترده ای از وظایف آکادمیک، مدل های از پیش آموزش دیده را برای هر کار به دقت تنظیم می کنیم. ما نتایج را در وضوح‌های مختلف گزارش می‌کنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه داده‌ها بخشی از ترکیب داده‌های پیش‌آموزشی نیستند و تصاویر آنها به صراحت از داده‌های قبل از آموزش در مقیاس وب حذف می‌شوند.

PaliGemma 2 بر اساس وضوح مدل و اندازه نتایج حاصل می شود

معیار 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (متوسط ​​34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (متوسط) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (انسان) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (متوسط ​​5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (تست) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (تست2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (تستA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (تستB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (تستB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (تست) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (مختلط) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (ساده) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (مینیوال) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (متوسط ​​35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (میانگین 7) 58.6 61.4 61.1 60.4 62.6 62.1

معیارهای اضافی

ICDAR 2015 اتفاقی

مدل دقت به یاد بیاورید F1
PaliGemma 2 3B 81.88 70.73 75.9

کل متن

مدل دقت به یاد بیاورید F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

مدل S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

مدل S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

ستاد بزرگ

مدل CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B، فول مچ: 94.8

DOCCI

مدل میانگین#کار میانگین# ارسال شده NES %
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char : میانگین تعداد کاراکترها
  • avg#sent : میانگین تعداد جملات
  • NES : جملات غیر مستلزم

MIMIC-CXR

مدل سیدر BLEU4 روژ-ال رادگراف F1
PaliGemma 2 3B 19.9٪ 14.6٪ 31.92٪ 28.8٪
PaliGemma 2 10B 17.4٪ 15% 32.41٪ 29.5٪

استدلال فضایی بصری

مدل تقسیم صفر VSR (تست) تقسیم تصادفی VSR (تست)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

اخلاق و ایمنی

رویکرد ارزشیابی

روش‌های ارزیابی ما شامل ارزیابی‌های اخلاقی و ایمنی ساختاریافته در خط‌مشی‌های محتوای مرتبط، از جمله:

  • ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
  • ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).

نتایج ارزیابی

  • نتایج ارزیابی انسانی ارزیابی‌های اخلاقی و ایمنی در آستانه‌های قابل قبولی برای برآورده کردن خط‌مشی‌های داخلی برای مقوله‌هایی مانند ایمنی کودک، ایمنی محتوا و آسیب‌های بازنمایی است.
  • علاوه بر ارزیابی‌های داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازه‌گیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویس‌های تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شده‌اند، استفاده می‌کنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک جنسیت درک شده قومیت گروه سنی
اندازه مدل 3B 10B 28B 3B 10B 28B 3B 10B 28B
حداکثر
سمیت 0.14٪ 0.15٪ 0.19٪ 0.29٪ 0.39٪ 0.39٪ 0.26٪ 0.18٪ 0.32٪
حمله هویت 0.04٪ 0.02٪ 0.02٪ 0.13٪ 0.06٪ 0.06٪ 0.06٪ 0.03٪ 0.06٪
توهین کردن 0.17٪ 0.25٪ 0.17٪ 0.37٪ 0.52٪ 0.52٪ 0.27٪ 0.39٪ 0.24٪
تهدید 0.55٪ 0.43٪ 0.57٪ 0.83٪ 0.48٪ 0.48٪ 0.64٪ 0.43٪ 0.64٪
فحاشی 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪
میانه
سمیت 0.13٪ 0.10٪ 0.18٪ 0.07٪ 0.07٪ 0.14٪ 0.12٪ 0.08٪ 0.12٪
حمله هویت 0.02٪ 0.01٪ 0.02٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪
توهین کردن 0.15٪ 0.23٪ 0.14٪ 0.14٪ 0.17٪ 0.13٪ 0.09٪ 0.18٪ 0.16٪
تهدید 0.35٪ 0.27٪ 0.41٪ 0.28٪ 0.19٪ 0.42٪ 0.27٪ 0.31٪ 0.40٪
فحاشی 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪

استفاده و محدودیت ها

استفاده مورد نظر

مدل‌های زبان بینایی باز (VLM) طیف گسترده‌ای از کاربردها در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.

تنظیم دقیق تکلیف خاص زبان بینایی:

  • مدل‌های از پیش آموزش‌دیده شده را می‌توان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخ‌گویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیم‌بندی اشیا به‌خوبی تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده شده را می‌توان برای حوزه‌های خاص مانند پاسخ‌گویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخ‌گویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده را می‌توان برای کارهایی با خروجی‌های غیر متنی مانند جعبه‌های مرزی یا ماسک‌های تقسیم‌بندی به‌خوبی تنظیم کرد.

تحقیق زبان بینایی:

  • مدل‌های از پیش آموزش‌دیده و مدل‌های تنظیم‌شده می‌توانند به عنوان پایه‌ای برای محققان برای آزمایش تکنیک‌های VLM، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.

ملاحظات و خطرات اخلاقی

توسعه مدل‌های زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:

  • تعصب و انصاف
    • VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدل‌ها تحت بررسی دقیق قرار گرفتند، پیش پردازش داده‌های ورودی شرح داده شد و ارزیابی‌های بعدی در این کارت گزارش شد.
  • اطلاعات نادرست و سوء استفاده
    • VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
    • دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
  • شفافیت و مسئولیت پذیری
    • این کارت مدل جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
    • یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.

خطرات شناسایی شده و اقدامات کاهشی:

  • تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
  • تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعه‌دهندگان تشویق می‌شوند احتیاط کنند و بر اساس خط‌مشی‌های خاص محصول و موارد استفاده از برنامه، پادمان‌های ایمنی محتوای مناسب را اجرا کنند.
  • استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران برای پرچم‌گذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
  • نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.

محدودیت ها

  • اکثر محدودیت‌های به ارث رسیده از مدل‌های زیربنایی Gemma 2 همچنان اعمال می‌شوند:
    • VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
    • زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
    • VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
    • VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
  • PaliGemma 2 قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
  • PaliGemma 2 یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.
،

صفحه مدل: PaliGemma

منابع و مستندات فنی:

شرایط استفاده: شرایط

نویسندگان: گوگل

اطلاعات مدل

خلاصه مدل

PaliGemma 2 به‌روزرسانی مدل زبان بینایی PaliGemma (VLM) است که قابلیت‌های مدل‌های Gemma 2 را در خود جای داده است. مدل های خانواده PaliGemma از PaLI-3 الهام گرفته شده و بر پایه اجزای باز مانند مدل SigLIP vision و مدل های زبان Gemma 2 استوار است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.

معماری مدل

PaliGemma 2 ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است. رمزگشای متن از Gemma 2 در اندازه پارامترهای 2B، 9B و 27B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. مشابه مدل اصلی PaliGemma، PaliGemma 2 با دستور العمل های PaLI-3 آموزش داده شده است.

ورودی ها و خروجی ها

  • ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
  • خروجی: متنی که در پاسخ به ورودی تولید می‌شود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیم‌بندی.

نقل قول

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

داده های مدل

مجموعه داده های قبل از آموزش

PaliGemma 2 روی مجموعه داده های زیر از قبل آموزش داده شده است:

  • WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گسترده‌ای از تقسیم‌های WebLI برای به دست آوردن قابلیت‌های مدل همه‌کاره، مانند درک معنایی بصری، محلی‌سازی شی، درک متن در موقعیت بصری، و چندزبانی استفاده می‌شود.
  • CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
  • OpenImages: پرسش‌ها و پاسخ‌های تشخیص و شی‌آگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دست‌ساز در مجموعه داده OpenImages ایجاد می‌شود.
  • WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).

PaliGemma 2 بر اساس Gemma 2 ساخته شده است و می توانید اطلاعات مربوط به مجموعه داده های قبل از آموزش Gemma 2 را در کارت مدل Gemma 2 بیابید.

فیلتر مسئولیت داده ها

فیلترهای زیر با هدف آموزش PaliGemma 2 در مورد داده های ایمن و مسئولانه برای WebLI اعمال می شوند:

  • فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
  • فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته می‌شود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزه‌نگاری، ابتذال، یا توهین‌آمیز باشد.
  • فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متن‌هایی که توهین‌آمیز، زشت، نفرت‌انگیز یا سمی تلقی می‌شوند جفت می‌شوند، استفاده می‌کنیم.
  • فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
  • روش‌های اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خط‌مشی‌ها و شیوه‌های ما.

اطلاعات پیاده سازی

سخت افزار

PaliGemma 2 با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.

نرم افزار

آموزش با استفاده از JAX , Flax , TFDS و big_vision تکمیل شد .

JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.

TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma 2 و کد استنتاج در مخزن big_vision GitHub منتشر شده است.

اطلاعات ارزیابی

نتایج محک

به منظور تأیید قابلیت انتقال PaliGemma 2 به طیف گسترده ای از وظایف آکادمیک، مدل های از پیش آموزش دیده را برای هر کار به دقت تنظیم می کنیم. ما نتایج را در وضوح‌های مختلف گزارش می‌کنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه داده‌ها بخشی از ترکیب داده‌های پیش‌آموزشی نیستند و تصاویر آنها به صراحت از داده‌های قبل از آموزش در مقیاس وب حذف می‌شوند.

PaliGemma 2 بر اساس وضوح مدل و اندازه نتایج حاصل می شود

معیار 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (متوسط ​​34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (متوسط) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (انسان) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (متوسط ​​5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (تست) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (تست2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (تستA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (تستB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (تستB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (تست) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (مختلط) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (ساده) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (مینیوال) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (متوسط ​​35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (میانگین 7) 58.6 61.4 61.1 60.4 62.6 62.1

معیارهای اضافی

ICDAR 2015 اتفاقی

مدل دقت به یاد بیاورید F1
PaliGemma 2 3B 81.88 70.73 75.9

کل متن

مدل دقت به یاد بیاورید F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

مدل S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

مدل S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

ستاد بزرگ

مدل CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B، فول مچ: 94.8

DOCCI

مدل میانگین#کار میانگین# ارسال شده NES %
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char : میانگین تعداد کاراکترها
  • avg#sent : میانگین تعداد جملات
  • NES : جملات غیر مستلزم

MIMIC-CXR

مدل سیدر BLEU4 روژ-ال رادگراف F1
PaliGemma 2 3B 19.9٪ 14.6٪ 31.92٪ 28.8٪
PaliGemma 2 10B 17.4٪ 15% 32.41٪ 29.5٪

استدلال فضایی بصری

مدل تقسیم صفر VSR (تست) تقسیم تصادفی VSR (تست)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

اخلاق و ایمنی

رویکرد ارزشیابی

روش‌های ارزیابی ما شامل ارزیابی‌های اخلاقی و ایمنی ساختاریافته در خط‌مشی‌های محتوای مرتبط، از جمله:

  • ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
  • ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).

نتایج ارزیابی

  • نتایج ارزیابی انسانی ارزیابی‌های اخلاقی و ایمنی در آستانه‌های قابل قبولی برای برآورده کردن خط‌مشی‌های داخلی برای مقوله‌هایی مانند ایمنی کودک، ایمنی محتوا و آسیب‌های بازنمایی است.
  • علاوه بر ارزیابی‌های داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازه‌گیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویس‌های تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شده‌اند، استفاده می‌کنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک جنسیت درک شده قومیت گروه سنی
اندازه مدل 3B 10B 28B 3B 10B 28B 3B 10B 28B
حداکثر
سمیت 0.14٪ 0.15٪ 0.19٪ 0.29٪ 0.39٪ 0.39٪ 0.26٪ 0.18٪ 0.32٪
حمله هویت 0.04٪ 0.02٪ 0.02٪ 0.13٪ 0.06٪ 0.06٪ 0.06٪ 0.03٪ 0.06٪
توهین کردن 0.17٪ 0.25٪ 0.17٪ 0.37٪ 0.52٪ 0.52٪ 0.27٪ 0.39٪ 0.24٪
تهدید 0.55٪ 0.43٪ 0.57٪ 0.83٪ 0.48٪ 0.48٪ 0.64٪ 0.43٪ 0.64٪
فحاشی 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪
میانه
سمیت 0.13٪ 0.10٪ 0.18٪ 0.07٪ 0.07٪ 0.14٪ 0.12٪ 0.08٪ 0.12٪
حمله هویت 0.02٪ 0.01٪ 0.02٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪
توهین کردن 0.15٪ 0.23٪ 0.14٪ 0.14٪ 0.17٪ 0.13٪ 0.09٪ 0.18٪ 0.16٪
تهدید 0.35٪ 0.27٪ 0.41٪ 0.28٪ 0.19٪ 0.42٪ 0.27٪ 0.31٪ 0.40٪
فحاشی 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪

استفاده و محدودیت ها

استفاده مورد نظر

مدل‌های زبان بینایی باز (VLM) طیف گسترده‌ای از کاربردها در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.

تنظیم دقیق تکلیف خاص زبان بینایی:

  • مدل‌های از پیش آموزش‌دیده شده را می‌توان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخ‌گویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیم‌بندی اشیا به‌خوبی تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده شده را می‌توان برای حوزه‌های خاص مانند پاسخ‌گویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخ‌گویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده را می‌توان برای کارهایی با خروجی‌های غیر متنی مانند جعبه‌های مرزی یا ماسک‌های تقسیم‌بندی به‌خوبی تنظیم کرد.

تحقیق زبان بینایی:

  • مدل‌های از پیش آموزش‌دیده و مدل‌های تنظیم‌شده می‌توانند به عنوان پایه‌ای برای محققان برای آزمایش تکنیک‌های VLM، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.

ملاحظات و خطرات اخلاقی

توسعه مدل‌های زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:

  • تعصب و انصاف
    • VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدل‌ها تحت بررسی دقیق قرار گرفتند، پیش پردازش داده‌های ورودی شرح داده شد و ارزیابی‌های بعدی در این کارت گزارش شد.
  • اطلاعات نادرست و سوء استفاده
    • VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
    • دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
  • شفافیت و مسئولیت پذیری
    • این کارت مدل جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
    • یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.

خطرات شناسایی شده و اقدامات کاهشی:

  • تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
  • تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعه‌دهندگان تشویق می‌شوند احتیاط کنند و بر اساس خط‌مشی‌های خاص محصول و موارد استفاده از برنامه، پادمان‌های ایمنی محتوای مناسب را اجرا کنند.
  • استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران برای پرچم‌گذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
  • نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.

محدودیت ها

  • اکثر محدودیت‌های به ارث رسیده از مدل‌های زیربنایی Gemma 2 همچنان اعمال می‌شوند:
    • VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
    • زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
    • VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
    • VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
  • PaliGemma 2 قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
  • PaliGemma 2 یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.