کارت مدل PaliGemma 1

صفحه مدل: PaliGemma

منابع و مستندات فنی:

شرایط استفاده: شرایط

نویسندگان: گوگل

اطلاعات مدل

خلاصه مدل

توضیحات

PaliGemma یک مدل زبان بینایی همه کاره و سبک (VLM) است که از PaLI-3 الهام گرفته شده است و بر پایه اجزای باز مانند مدل دید SigLIP و مدل زبان Gemma است. هم تصویر و هم متن را به عنوان ورودی می گیرد و متن را به عنوان خروجی تولید می کند و از چندین زبان پشتیبانی می کند. این برای عملکرد پیشرو در لحن دقیق در طیف گسترده ای از وظایف زبان بینایی مانند تصویر و شرح ویدیوی کوتاه، پاسخ به سؤالات بصری، خواندن متن، تشخیص اشیا و تقسیم بندی اشیا طراحی شده است.

معماری مدل

PaliGemma ترکیبی از یک رمزگشای ترانسفورماتور و یک رمزگذار تصویر Vision Transformer است که در مجموع 3 میلیارد پارامتر دارد. رمزگشای متن از Gemma-2B مقداردهی اولیه شده است. رمزگذار تصویر از SigLIP-So400m/14 مقداردهی اولیه شده است. PaliGemma طبق دستور العمل های PaLI-3 آموزش دیده است.

ورودی ها و خروجی ها

  • ورودی: تصویر و رشته متن، مانند یک درخواست برای شرح تصویر، یا یک سوال.
  • خروجی: متنی که در پاسخ به ورودی تولید می‌شود، مانند عنوان تصویر، پاسخ به یک سؤال، فهرست مختصات جعبه محدودکننده اشیا، یا کلمات رمز تقسیم‌بندی.

نقل قول

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

داده های مدل

مجموعه داده های قبل از آموزش

PaliGemma روی مجموعه داده های زیر از قبل آموزش دیده است:

  • WebLI: WebLI (تصویر زبان وب) یک مجموعه داده تصویر-متن چند زبانه در مقیاس وب است که از وب عمومی ساخته شده است. طیف گسترده‌ای از تقسیم‌های WebLI برای به دست آوردن قابلیت‌های مدل همه‌کاره، مانند درک معنایی بصری، محلی‌سازی شی، درک متن در موقعیت بصری، چند زبانه بودن و غیره استفاده می‌شود.
  • CC3M-35L: جفت های تصویر-alt_text انگلیسی انتخاب شده از صفحات وب ( Sharma et al., 2018 ). ما از Google Cloud Translation API برای ترجمه به 34 زبان دیگر استفاده کردیم.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: زیرمجموعه ای از VQ2A-CC3M ( Changpinyo و همکاران، 2022a )، با استفاده از Google Cloud Translation API به همان 34 زبان دیگر مانند CC3M-35L ترجمه شده است.
  • OpenImages: پرسش‌ها و پاسخ‌های تشخیص و شی‌آگاه ( Piergiovanni et al. 2022 ) که توسط قوانین دست‌ساز در مجموعه داده OpenImages ایجاد می‌شود.
  • WIT: تصاویر و متون جمع آوری شده از ویکی پدیا ( Srinivasan et al., 2021 ).

فیلتر مسئولیت داده ها

فیلترهای زیر با هدف آموزش PaliGemma بر روی داده های پاک برای WebLI اعمال می شوند:

  • فیلتر کردن تصاویر مستهجن: این فیلتر تصاویری را که ماهیت پورنوگرافیک تلقی می شود حذف می کند.
  • فیلتر ایمنی متن: تصاویری که با متن ناامن جفت شده اند را شناسایی و فیلتر می کنیم. متن ناامن به هر متنی گفته می‌شود که حاوی تصاویر سوء استفاده جنسی از کودکان (CSAI)، هرزه‌نگاری، ابتذال، یا توهین‌آمیز باشد.
  • فیلتر سمیت متن: ما همچنین از API Perspective برای شناسایی و فیلتر کردن تصاویری که با متن‌هایی که توهین‌آمیز، زشت، نفرت‌انگیز یا سمی تلقی می‌شوند جفت می‌شوند، استفاده می‌کنیم.
  • فیلتر کردن اطلاعات شخصی متنی: ما برخی از اطلاعات شخصی و سایر داده های حساس را با استفاده از Cloud Data Loss Prevention (DLP) API فیلتر کردیم تا از حریم خصوصی افراد محافظت کنیم. شناسه هایی مانند شماره تامین اجتماعی و سایر انواع اطلاعات حساس حذف شدند.
  • روش‌های اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خط‌مشی‌ها و شیوه‌های ما.

اطلاعات پیاده سازی

سخت افزار

PaliGemma با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شد.

نرم افزار

آموزش با استفاده از JAX , Flax , TFDS و big_vision تکمیل شد .

JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند.

TFDS برای دسترسی به مجموعه داده ها و Flax برای معماری مدل استفاده می شود. کد تنظیم دقیق PaliGemma و کد استنتاج در مخزن big_vision GitHub منتشر شده است.

اطلاعات ارزیابی

نتایج محک

به منظور تأیید قابلیت انتقال PaliGemma به طیف گسترده‌ای از وظایف دانشگاهی، مدل‌های از پیش آموزش‌دیده‌شده را برای هر کار تنظیم می‌کنیم. علاوه بر این ما مدل ترکیبی را با ترکیبی از وظایف انتقال آموزش می دهیم. ما نتایج را در وضوح‌های مختلف گزارش می‌کنیم تا تصوری از افزایش وضوح کدام وظایف ارائه دهیم. نکته مهم این است که هیچ یک از این وظایف یا مجموعه داده‌ها بخشی از ترکیب داده‌های پیش‌آموزشی نیستند و تصاویر آنها به صراحت از داده‌های قبل از آموزش در مقیاس وب حذف می‌شوند.

تک کار (کوک کردن دقیق در تک کار)

معیار (تقسیم قطار) متریک (تقسیم) pt-224 pt-448 pt-896
زیرنویس
زیرنویس‌های COCO (قطار + استراحت) سیدر (val) 141.92 144.60
NoCaps (ارزش انتقال زیرنویس COCO) سیدر (val) 121.72 123.58
COCO-35L (قطار) توسعه دهنده CIDEr (en/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (ارزش انتقال COCO-35L) توسعه دهنده CIDEr (en/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (قطار) سیدر (val) 127.48 153.94
SciCap (جمله اول، بدون زیرشکل) (train+val) CIDER/BLEU-4 (تست)
162.25
0.192
181.49
0.211
Screen2words (train+dev) سیدر (تست) 117.57 119.59
زیرنویس ویجت (train+dev) سیدر (تست) 136.07 148.36
جواب سوال
VQAv2 (قطار + اعتبارسنجی) دقت (سرور تست - std) 83.19 85.64
MMVP (ارزش انتقال VQAv2) دقت جفت شده 47.33 45.33
POPE (Eval of VQAv2 Transfer) دقت (تصادفی/محبوب/متخاصم)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (قطار) دقت (val) 63.54 63.15
A-OKVQA (MC) (قطار + val) دقت (سرور تست) 76.37 76.90
A-OKVQA (DA) (قطار + val) دقت (سرور تست) 61.85 63.22
GQA (train_balanced+val_balanced) دقت (testdev متعادل) 65.61 67.03
xGQA (ارزش انتقال GQA) میانگین دقت (bn، de، en، id، ko، pt، ru، zh) 58.37 59.07
NLVR2 (قطار + توسعه دهنده) دقت (تست) 90.02 88.93
MaRVL (ارزش انتقال NLVR2) میانگین دقت (آزمون) (id، sw، ta، tr، zh) 80.57 76.78
AI2D (قطار) دقت (تست) 72.12 73.28
ScienceQA (زیر مجموعه Img، بدون CoT) (train+val) دقت (تست) 95.39 95.93
RSVQA-LR (غیر عددی) (قطار + val) میانگین دقت (آزمون) 92.65 93.11
RSVQA-HR (غیر عددی) (قطار + val) میانگین دقت (آزمون/آزمون2)
92.61
90.58
92.79
90.54
ChartQA (انسان+اوت)x(قطار+وال) میانگین دقت آرام (test_human، test_aug) 57.08 71.36
VizWiz VQA (قطار + val) دقت (سرور تست - std) 73.7 75.52
TallyQA (قطار) دقت (test_sample/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (قطار + val) دقت (تست) 72.32 74.61 74.93
TextVQA (قطار + val) دقت (سرور تست - std) 55.47 73.15 76.48
DocVQA (train+val) ANLS (سرور آزمایشی) 43.74 78.02 84.77
اینفوگرافیک VQA (قطار + val) ANLS (سرور آزمایشی) 28.46 40.47 47.75
SceneText VQA (train+val) ANLS (سرور آزمایشی) 63.29 81.82 84.40
تقسیم بندی
RefCOCO (ترکیب refcoco، refcoco+، refcocog به استثنای val و تصاویر آزمایشی) MIoU ( اعتبار سنجی) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
وظایف ویدیویی (Caption/QA)
MSR-VTT (زیرنویس) سیدر (تست) 70.54
MSR-VTT (QA) دقت (تست) 50.09
ActivityNet (Captioning) سیدر (تست) 34.62
ActivityNet (QA) دقت (تست) 50.78
VATEX (زیرنویس) سیدر (تست) 79.73
MSVD (QA) دقت (تست) 60.22

مدل ترکیبی (تنظیم دقیق ترکیبی از وظایف انتقال)

معیار متریک (تقسیم) mix-224 mix-448
MMVP دقت جفت شده 46.00 45.33
پاپ دقت (تصادفی/محبوب/متخاصم)
88.00
86.63
85.67
89.37
88.40
87.47

اخلاق و ایمنی

رویکرد ارزشیابی

روش‌های ارزیابی ما شامل ارزیابی‌های ساختاریافته و آزمایش‌های داخلی قرمز از خط‌مشی‌های محتوای مرتبط است. Red-teaming توسط تعدادی تیم مختلف انجام شد که هر کدام اهداف و معیارهای ارزیابی انسانی متفاوتی داشتند. این مدل ها بر اساس تعدادی از مقوله های مختلف مرتبط با اخلاق و ایمنی مورد ارزیابی قرار گرفتند، از جمله:

  • ارزیابی انسانی در مورد اطالعات مربوط به ایمنی کودک، ایمنی محتوا و آسیب های بازنمایی. کارت مدل Gemma را برای جزئیات بیشتر در مورد رویکرد ارزیابی، اما با توضیح تصویر و تنظیمات پاسخ به سؤال بصری ببینید.
  • ارزیابی معیار تصویر به متن: معیار در برابر مجموعه داده های دانشگاهی مرتبط مانند مجموعه داده FairFace ( Karkkainen و همکاران، 2021 ).

نتایج ارزیابی

  • نتایج ارزیابی انسانی ارزیابی‌های اخلاقی و ایمنی در آستانه‌های قابل قبولی برای برآورده کردن خط‌مشی‌های داخلی برای مقوله‌هایی مانند ایمنی کودک، ایمنی محتوا و آسیب‌های بازنمایی است.
  • علاوه بر ارزیابی‌های داخلی قوی، ما همچنین از Perspective API (آستانه 0.8) برای اندازه‌گیری سمیت، ناسزاگویی، و سایر مسائل بالقوه در زیرنویس‌های تولید شده برای تصاویری که از مجموعه داده FairFace تهیه شده‌اند، استفاده می‌کنیم. ما حداکثر و میانگین مقادیر مشاهده شده در زیر گروه ها را برای هر یک از ویژگی های جنسیت، قومیت و سن گزارش می کنیم.
متریک جنسیت درک شده قومیت گروه سنی
حداکثر میانه حداکثر میانه حداکثر میانه
سمیت 0.04٪ 0.03٪ 0.08٪ 0.00٪ 0.09٪ 0.00٪
حمله هویت 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪
توهین کردن 0.06٪ 0.04٪ 0.09٪ 0.07٪ 0.16٪ 0.00٪
تهدید 0.06٪ 0.05٪ 0.14٪ 0.05٪ 0.17٪ 0.00٪
فحاشی 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪ 0.00٪

استفاده و محدودیت ها

استفاده مورد نظر

مدل‌های زبان بینایی باز (VLM) طیف گسترده‌ای از کاربردها در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.

تنظیم دقیق در تکالیف خاص بینایی-زبان:

  • مدل‌های از پیش آموزش‌دیده شده را می‌توان در طیف وسیعی از وظایف زبان بینایی مانند: نوشتن شرح تصویر، شرح ویدیوی کوتاه، پاسخ‌گویی به سؤالات تصویری، خواندن متن، تشخیص اشیا و تقسیم‌بندی اشیا به‌خوبی تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده شده را می‌توان برای حوزه‌های خاص مانند پاسخ‌گویی به سؤالات سنجش از راه دور، سؤالات بصری از افراد نابینا، پاسخ‌گویی به سؤالات علمی، توصیف عملکردهای عنصر UI تنظیم کرد.
  • مدل‌های از پیش آموزش‌دیده را می‌توان برای کارهایی با خروجی‌های غیر متنی مانند جعبه‌های مرزی یا ماسک‌های تقسیم‌بندی به‌خوبی تنظیم کرد.

تحقیق زبان بینایی:

  • مدل‌های از پیش آموزش‌دیده و مدل‌های تنظیم‌شده می‌توانند به عنوان پایه‌ای برای محققان برای آزمایش تکنیک‌های VLM، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.

ملاحظات و خطرات اخلاقی

توسعه مدل‌های زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:

  • تعصب و انصاف
    • VLM های آموزش داده شده بر روی داده های متن تصویری در مقیاس بزرگ و در دنیای واقعی می توانند سوگیری های اجتماعی-فرهنگی موجود در مطالب آموزشی را منعکس کنند. این مدل‌ها تحت بررسی دقیق قرار گرفتند، پیش پردازش داده‌های ورودی شرح داده شد و ارزیابی‌های بعدی در این کارت گزارش شد.
  • اطلاعات نادرست و سوء استفاده
    • VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
    • دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
  • شفافیت و مسئولیت پذیری
    • این کارت مدل جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
    • یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.

خطرات شناسایی شده و اقدامات کاهشی:

  • تداوم سوگیری ها: انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
  • تولید محتوای مضر: مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعه‌دهندگان تشویق می‌شوند احتیاط کنند و بر اساس خط‌مشی‌های خاص محصول و موارد استفاده از برنامه، پادمان‌های ایمنی محتوای مناسب را اجرا کنند.
  • استفاده نادرست برای اهداف مخرب: محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب LLM کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران برای پرچم‌گذاری سوءاستفاده ارائه شده است: به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
  • نقض حریم خصوصی: مدل ها بر روی داده های فیلتر شده برای حذف برخی اطلاعات شخصی و داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.

محدودیت ها

  • اکثر محدودیت های به ارث رسیده از مدل زیربنایی Gemma همچنان اعمال می شود:
    • VLM ها در کارهایی که می توانند با اعلان ها و دستورالعمل های واضح چارچوب بندی شوند، بهتر عمل می کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
    • زبان طبیعی ذاتاً پیچیده است. VLM ها ممکن است در درک ظرایف ظریف، طعنه یا زبان مجازی دچار مشکل شوند.
    • VLM ها بر اساس اطلاعاتی که از مجموعه داده های آموزشی خود آموخته اند، پاسخ تولید می کنند، اما پایگاه های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
    • VLM ها بر الگوهای آماری در زبان و تصاویر متکی هستند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.
  • PaliGemma قبل از هر چیز طراحی شده است تا به عنوان یک مدل کلی از پیش آموزش دیده برای تنظیم دقیق وظایف تخصصی عمل کند. از این رو، عملکرد "خارج از جعبه" یا "شات صفر" آن ممکن است از مدل هایی که به طور خاص برای استفاده عمومی طراحی شده اند عقب بماند.
  • PaliGemma یک چت ربات چند چرخشی نیست. این برای یک دور ورودی تصویر و متن طراحی شده است.