صفحة الطراز: PaliGemma
المراجع والمستندات الفنية:
بنود الاستخدام: البنود
المؤلفون: Google
معلومات الطراز
ملخّص النموذج
الوصف
PaliGemma هو نموذج لغوي مرئي (VLM) خفيف ومتعدد الاستخدامات مستوحى من PaLI-3 ويستند إلى مكوّنات مفتوحة مثل نموذج الرؤية SigLIP ونموذج اللغة Gemma. تأخذ هذه الميزة كلاً من الصورة والنص كإدخال وتُنشئ نصًا كإخراج، مع دعم لغات متعددة. تم تصميمه لتحسين الأداء بشكلٍ بارز في مجموعة واسعة من مهام معالجة اللغة المرئية، مثل ترجمة الصور والفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأجسام وتقسيمها.
بنية النموذج
PaliGemma هو تركيبة من مُشفِّر Transformer ومُشفِّر Vision Transformer للصور، ويتضمّن إجمالي 3 مليارات مَعلمة. يتمّ إعداد وحدة فك ترميز النصوص من Gemma-2B. يتم بدء ترميز الصور من SigLIP-So400m/14. تم تدريب PaliGemma وفقًا لوصفات PaLI-3.
المدخلات والمخرجات
- الإدخال: سلسلة من الصور والنصوص، مثل طلب لإضافة شرح للصورة أو سؤال
- النتيجة: النص الذي تم إنشاؤه استجابةً للمدخلات، مثل شرح توضيحي للصورة أو إجابة عن سؤال أو قائمة بإحداثيات المربّع المحدود للجسم أو كلمات ترميز التقسيم
معلومات الكتاب
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
بيانات الطراز
مجموعات البيانات المخصّصة للتدريب المُسبَق
تم تدريب PaliGemma مسبقًا على مجموعة مختلطة من مجموعات البيانات التالية:
- WebLI: WebLI (Web Language Image) هو مجموعة بيانات متعددة اللغات من الصور والنصوص على مستوى الويب تم إنشاؤها من الويب العلني. يتم استخدام مجموعة كبيرة من عمليات تقسيم WebLI للحصول على إمكانات متنوعة للنموذج، مثل الفهم الدلالي المرئي، وترجمة العناصر، وفهم النص في سياقه البصري، وتعدد اللغات، وما إلى ذلك.
- CC3M-35L: أزواج من الصور والنصوص البديلة باللغة الإنجليزية من صفحات الويب (Sharma et al., 2018). لقد استخدمنا Google Cloud Translation API للترجمة إلى 34 لغة إضافية.
- VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، وهي مُترجَمة إلى اللغات الإضافية نفسها التي تبلغ 34 لغة مثل CC3M-35L، وذلك باستخدام Google Cloud Translation API.
- OpenImages: أسئلة وإجابات تتعلّق برصد الأشياء والتعرّف عليها (Piergiovanni et al. 2022) تم إنشاؤها باستخدام قواعد مُعدّة يدويًا في مجموعة بيانات OpenImages.
- WIT: الصور والنصوص التي تم جمعها من Wikipedia (Srinivasan et al., 2021).
فلترة مسؤولية الحفاظ على البيانات
يتم تطبيق الفلاتر التالية على WebLI بهدف تدريب PaliGemma على بيانات نظيفة:
- فلترة الصور الإباحية: يزيل هذا الفلتر الصور التي يُعتبَر أنّها ذات طبيعة إباحية.
- فلترة أمان النصوص: نحدّد الصور التي تتضمّن نصًا غير آمن ونزيلها. النص غير الآمن هو أي نص يُعتبَر أنّه يتضمّن أو يتناول صور اعتداء جنسي على الأطفال أو مواد إباحية أو لغة نابية أو هو مسيء بأي شكل آخر.
- فلترة اللغة المسيئة: نستخدم أيضًا واجهة برمجة تطبيقات Perspective لتحديد الصور التي يتم إقرانها بنصوص يُعتبَر أنّها مسيئة أو بذيئة أو بغيضة أو مسيئة بأي شكل آخر، وفلترتها.
- فلترة المعلومات الشخصية النصية: لقد عالجنا معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة باستخدام واجهة برمجة التطبيقات Cloud Data Loss Prevention (DLP) APIلحماية خصوصية الأفراد. تمّت إزالة المعرّفات، مثل أرقام التأمين الاجتماعي و أنواع المعلومات الحسّاسة الأخرى.
- طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا وممارساتنا
معلومات التنفيذ
أجهزة
تم تدريب PaliGemma باستخدام أحدث جيل من أجهزة وحدة معالجة النصوص (TPU) (TPUv5e).
البرامج
تم إكمال التدريب باستخدام JAX،
Flax،
TFDS و
big_vision
.
تتيح مكتبة JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.
يتم استخدام TFDS للوصول إلى مجموعات البيانات، ويتم استخدام Flax لبنية النموذج. يتم إصدار رمز تحسين
PaliGemma ورمز الاستنتاج في big_vision
مستودع GitHub.
معلومات التقييم
نتائج قياس الأداء
للتحقّق من إمكانية نقل PaliGemma إلى مجموعة كبيرة من المهام الأكاديمية، نُجري تحسينًا على النماذج المدربة مسبقًا لكل مهمة. بالإضافة إلى ذلك، نُدرِّب النموذج المختلط باستخدام مجموعة من مهام النقل. نعرض النتائج المتعلّقة بدقة شاشة مختلفة لنوضّح المهام التي تستفيد من الدقة المُرتفعة. من المهم الإشارة إلى أنّ أيًا من هذه المهام أو مجموعات البيانات لا يشكّل جزءًا من مزيج بيانات التدريب المُسبَق، ويتمّ إزالة صورها صراحةً من بيانات التدريب المُسبَق على مستوى الويب.
مهمة واحدة (تحسين مهمة واحدة)
مقياس الأداء (تقسيم المجموعة) | المقياس (مقسّم) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
إضافة الشرح | ||||
مقاطع ترجمة COCO (التدريب والتقييم) | CIDEr (val) | 141.92 | 144.60 | |
NoCaps (تقييم لنقل مقاطع الترجمة والشرح في COCO) | CIDEr (val) | 121.72 | 123.58 | |
COCO-35L (قطار) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (تقييم عملية نقل COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (تدريب) | CIDEr (val) | 127.48 | 153.94 | |
SciCap (الجملة الأولى، بدون رسم فرعي) (المجموعة التدريبية والمجموعة التقييمية) | CIDEr/BLEU-4 (اختبار) |
|
|
|
Screen2words (التدريب والتطوير) | CIDEr (اختبار) | 117.57 | 119.59 | |
الترجمة والشرح في التطبيقات المصغّرة (التدريب والتطوير) | CIDEr (اختبار) | 136.07 | 148.36 | |
الإجابة عن الأسئلة | ||||
VQAv2 (مجموعة التدريب والتحقق) | الدقة (الخادم التجريبي - العادي) | 83.19 | 85.64 | |
MMVP (تقييم عملية نقل VQAv2) | دقة الإقران | 47.33 | 45.33 | |
POPE (تقييم عملية نقل VQAv2) | الدقة (عشوائي/رائج/ضارّ) |
|
|
|
OKVQA (قطار) | الدقة (val) | 63.54 | 63.15 | |
A-OKVQA (MC) (التدريب والتقييم) | الدقة (الخادم التجريبي) | 76.37 | 76.90 | |
A-OKVQA (DA) (التدريب والتقييم) | الدقة (الخادم التجريبي) | 61.85 | 63.22 | |
GQA (train_balanced+val_balanced) | الدقة (الوضع المتوسط في testdev) | 65.61 | 67.03 | |
xGQA (تقييم عملية نقل طلبات الحصول على المساعدة) | متوسط الدقة (bn، de، en، id، ko، pt، ru، zh) | 58.37 | 59.07 | |
NLVR2 (التدريب والتطوير) | الدقة (اختبار) | 90.02 | 88.93 | |
MaRVL (تقييم نقل NLVR2) | متوسّط الدقة (اختبار) (id وsw وta وtr وzh) | 80.57 | 76.78 | |
AI2D (تدريب) | الدقة (اختبار) | 72.12 | 73.28 | |
ScienceQA (مجموعة فرعية من الصور، بدون CoT) (مجموعة التدريب والمجموعة التقييمية) | الدقة (اختبار) | 95.39 | 95.93 | |
RSVQA-LR (غير رقمي) (مجموعة التدريب والمجموعة التقييمية) | متوسّط الدقة (اختبار) | 92.65 | 93.11 | |
RSVQA-HR (غير رقمي) (مجموعة التدريب والمجموعة التقييمية) | متوسّط الدقة (الاختبار/الاختبار2) |
|
|
|
ChartQA (بشري+تضخيم)x(تدريب+تحقّق) | متوسّط الدقة المُتاحة للجميع (test_human، test_aug) | 57.08 | 71.36 | |
VizWiz VQA (التدريب والتقييم) | الدقة (الخادم التجريبي - العادي) | 73.7 | 75.52 | |
TallyQA (تدريب) | الدقة (test_simple/test_complex) |
|
|
|
OCR-VQA (مجموعة التدريب والمجموعة التقييمية) | الدقة (اختبار) | 72.32 | 74.61 | 74.93 |
TextVQA (مجموعة التدريب والمجموعة التقييمية) | الدقة (الخادم التجريبي - العادي) | 55.47 | 73.15 | 76.48 |
DocVQA (مجموعة التدريب والمجموعة التقييمية) | ANLS (الخادم التجريبي) | 43.74 | 78.02 | 84.77 |
معلومات حول نموذج "الأسئلة الشائعة عن الرسم البياني" (مجموعة التدريب والمجموعة التقييمية) | ANLS (الخادم التجريبي) | 28.46 | 40.47 | 47.75 |
SceneText VQA (مجموعة التدريب والمجموعة التقييمية) | ANLS (الخادم التجريبي) | 63.29 | 81.82 | 84.40 |
التقسيم | ||||
RefCOCO (مجموعة من refcoco وrefcoco+ وrefcocog باستثناء صور التقييم والاختبار) | MIoU (validation) refcoco/refcoco+/refcocog |
|
|
|
مهام الفيديو (الترجمة والشرح/الأسئلة والأجوبة) | ||||
MSR-VTT (الترجمة والشرح) | CIDEr (اختبار) | 70.54 | ||
MSR-VTT (QA) | الدقة (اختبار) | 50.09 | ||
ActivityNet (الترجمة والشرح) | CIDEr (اختبار) | 34.62 | ||
ActivityNet (QA) | الدقة (اختبار) | 50.78 | ||
VATEX (الترجمة والشرح) | CIDEr (اختبار) | 79.73 | ||
MSVD (QA) | الدقة (اختبار) | 60.22 |
نموذج المزيج (تحسين مزيج مهام النقل)
مقياس الأداء | المقياس (مقسّم) | mix-224 | mix-448 |
---|---|---|---|
MMVP | دقة الإقران | 46.00 | 45.33 |
POPE | الدقة (عشوائي/رائج/ضارّ) |
|
|
الأخلاق والسلامة
منهج التقييم
تشمل طرق التقييم التي نتّبعها تقييمات منظَّمة واختبارات داخلية لفريق الاختراق (Red Team) بشأن سياسات المحتوى ذات الصلة. تم تنفيذ أسلوب "الفريق الأحمر" من قِبل عدد من الفِرق المختلفة، ولكل فريق أهداف ومقاييس تقييم بشرية مختلفة. تم تقييم هذه التصاميم بالاستناد إلى عدد من الفئات المختلفة ذات الصلة بالأخلاق والسلامة، بما في ذلك:
- تقييم بشري للطلبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى اطّلِع على بطاقة نموذج Gemma للحصول على مزيد من التفاصيل حول نهج التقييم، ولكن مع إعدادات ترجمة الصور وطرح أسئلة مرئية.
- تقييم قياس الأداء لميزة "تحويل الصور إلى نص": قياس الأداء مقارنةً بمجموعات بيانات أكاديمية ذات صلة، مثل مجموعة بيانات FairFace Dataset (Karkkainen et al., 2021).
نتائج التقييم
- تقع نتائج التقييم البشري لتقييمات الأخلاق والسلامة ضمن الحدود القصوى المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار المرسَلة.
- بالإضافة إلى التقييمات الداخلية القوية، نستخدم أيضًا واجهة برمجة التطبيقات Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية وغيرها من الصعوبات المحتملة في مقاطع الترجمة والشرح التي تم إنشاؤها للصور المستمَدة من مجموعة بيانات FairFace. نُبلغ عن الحد الأقصى ومتوسط القيم التي تم رصدها في المجموعات الفرعية لكل من سمات الجنس والمنشأ العرقي والعمر المتأثّرة.
المقياس | الجنس المتوقّع | الانتماء العرقي | الفئة العمرية | |||
---|---|---|---|---|---|---|
الحد الأقصى | Median | الحد الأقصى | Median | الحد الأقصى | Median | |
اللغة غير اللائقة | 0.04% | 0.03% | 0.08% | 0.00% | 0.09% | 0.00% |
هجوم على الهوية | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Insult | 0.06% | 0.04% | 0.09% | 0.07% | 0.16% | 0.00% |
مواضيع تتضمن تهديدات | 0.06% | 0.05% | 0.14% | 0.05% | 0.17% | 0.00% |
اللغة النابية | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
الاستخدام والقيود
الغرض من الاستخدام
تُستخدم نماذج اللغة المستندة إلى الرؤية المفتوحة (VLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لخدمة Gemma.
تحسين مهمة محدّدة تعتمد على الرؤية والنص:
- يمكن تحسين النماذج المدربة مسبقًا على مجموعة واسعة من المهام المتعلّقة بالرؤية والّلغة، مثل: ترجمة الصور وترجمة الفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأشياء وتقسيمها.
- يمكن تحسين النماذج المدربة مسبقًا لنطاقات معيّنة، مثل الإجابة عن أسئلة متعلقة بالاستشعار عن بُعد، والأسئلة المرئية من الأشخاص المكفوفين، والردّ على أسئلة علمية، ووصف وظائف عناصر واجهة المستخدم.
- يمكن تحسين النماذج المدربة مسبقًا للمهام التي تتضمن نتائج غير نصية، مثل المربّعات الحدودية أو أقنعة التقسيم.
أبحاث الرؤية والّغة:
- يمكن أن تُشكّل النماذج المدربة مسبقًا والنماذج المحسّنة أساسًا لمحاولة الباحثين اختبار تقنيات النماذج اللغوية الكبيرة وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.
الاعتبارات الأخلاقية والمخاطر
يثير تطوير نماذج اللغة المرئية (VLM) عدة قضايا تتعلّق بالجانب الأخلاقي. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:
- الانحياز والعدالة
- يمكن أن تعكس نماذج المعالجة البصرية للغة (VLM) التي تم تدريبها على بيانات نصية مرئية على نطاق واسع في العالم الواقعي الانحيازات الاجتماعية والثقافية المضمّنة في المادة التدريبية. خضعَت هذه النماذج لفحص دقيق ومعالجة مسبقة لبيانات الإدخال كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
- المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام أنظمة VLM لإنشاء نص كاذب أو مضلِّل أو ضار.
- يتم توفير إرشادات للاستخدام المسؤول مع النموذج، اطّلِع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول.
- الشفافية والمساءلة
- تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
- يقدّم النموذج المفتوح المطوّر بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطوّرين و الباحثين في المنظومة المتكاملة للذكاء الاصطناعي.
المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:
- ترسيخ الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وتحسينها وحالات الاستخدام الأخرى.
- إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
- إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتدريب المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. ونوفّر أيضًا موارد تعليمية وآليات الإبلاغ تتيح للمستخدمين الإبلاغ عن إساءة الاستخدام: يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لنماذج Gemma.
- انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.
القيود
- لا تزال معظم القيود المُكتسَبة من نموذج Gemma الأساسي سارية:
- تُحقّق نماذج VLM أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
- اللغة الطبيعية معقّدة بطبيعتها. قد يواجه نموذج المعالجة اللغوية الآلية صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
- تُنشئ النماذج اللغوية الضخمة (VLM) الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ هذه المراجع بيانات وقائعية غير صحيحة أو قديمة.
- تعتمد نماذج الترجمة الآلية بالاستناد إلى المحتوى المرئِي على الأنماط الإحصائية في اللغة والصور. وقد لا يملك القدرة على تطبيق المنطق السليم في مواقف معيّنة.
- تم تصميم PaliGemma في المقام الأول ليكون نموذجًا عامًا تم تدريبه مسبقًا لتحسين الأداء في المهام المتخصصة. وبالتالي، قد يكون أداؤه "التلقائي" أو "بدون تدريب مسبق" أقل من النماذج المصمّمة خصيصًا للاستخدام في الأغراض العامة.
- لا يُعدّ PaliGemma روبوت محادثة متعدّد الخطوات. وهو مصمّم لإجراء جولة واحدة من إدخال الصور والنصوص.