بطاقة طراز PaliGemma 2

صفحة الطراز: PaliGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

‫PaliGemma 2 هو تحديث لنموذج PaliGemma للّغة المرئية (VLM) الذي يجمع بين إمكانات نماذج Gemma 2. مجموعة نماذج PaliGemma مستوحاة من PaLI-3 وتستند إلى مكوّنات مفتوحة مثل SigLIP ونماذج اللغة Gemma 2. يأخذ التطبيق كلاً من الصورة والنص كإدخال وينشئ نصًا كناتج، مع إتاحة استخدام لغات متعددة. تم تصميمه لتحقيق أداء متميز في التحسين على مستوى مجموعة واسعة من مهام الرؤية واللّغة، مثل ترجمة الصور والفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأجسام وتقسيمها.

بنية النموذج

‫PaliGemma 2 هو تركيبة من مفكِّك ترميز Transformer و برنامج ترميز صور Vision Transformer. يتمّ إعداد وحدة فك ترميز النصوص من Gemma 2 في أحجام المَعلمات 2 بايت و9 بايت و27 بايت. يتمّ إعداد برنامج ترميز الصور من SigLIP-So400m/14. على غرار نموذج PaliGemma الأصلي، يتم تدريب PaliGemma 2 وفقًا لوصفات PaLI-3.

المدخلات والمخرجات

  • الإدخال: سلسلة من الصور والنصوص، مثل طلب لإضافة شرح للصورة أو سؤال
  • النتيجة: النص الذي تم إنشاؤه استجابةً للمدخلات، مثل شرح توضيحي للصورة أو إجابة عن سؤال أو قائمة بإحداثيات المربّع المحدود للجسم أو كلمات ترميز التقسيم

معلومات الكتاب

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

بيانات النماذج

مجموعات البيانات المخصّصة للتدريب المُسبَق

تم تدريب PaliGemma 2 مسبقًا على مجموعة البيانات التالية:

  • WebLI: WebLI (Web Language Image) هو مجموعة بيانات نصية مصوّرة متعددة اللغات على مستوى الويب تم إنشاؤها من الويب العلني. يتم استخدام مجموعة واسعة من تقسيمات WebLI للحصول على إمكانات متنوعة للنموذج، مثل الفهم الدلالي المرئي وتحديد موقع الأجسام وفهم النص في سياقه البصري وتعدد اللغات.
  • CC3M-35L: أزواج من الصور والنصوص البديلة باللغة الإنجليزية تم اختيارها من صفحات الويب (Sharma et al., 2018). لقد استخدمنا Google Cloud Translation API لترجمة المحتوى إلى 34 لغة إضافية.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، مترجمة إلى 34 لغة إضافية مثل CC3M-35L، باستخدام Google Cloud Translation API.
  • OpenImages: أسئلة وإجابات تتعلّق برصد الأشياء والتعرّف عليها (Piergiovanni et al. 2022) تم إنشاؤها باستخدام قواعد مُعدّة يدويًا في مجموعة بيانات OpenImages.
  • WIT: الصور والنصوص التي تم جمعها من Wikipedia (Srinivasan et al., 2021).

يستند PaliGemma 2 إلى Gemma 2، ويمكنك العثور على معلومات عن مجموعات بيانات التدريب المُسبَق لـ Gemma 2 في بطاقة نموذج Gemma 2.

فلترة مسؤولية الحفاظ على البيانات

يتم تطبيق الفلاتر التالية على WebLI بهدف تدريب PaliGemma 2 على البيانات الآمنة والمسؤولة:

  • فلترة الصور الإباحية: يزيل هذا الفلتر الصور التي يُعتبَر أنّها ذات طبيعة إباحية.
  • فلترة أمان النصوص: نحدّد الصور التي تتضمّن نصًا غير آمن ونزيلها. النص غير الآمن هو أي نص يُعتبَر أنّه يتضمّن أو يدور حول صور اعتداء جنسي على الأطفال أو مواد إباحية أو لغة نابية أو هو مسيء بأي شكل آخر.
  • فلترة اللغة المسيئة: نستخدم أيضًا واجهة برمجة تطبيقات Perspective لتحديد الصور التي يتم إقرانها بنصوص يُعتبَر أنّها مسيئة أو بذيئة أو بغيضة أو مسيئة بأي شكل آخر، وفلترتها.
  • فلترة المعلومات الشخصية النصية: لقد فلترنا معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة باستخدام واجهة برمجة تطبيقات منع فقدان البيانات (DLP) في Cloud لحماية خصوصية الأفراد. تمّت إزالة المعرّفات، مثل أرقام التأمين الاجتماعي و أنواع المعلومات الحسّاسة الأخرى.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا وممارساتنا

معلومات التنفيذ

أجهزة

تم تدريب PaliGemma 2 باستخدام أحدث جيل من أجهزة وحدة معالجة الموتّرات (TPU)‏ (TPUv5e).

البرامج

تم إكمال التدريب باستخدام JAX، Flax، TFDS و big_vision.

تتيح مكتبة JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، وذلك لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.

يتم استخدام TFDS للوصول إلى مجموعات البيانات، ويتم استخدام Flax لبنية النموذج. تم إصدار رمز تحسين PaliGemma 2 ورمز الاستنتاج في big_vision مستودع GitHub.

معلومات التقييم

نتائج قياس الأداء

للتحقّق من إمكانية نقل PaliGemma 2 إلى مجموعة كبيرة من المهام الأكاديمية، نُجري تحسينًا على النماذج المدربة مسبقًا لكل مهمة. نُبلغ عن النتائج بدرجات دقة مختلفة لتقديم فكرة عن المهام التي تستفيد من زيادة درجة الدقة. من المهم الإشارة إلى أنّ أيًا من هذه المهام أو مجموعات البيانات ليس جزءًا من مجموعة بيانات التدريب المُسبَق، ويتم إزالة صورها صراحةً من بيانات التدريب المُسبَق على مستوى الويب.

نتائج PaliGemma 2 حسب درجة دقة الطراز وحجمه

مقياس الأداء 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (الإنجليزية) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (متوسط) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (بشري) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (اختبار) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (اختبار) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (معقد) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (بسيط) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (متوسط القيمة من 7 تقييمات) 58.6 61.4 61.1 60.4 62.6 62.1

مقاييس الأداء الإضافية

ICDAR 2015 Incidental

الطراز الدقة التذكُّر F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

الطراز الدقة التذكُّر F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

الطراز S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

الطراز S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

الطراز CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B، المطابقة الكاملة: 94.8

DOCCI

الطراز avg#char avg#sent نسبة NES
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: متوسط عدد الأحرف
  • avg#sent: متوسط عدد الجُمل
  • NES: جمل لا تتضمن معنى ضمنيًا

MIMIC-CXR

الطراز CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% ‫28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

التفكير المكاني المرئي

الطراز VSR zeroshot split (test) تقسيم VSR عشوائي (اختبار)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

الأخلاق والسلامة

منهج التقييم

تشمل طرق التقييم لدينا تقييمات أخلاقية وتقييمات أمان منظَّمة على مستوى سياسات المحتوى ذات الصلة، بما في ذلك:

  • تقييم بشري للطلبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى اطّلِع على بطاقة نموذج Gemma للحصول على مزيد من التفاصيل حول نهج التقييم، ولكن مع إعدادات ترجمة الصور وطرح أسئلة مصوّرة.
  • تقييم قياس الأداء لميزة "تحويل الصور إلى نص": قياس الأداء مقارنةً بمجموعات بيانات أكاديمية ذات صلة، مثل مجموعة بيانات FairFace Dataset (Karkkainen et al., 2021).

نتائج التقييم

  • تقع نتائج التقييم البشري لتقييمات الأخلاق والسلامة ضمن الحدود القصوى المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار المرسَلة.
  • بالإضافة إلى التقييمات الداخلية القوية، نستخدم أيضًا واجهة برمجة التطبيقات Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية وغيرها من الصعوبات المحتملة في مقاطع الترجمة والشرح التي تم إنشاؤها للصور المستمَدة من مجموعة بيانات FairFace. نُبلغ عن الحد الأقصى ومتوسط القيم التي تم رصدها في المجموعات الفرعية لكل من سمات الجنس والمنشأ العرقي والعمر المتأثّرة.
المقياس الجنس المتوقّع الانتماء العرقي الفئة العمرية
حجم النموذج ‫3 مليارات 10 مليار 28 مليار ‫3 مليارات 10 مليار 28 مليار ‫3 مليارات 10 مليار 28 مليار
الحد الأقصى
اللغة غير اللائقة 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
هجوم على الهوية 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
Insult 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
مواضيع تتضمن تهديدات 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Median
اللغة غير اللائقة 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
هجوم على الهوية 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Insult 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
مواضيع تتضمن تهديدات 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0,40%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

الاستخدام والقيود

الغرض من الاستخدام

تُستخدم نماذج اللغة المستندة إلى الرؤية المفتوحة (VLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لخدمة Gemma.

تحسين مهمة معيّنة تعتمد على الرؤية والنص:

  • يمكن تحسين النماذج المدربة مسبقًا على مجموعة واسعة من المهام المتعلّقة بالرؤية والّلغة، مثل: ترجمة الصور وترجمة الفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأشياء وتقسيمها.
  • يمكن تحسين النماذج المدربة مسبقًا لنطاقات معيّنة، مثل الإجابة عن أسئلة متعلقة بالاستشعار عن بُعد، والأسئلة المرئية من الأشخاص المكفوفين، والردّ على أسئلة علمية، ووصف وظائف عناصر واجهة المستخدم.
  • يمكن تحسين النماذج المدربة مسبقًا للمهام التي تتضمن نتائج غير نصية، مثل المربّعات الحدودية أو أقنعة التقسيم.

أبحاث اللغة المرئية:

  • يمكن أن تُشكّل النماذج المدربة مسبقًا والنماذج المحسَّنة أساسًا لمحاولة الباحثين اختبار تقنيات النماذج اللغوية الكبيرة وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير نماذج اللغة المرئية (VLM) عدة قضايا تتعلّق بالجانب الأخلاقي. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

  • الانحياز والعدالة
    • يمكن أن تعكس نماذج المعالجة البصرية للغة (VLM) التي تم تدريبها على بيانات نصية مرئية على نطاق واسع في العالم الواقعي الانحيازات الاجتماعية والثقافية المضمّنة في المادة التدريبية. خضعَت هذه النماذج لفحص دقيق ومعالجة مسبقة لبيانات الإدخال كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
    • يقدّم النموذج المفتوح المطوّر بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطوّرين و الباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

  • ترسيخ الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وتحسينها وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخّي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وبرامج التعليم المخصّصة للمطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. ونوفّر أيضًا موارد تعليمية وآليات الإبلاغ تتيح للمستخدمين الإبلاغ عن إساءة الاستخدام: يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لخدمة Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

القيود

  • لا تزال معظم القيود المُكتسَبة من نماذج Gemma 2 الأساسية سارية:
    • تُحقّق نماذج VLM أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
    • اللغة الطبيعية معقّدة بطبيعتها. قد يواجه نموذج VLM صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
    • تُنشئ النماذج اللغوية الضخمة (VLM) الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ هذه المراجع بيانات وقائعية غير صحيحة أو قديمة.
    • تعتمد نماذج الترجمة الآلية بالاستناد إلى المحتوى المرئية على الأنماط الإحصائية في اللغة والصور. وقد لا يملك القدرة على تطبيق المنطق السليم في مواقف معيّنة.
  • تم تصميم PaliGemma 2 في المقام الأول ليكون نموذجًا عامًا مدرَّبًا مسبقًا للضبط الدقيق على المهام المتخصّصة. وبالتالي، قد يكون أداؤها "خارج الصندوق" أو "بدون تدريب مسبق" أقل من النماذج المصمّمة خصيصًا للاستخدام العام.
  • لا يُعدّ PaliGemma 2 روبوت دردشة متعدّد الخطوات. وهو مصمّم لإجراء جولة واحدة من إدخال الصور والنصوص.