بطاقة طراز PaliGemma 2

صفحة الطراز: PaliGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

‫PaliGemma 2 هو تحديث لنموذج PaliGemma لمعالجة اللغة المرئية (VLM) الذي يجمع بين إمكانات نماذج Gemma 2. مجموعة نماذج PaliGemma مستوحاة من PaLI-3 وتستند إلى مكوّنات مفتوحة مثل SigLIP ونماذج اللغة Gemma 2. يأخذ التطبيق كلاً من الصورة والنص كمدخلات وينشئ نصًا كناتج، مع إتاحة استخدام لغات متعددة. تم تصميمه لتحقيق أداء متميز في التحسين على مستوى مجموعة واسعة من مهام الرؤية واللّغة، مثل ترجمة الصور والفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأجسام وتقسيمها.

بنية النموذج

‫PaliGemma 2 هو تركيبة من مفكِّر ترميز Transformer و مشفِّر صور Vision Transformer. يتمّ إعداد وحدة فك ترميز النصوص من Gemma 2 في أحجام المَعلمات 2 بايت و9 بايت و27 بايت. يتمّ إعداد برنامج ترميز الصور من SigLIP-So400m/14. على غرار نموذج PaliGemma الأصلي، يتم تدريب PaliGemma 2 وفقًا لوصفات PaLI-3.

المدخلات والمخرجات

  • الإدخال: سلسلة من الصور والنصوص، مثل طلب لإضافة شرح للصورة أو سؤال
  • النتيجة: النص الذي تم إنشاؤه استجابةً للمدخلات، مثل شرح توضيحي للصورة أو إجابة عن سؤال أو قائمة بإحداثيات المربّع المحدود للجسم أو كلمات ترميز التقسيم

معلومات الكتاب

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

بيانات الطراز

مجموعات البيانات المخصّصة للتدريب المُسبَق

تم تدريب PaliGemma 2 مسبقًا على مجموعة مختلطة من مجموعات البيانات التالية:

  • WebLI: WebLI (Web Language Image) هو مجموعة بيانات متعددة اللغات من الصور والنصوص على مستوى الويب تم إنشاؤها من الويب العلني. يتم استخدام مجموعة واسعة من تقسيمات WebLI للحصول على إمكانات متنوعة للنموذج، مثل الفهم الدلالي المرئي وتحديد موقع الأجسام وفهم النص في سياقه البصري وتعدد اللغات.
  • CC3M-35L: أزواج من الصور والنصوص البديلة باللغة الإنجليزية تم اختيارها من صفحات الويب (Sharma et al., 2018). لقد استخدمنا Google Cloud Translation API لترجمة المحتوى إلى 34 لغة إضافية.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، مترجمة إلى 34 لغة إضافية مثل CC3M-35L، باستخدام Google Cloud Translation API.
  • OpenImages: أسئلة وإجابات تتعلّق برصد الأشياء والتعرّف عليها (Piergiovanni et al. 2022) تم إنشاؤها باستخدام قواعد مُعدّة يدويًا في مجموعة بيانات OpenImages.
  • WIT: الصور والنصوص التي تم جمعها من Wikipedia (Srinivasan et al., 2021).

يستند PaliGemma 2 إلى Gemma 2، ويمكنك العثور على معلومات عن مجموعات بيانات التدريب المُسبَق لـ Gemma 2 في بطاقة نموذج Gemma 2.

فلترة مسؤولية الحفاظ على البيانات

يتم تطبيق الفلاتر التالية على WebLI بهدف تدريب PaliGemma 2 على البيانات الآمنة والمسؤولة:

معلومات التنفيذ

أجهزة

تم تدريب PaliGemma 2 باستخدام أحدث جيل من أجهزة وحدة معالجة الموتّرات (TPU)‏ (TPUv5e).

البرامج

تم إكمال التدريب باستخدام JAX، Flax، TFDS و big_vision.

تسمح حزمة JAX للباحثين بالاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.

يتم استخدام TFDS للوصول إلى مجموعات البيانات ويتم استخدام Flax لبنية النموذج. تم إصدار رمز تحسين PaliGemma 2 ورمز الاستنتاج في big_vision مستودع GitHub.

معلومات التقييم

نتائج قياس الأداء

للتحقّق من إمكانية نقل PaliGemma 2 إلى مجموعة كبيرة من المهام الأكاديمية، نُجري تحسينًا على النماذج المدربة مسبقًا لكل مهمة. بالإضافة إلى ذلك، نُدرّب النموذج المختلط على مجموعة متنوعة من مهام النقل. نعرض النتائج بدرجات دقة مختلفة لتقديم فكرة عن المهام التي تستفيد من زيادة درجة الدقة. من المهم الإشارة إلى أنّ أيًا من هذه المهام أو مجموعات البيانات ليس جزءًا من مجموعة بيانات التدريب المُسبَق، ويتم إزالة صورها صراحةً من بيانات التدريب المُسبَق على مستوى الويب.

نتائج PaliGemma 2 حسب درجة دقة الطراز وحجمه

مقياس الأداء 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (الإنجليزية) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (متوسط) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (بشري) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (avg5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (اختبار) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-hr (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (testB) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (اختبار) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156.9 183.3 177.2 172.7
ScienceQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (معقد) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (بسيط) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137.9 139.9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148.9
XM3600 (avg35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (متوسط القيمة من 7 تقييمات) 58.6 61.4 61.1 60.4 62.6 62.1

مقاييس الأداء الإضافية

ICDAR 2015 Incidental

الطراز الدقة التذكُّر F1
PaliGemma 2 3B 81.88 70.73 75.9

Total-Text

الطراز الدقة التذكُّر F1
PaliGemma 2 3B 73.8. 74.54 74.17

FinTabNet

الطراز S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98.94 99.43 99.21

PubTabNet

الطراز S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97.31 97.99 97.84

GrandStaff

الطراز CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B، المطابقة الكاملة: 94.8

DOCCI

الطراز avg#char avg#sent نسبة NES
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char: متوسط عدد الأحرف
  • avg#sent: متوسط عدد الجُمل
  • NES: جمل لا تتضمن معنى ضمنيًا

MIMIC-CXR

الطراز CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19.9% 14.6% 31.92% ‫28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

التفكير المكاني المرئي

الطراز VSR zeroshot split (test) تقسيم VSR عشوائي (اختبار)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

الأخلاق والسلامة

منهج التقييم

تشمل طرق التقييم لدينا تقييمات أخلاقية وأمان منظَّمة على مستوى سياسات المحتوى ذات الصلة، بما في ذلك:

  • تقييم بشري للطلبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى اطّلِع على بطاقة نموذج Gemma للحصول على مزيد من التفاصيل حول نهج التقييم، ولكن مع إعدادات ترجمة الصور وطرح أسئلة مرئية.
  • تقييم قياس الأداء لميزة "تحويل الصور إلى نص": قياس الأداء مقارنةً بمجموعات بيانات أكاديمية ذات صلة، مثل مجموعة بيانات FairFace Dataset (Karkkainen et al., 2021).

نتائج التقييم

  • تقع نتائج التقييم البشري لتقييمات الأخلاق والسلامة ضمن الحدود القصوى المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار المرسَلة.
  • بالإضافة إلى التقييمات الداخلية القوية، نستخدم أيضًا واجهة برمجة التطبيقات Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية وغيرها من الصعوبات المحتملة في مقاطع الترجمة والشرح التي تم إنشاؤها للصور المستمَدة من مجموعة بيانات FairFace. نُبلغ عن الحد الأقصى ومتوسط القيم التي تم رصدها في المجموعات الفرعية لكل من سمات الجنس والمنشأ العرقي والعمر المتأثّرة.
المقياس الجنس المتوقّع الانتماء العرقي الفئة العمرية
حجم النموذج ‫3 مليارات 10 مليار 28 مليار ‫3 مليارات 10 مليار 28 مليار ‫3 مليارات 10 مليار 28 مليار
الحد الأقصى
اللغة غير اللائقة 0.14% 0.15% 0.19% 0.29% 0.39% 0.39% 0.26% 0.18% 0.32%
هجوم على الهوية 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
إهانة 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
مواضيع تتضمن تهديدات 0.55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Median
اللغة غير اللائقة 0.13% 0.10% 0.18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
هجوم على الهوية 0.02% 0.01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
إهانة 0.15% 0.23% 0.14% 0.14% 0.17% 0.13% 0.09% 0.18% 0.16%
مواضيع تتضمن تهديدات 0.35% 0.27% 0.41% 0.28% 0.19% 0.42% 0.27% 0.31% 0,40%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

الاستخدام والقيود

الغرض من الاستخدام

تُستخدم النماذج اللغوية لنظام الرؤية المفتوح (VLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور في Gemma.

تحسين مهمة معيّنة تعتمد على الرؤية والنص:

  • يمكن تحسين النماذج المدربة مسبقًا على مجموعة واسعة من المهام المتعلّقة بالرؤية والّلغة، مثل: ترجمة الصور وترجمة الفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأشياء وتقسيمها.
  • يمكن تحسين النماذج المدربة مسبقًا لنطاقات معيّنة، مثل الإجابة عن أسئلة متعلقة بالاستشعار عن بُعد، والأسئلة المرئية من الأشخاص المكفوفين، والردّ على أسئلة علمية، ووصف وظائف عناصر واجهة المستخدم.
  • يمكن تحسين النماذج المدربة مسبقًا للمهام التي تتضمن نتائج غير نصية، مثل المربّعات الحدودية أو أقنعة التقسيم.

أبحاث اللغة المرئية:

  • يمكن أن تُشكّل النماذج المدربة مسبقًا والنماذج المحسّنة أساسًا لمحاولة الباحثين اختبار تقنيات النماذج اللغوية الكبيرة وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير نماذج الرؤية والترجمة (VLM) عدة قضايا تتعلّق بالجانب الأخلاقي. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

  • الانحياز والعدالة
    • يمكن أن تعكس نماذج اللغة المرئية (VLM) التي تم تدريبها على بيانات نصية مصوّرة على نطاق واسع في العالم الواقعي الانحيازات الاجتماعية والثقافية المضمّنة في المادة التدريبية. خضعَت هذه النماذج لفحص دقيق ومعالجة مسبقة للبيانات المُدخلة كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
    • يقدّم النموذج المفتوح الذي تم تطويره بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطوّرين و الباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

  • استمرار الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وضبطها وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وبرامج التعليم المخصّصة للمطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. ونوفّر أيضًا موارد تعليمية وآليات الإبلاغ تتيح للمستخدمين الإبلاغ عن إساءة الاستخدام: يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور في Gemma.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

القيود

  • لا تزال معظم القيود المُكتسَبة من نماذج Gemma 2 الأساسية سارية:
    • تُحقّق نماذج VLM أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
    • اللغة الطبيعية معقّدة بطبيعتها. قد يواجه نموذج المعالجة اللغوية الآلية صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
    • تُنشئ النماذج اللغوية الضخمة (VLM) الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
    • تعتمد نماذج الترجمة الآلية بالاستناد إلى المحتوى المرئِي على الأنماط الإحصائية في اللغة والصور. قد لا يملك الطفل القدرة على تطبيق المنطق السليم في مواقف معيّنة.
  • تم تصميم PaliGemma 2 في المقام الأول ليكون نموذجًا عامًا مدرَّبًا مسبقًا للضبط الدقيق على المهام المتخصّصة. وبالتالي، قد يكون أداؤها "خارج الصندوق" أو "بدون تدريب مسبق" أقل من النماذج المصمّمة خصيصًا للاستخدام العام.
  • لا يُعدّ PaliGemma 2 روبوت دردشة متعدّد الخطوات. وهو مصمّم لإجراء جولة واحدة من إدخال الصور والنصوص.