بطاقة نموذج PaliGemma

صفحة النموذج: PaliGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

PaliGemma هو نموذج لغة رؤية متعدّد الاستخدامات وخفيف الوزن (VLM) مستوحى من PaLI-3 ويستند إلى مكوّنات مفتوحة، مثل نموذج رؤية SigLIP ونموذج Gemma اللغوي. يأخذ كل من الصور والنص كإدخال وينشئ النص كمخرجات، مما يدعم لغات متعددة. وتم تصميم هذا النظام من أجل تحقيق أداء رائد في مجال الإدارة على مجموعة واسعة من المهام المتعلقة بالرؤية، مثل شرح الصور والفيديوهات القصيرة والإجابة على الأسئلة المرئية وقراءة النصوص ورصد العناصر وتصنيف العناصر.

بنية النموذج

PaliGemma هو تركيبة لبرنامج فك الترميز وبرنامج ترميز الصور Vision Transformer يتضمّن مجموعه 3 مليار مَعلمة. يتم إعداد برنامج فك ترميز النص من Gemma-2B. ويتم إعداد برنامج ترميز الصور من SigLIP-So400m/14. يتم تدريب PaliGemma على اتّباع وصفات PaLI-3.

المُدخلات والمخرجات

  • الإدخال: صورة وسلسلة نصية، مثل رسالة تطلب منك إضافة شرح للصورة أو سؤال.
  • الإخراج: نص يتم إنشاؤه استجابةً للإدخال، مثل شرح للصورة أو إجابة عن سؤال أو قائمة إحداثيات مربّع حدود الكائن أو الكلمات البرمجية للتقسيم.

بيانات النموذج

تدريب مجموعات البيانات مسبقًا

تم تدريب PaliGemma مسبقًا على المزيج التالي من مجموعات البيانات:

  • WebLI: إنّ WebLI (صورة لغة الويب) هي مجموعة بيانات نصوص صور متعدّدة اللغات على نطاق الويب تم إنشاؤها من شبكة الإنترنت العامة. يتم استخدام مجموعة واسعة من تقسيمات WebLI لاكتساب إمكانيات النماذج المتعددة الاستخدامات، مثل الفهم الدلالي المرئي، وأقلمة العناصر، وفهم النصوص الظاهرة مرئيًا، وتعدد اللغات، وغير ذلك.
  • CC3M-35L: أزواج image-alt_text باللغة الإنجليزية المنظَّمة من صفحات الويب (Sharma et al., 2018). استخدمنا Google Cloud Translation API للترجمة إلى 34 لغة إضافية.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، تمت الترجمة إلى 34 لغة إضافية نفسها في CC3M-35L، وذلك باستخدام Google Cloud Translation API.
  • OpenImages:أسئلة وأجوبة متعلقة بالرصد ورصد العناصر (Piergiovanni et al. 2022) استنادًا إلى قواعد معدّة يدويًا في مجموعة بيانات OpenImages
  • WIT: الصور والنصوص التي تم جمعها من Wikipedia (Srinivasan et al., 2021).

فلترة مسؤولية البيانات

يتم تطبيق الفلاتر التالية على WebLI، بهدف تدريب PaliGemma على البيانات النظيفة:

  • تصفية الصور الإباحية: يزيل هذا الفلتر الصور التي تعد ذات طبيعة إباحية.
  • فلترة النصوص: نحدّد الصور المقترنة بنص غير آمن ونستبعدها. ويُقصد بالنص غير الآمن أي نص يُعتبر أنّه يحتوي على صور الاعتداء الجنسي على الأطفال، أو مواد إباحية، أو محتوى يتضمّن كلامًا بذيئًا، أو يتضمّن محتوًى مسيئًا بأي شكل آخر.
  • فلترة اللغة التي تتضمّن لغة غير لائقة على النصوص: نستخدم أيضًا واجهة برمجة التطبيقات Perspective لرصد وإزالة الصور التي يتم إقرانها بنص مهين أو فاحش أو تحض على الكراهية أو غير لائقة بأي شكل آخر.
  • فلترة المعلومات الشخصية النصية: تمت فلترة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة باستخدام واجهة برمجة التطبيقات لمنع فقدان البيانات (DLP) في السحابة الإلكترونية لحماية خصوصية الأفراد. تمت إزالة المعرّفات مثل أرقام التأمين الاجتماعي وأنواع المعلومات الحساسة الأخرى.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتماشى مع سياساتنا وممارساتنا

معلومات عن عملية التنفيذ

أجهزة

تم تدريب PaliGemma باستخدام أحدث جيل من أجهزة وحدة معالجة Tensor (TPU) (TPUv5e).

البرامج

تم إجراء التدريب باستخدام JAX وFlax وTFDS وbig_vision.

تتيح JAX للباحثين الاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة الموتّرات، لتدريب النماذج الكبيرة بشكل أسرع وأكثر كفاءة.

يستخدم TFDS للوصول إلى مجموعات البيانات ويستخدم Flax لبنية النموذج. تم إصدار رمز الضبط الدقيق للاستنتاج ورمز PaliGemma في مستودع GitHub big_vision.

معلومات التقييم

النتائج المعيارية

للتحقق من قابلية نقل PaliGemma إلى مجموعة متنوعة من المهام الأكاديمية، نعمل على تحسين النماذج المدرّبة مسبقًا في كل مهمة. بالإضافة إلى ذلك، يتم تدريب نموذج المزيج بمزيج من مهام النقل. نحن نبلغ بالنتائج بدرجات دقة مختلفة لتوفير انطباع عن المهام التي تستفيد من زيادة الدقة. والأهم من ذلك، لا تمثل أي من هذه المهام أو مجموعات البيانات جزءًا من مزيج بيانات التدريب المسبق، وتتم إزالة صورها صراحةً من بيانات التدريب المسبق على مستوى الويب.

مهمة واحدة (ضبط الموارد على مهمة واحدة)

مقياس الأداء (تقسيم مجموعة القطار) المقياس (تقسيم) pt-224 pt-448 pt-896
إضافة الشرح
تسميات COCO التوضيحية (train+restval) CIDEr (val) 141.92 144.60
NoCaps (تقييم نقل الترجمة والشرح في COCO) CIDEr (val) 121.72 123.58
COCO-35L (قطار) CIDEr dev (ar/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (Eval of COCO-35L Transfer) CIDEr dev (ar/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (قطار) CIDEr (val) 127.48 153.94
SciCap (الجملة الأولى، بدون شكل فرعي) (train+val) CIDEr/BLEU-4 (اختبار)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (اختبار) 117.57 دولار أمريكي
Widget Captioning (train+dev) CIDEr (اختبار) 136.07 148.36
الإجابة عن الأسئلة
VQAv2 (القطار+التحقّق من الصحة) الدقة (خادم الاختبار - الاختبار العادي) 83.19 85.64
MMVP (قيمة نقل VQAv2) دقة الإقران 47.33 45.33
POPE (Eval of VQAv2 Transfer) الدقة (عشوائي/شعبي/خاصية)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (قطار) الدقة (val) 63.54 63.15
A-OKVQA (MC) (قطار+ فالقيان) الدقة (خادم الاختبار) 76.37 76.90
A-OKVQA (DA) (قطار+ فال) الدقة (خادم الاختبار) 61.85 63.22
GQA (train_balanced+val_balanced) الدقة (متوازن اختبار testdev) 65.61 67.03
xGQA (تقييم نقل GQA) متوسط الدقة (bn, de, en, id, ko, pt, ru, zh) 58.37 59.07
NLVR2 (train+dev) الدقة (اختبار) 90.02 88.93
MaRVL (Eval of NLVR2 Transfer) متوسط الدقة (الاختبار) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (مجموعة تدريب) الدقة (اختبار) 72.12 73.28
ScienceQA (مجموعة فرعية من الصور المتحركة، بدون CoT) (قطار+val) الدقة (اختبار) يورو 95.93
RSVQA-LR (غير رقمية) (قطار+ فال) متوسط الدقة (اختبار) 92.65 93.11
RSVQA-HR (غير رقمية) (train+val) متوسط الدقة (اختبار/اختبار2)
92.61
90.58
92.79
90.54
ChartQA (human+aug)x(train+val) متوسط دقة الاسترخاء (test_human، test_aug) 57.08 71.36
VizWiz VQA (قطار+val) الدقة (خادم الاختبار - الاختبار العادي) 73.7 75.52
TallyQA (قطار) الدقة (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (قطار+val) الدقة (اختبار) 72.32 74.61 74.93
TextVQA (قطار+val) الدقة (خادم الاختبار - الاختبار العادي) 55.47 73.15 76.48
DocVQA (train+val) ANLS (خادم تجريبي) 43.74 78.02 84.77
مخطط المعلومات البياني VQA (train+val) ANLS (خادم تجريبي) 28.46 40.47 47.75
SceneText VQA (train+val) ANLS (خادم تجريبي) 63.29 81.82 84.40
التصنيف إلى قطاعات أو شرائح
RefCOCO (مجمّعة من refcoco وrefcoco+ refcog باستثناء val وصور الاختبار) MIoU (التحقق من الصحة) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
مهام الفيديو (الترجمة والشرح/تأكيد الجودة)
MSR-VTT (الترجمة والشرح) CIDEr (اختبار) 70.54
MSR-VTT (QA) الدقة (اختبار) 50.09
ActivityNet (الترجمة والشرح) CIDEr (اختبار) 34.62
ActivityNet (ضمان الجودة) الدقة (اختبار) 50.78
VATEX (ترجمة وشرح) CIDEr (اختبار) 79.73
MSVD (QA) الدقة (اختبار) 60.22

نموذج مختلط (ضبط مزيج من مهام نقل البيانات)

مقياس الأداء المقياس (تقسيم) mix-224 mix-448
MMVP دقة الإقران 46.00 45.33
POPE الدقة (عشوائي/شعبي/خاصية)
88.00
86.63
85.67
89.37
88.40
87.47

الأخلاقيات والسلامة

نهج التقييم

تشمل طرق التقييم التي نتّبعها التقييمات المنظَّمة والاختبار الداخلي من فريق أحمر اللون لسياسات المحتوى ذات الصلة. تم إجراء فريق أحمر من قبل عدد من الفرق المختلفة، لكل منها أهداف مختلفة ومقاييس تقييم أشخاص. وتم تقييم هذه النماذج وفقًا لعدد من الفئات المختلفة ذات الصلة بالأخلاقيات والسلامة، بما في ذلك:

  • يعمل فريق المراجعة على تقييم الطلبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار التمثيلية. يمكنك الاطّلاع على بطاقة نموذج Gemma للحصول على مزيد من التفاصيل حول منهج التقييم، ولكن باستخدام إعدادات الترجمة والشرح للصور وعمليات الإجابة على الأسئلة المرئية.
  • تقييم معيار تحويل الصور إلى نص: المقارنة بمجموعات البيانات الأكاديمية ذات الصلة مثلFairFace Dataset (Karkkainen et al., 2021).

نتائج التقييم

  • تقع نتائج التقييم الذي قدّمه المراجعون على الأخلاقيات وتقييمات السلامة ضمن الحدود المقبولة لاستيفاء السياسات الداخلية في ما يتعلق بفئات مثل سلامة الأطفال وسلامة المحتوى والأذى التمثيلي.
  • بالإضافة إلى التقييمات الداخلية القوية، نستخدم أيضًا Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية والمشاكل المحتملة الأخرى في مقاطع الترجمة والشرح التي يتم إنشاؤها للصور التي تم الحصول عليها من مجموعة بيانات FairFace. نقوم بالإبلاغ عن القيم القصوى والوسيطة التي تمت ملاحظتها عبر المجموعات الفرعية لكل من سمات الجنس والإثني والعمر التي يتم كشفها.
المقياس الجنس المتصور الانتماء العرقي الفئة العمرية
الحد الأقصى Median الحد الأقصى Median الحد الأقصى Median
اللغة غير اللائقة 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
الهجوم على الهوية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
الإهانة 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
مواضيع تتضمن تهديدات 0.06% 0.05‏% 0.14% 0.05‏% 0.17% 0.00%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

الاستخدام والقيود

الغرض من الاستخدام

تحتوي النماذج اللغوية للرؤية المفتوحة (VLMs) على مجموعة واسعة من التطبيقات في مختلف الصناعات والنطاقات. القائمة التالية من الاستخدامات المحتملة ليست شاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج جزءًا من تدريب وتطوير النماذج.

تحسين أداء مَهمّة معيَّنة متعلّقة بالرؤية:

  • يمكن تحسين النماذج المدرَّبة مسبقًا على مجموعة واسعة من المهام المتعلقة بالرؤية مثل: شرح الصور وشرح الفيديو القصير والإجابة على الأسئلة المرئية وقراءة النصوص ورصد العناصر وتصنيف العناصر.
  • يمكن تحسين النماذج المدرَّبة مسبقًا لنطاقات محددة مثل الإجابة عن أسئلة أجهزة الاستشعار عن بُعد والأسئلة المرئية من المكفوفين والإجابة على الأسئلة العلمية ووصف وظائف عنصر واجهة المستخدم.
  • يمكن تحسين النماذج المدرَّبة مسبقًا للمهام التي تتضمن مخرجات غير نصية مثل مربّعات الحدود أو أقنعة التجزئة.

أبحاث لغة الرؤية:

  • يمكن أن تكون النماذج المدرَّبة مسبقًا والنماذج المحسّنة بمثابة أساس للباحثين لتجربة تقنيات VLM وتطوير الخوارزميات والمساهمة في تقدم المجال.

الاعتبارات والمخاطر الأخلاقية

يثير تطوير نماذج لغة الرؤية (VLMs) العديد من المخاوف الأخلاقية. لإنشاء نموذج مفتوح، فكرنا في ما يلي بعناية:

  • الانحياز والإنصاف
    • يمكن لـ VLMs التي تم تدريبها على بيانات نصوص الصور الواقعية على نطاق واسع أن تعكس التحيزات الاجتماعية والثقافية المضمّنة في مواد التدريب. خضعت هذه النماذج لفحص دقيق، حيث تم إدخال المعالجة المسبقة للبيانات والتقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة.
  • المعلومات الخاطئة وإساءة الاستخدام
    • يمكن إساءة استخدام إطارات VLM لإنشاء نص غير صحيح أو مضلل أو ضار.
    • يتم توفير الإرشادات للاستخدام المسؤول مع النموذج، يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤولة.
  • الشفافية والمساءلة
    • تلخص بطاقة النموذج هذه تفاصيل بنية النماذج والقدرات والقيود وعمليات التقييم.
    • يتيح النموذج المفتوح المطوَّر بشكل مسؤول الفرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطورين والباحثين عبر منظومة الذكاء الاصطناعي المتكاملة.

تحديد المخاطر والتخفيف من حدتها:

  • استمرار الانحيازات:يُنصح بإجراء المراقبة المستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف أساليب إزالة الانحياز أثناء تدريب النماذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: من الضروري وضع آليات وإرشادات لضمان أمان المحتوى. ننصح المطوّرين بتوخّي الحذر وتطبيق تدابير الوقاية المناسبة لأمان المحتوى استنادًا إلى سياسات منتجاتهم المحدّدة وحالات استخدام التطبيقات.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتعريف المطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارّة للنماذج اللغوية الكبيرة. يتم توفير المراجع التعليمية وآليات الإبلاغ للمستخدمين للإبلاغ عن إساءة الاستخدام: راجِع مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. تم توضيح الاستخدامات المحظورة لنماذج "جيما" في سياسة الاستخدام المحظور من جيما.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمّت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة. ويتم تشجيع المطوّرين على الالتزام بلوائح الخصوصية باستخدام أساليب الحفاظ على الخصوصية.

القيود

  • لا تزال معظم القيود المكتسَبة من نموذج Gemma الأساسي سارية:
    • تعد إطارات VLM أفضل في المهام التي يمكن تأطيرها بمطالبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • إن اللغة الطبيعية معقدة بطبيعتها. قد يصعب على فناني VLM فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
    • تنشئ كائنات VLM ردودًا بناءً على المعلومات التي تعلموها من مجموعات بيانات التدريب الخاصة بهم، لكنها ليست قواعد معرفية. قد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
    • تعتمد متغيرات VLM على الأنماط الإحصائية في اللغة والصور. قد يفتقرون إلى القدرة على تطبيق التفكير المنطقي في مواقف معينة.
  • تم تصميم PaliGemma أولاً وقبل كل شيء ليكون نموذجًا عامًا مدرَّبًا مسبقًا للضبط الدقيق للمهام المتخصصة. وبالتالي، قد يتأخر أداءه "الخارجي" أو "الأول" عن النماذج المصمَّمة خصيصًا لهذا الغرض.
  • PaliGemma ليس برنامج دردشة متعدد الأدوار. فهي مُصمَّمة لجولة واحدة من إدخال الصور والنص.