بطاقة نموذج PaliGemma

صفحة النموذج: PaliGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

الوصف

PaliGemma هو نموذج متعدّد الاستخدامات وخفيف للغة الرؤية (VLM) مستوحى من PaLI-3 وتستند إلى المكوّنات المفتوحة مثل نموذج رؤية SigLIP وGemma نموذج لغوي فهو يأخذ كلاً من الصورة والنص كإدخال وينشئ النص كمخرج، يدعم لغات متعددة. من المهم مصممة خصيصًا لتحسين الأداء على مجموعة واسعة من المهام المتعلّقة بلغة الرؤية مثل شرح الصور والفيديوهات القصيرة والسؤال المرئي الإجابة وقراءة النص واكتشاف الكائنات وتقسيم الكائنات.

بنية النموذج

PaliGemma هو تكوين لعبة التحويل. برنامج فك الترميز وصورة Vision Transformer برنامج ترميز، به إجمالي 3 مليار معلَمة. يتم إعداد برنامج فك ترميز النص من Gemma-2B. برنامج ترميز الصور هو تم الإعداد من SigLIP-So400m/14: تم تدريب PaliGemma على اتّباع وصفات PaLI-3.

المُدخلات والمُخرجات

  • الإدخال: صورة وسلسلة نصية، مثل طلب إضافة ترجمة وشرح إلى الصورة سؤال.
  • الإخراج: النص الذي يتم إنشاؤه استجابةً للإدخال، مثل شرح الصورة، إجابة عن سؤال، قائمة مربع إحاطة الكائن أو الإحداثيات أو كلمات الرموز البرمجية للتقسيم.

بيانات النموذج

مجموعات بيانات التدريب المسبق

تم تدريب PaliGemma مسبقًا على المزيج التالي من مجموعات البيانات:

  • WebLI: WebLI (صورة بلغة الويب) هو مجموعة بيانات نص صورة متعددة اللغات على نطاق الويب تم إنشاؤها من شبكة الويب العامة. حاسمة من خلال استخدام مجموعة واسعة من أقسام WebLI لاكتساب إمكانيات النماذج المتعددة الاستخدامات مثل الفهم الدلالي المرئي وأقلمة العناصر فهم النص الوضع مرئيًا، وتعدد اللغات، وما إلى ذلك.
  • CC3M-35L: أزواج منظمة للصور-alt_text باللغة الإنجليزية من صفحات الويب (Sharma et al.، 2018). استخدمنا منصة Google Cloud Translation API للترجمة إلى 34 بلغات إضافية.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، مترجَمة إلى نفس اللغة الـ 34 الإضافية المستخدمة في CC3M-35L، وذلك باستخدام Google Cloud Translation API:
  • OpenImages: أسئلة وأجوبة عن رصد العناصر وإدراكها (Piergiovanni et al. 2022) من إنشاء قواعد موضوعة يدويًا في مجموعة بيانات OpenImages
  • WIT: صور ونصوص تم جمعها من Wikipedia (Srinivasan et al., 2021).

تصفية مسئولية البيانات

يتم تطبيق الفلاتر التالية على WebLI، بهدف تدريب PaliGemma على البيانات النظيفة:

  • فلترة الصور الإباحية: يزيل هذا الفلتر الصور التي تُعتبر طبيعة إباحية.
  • فلترة أمان النص: نحدّد الصور التي يتم إقرانها ونفلترها. تتضمن نصًا غير آمن النص غير الآمن هو أي نص يُعتبر يحتوي على أو يدور حول صور اعتداء جنسي على الأطفال أو مواد إباحية أو محتوى بذيء أو محتوى مسيء بأي شكل آخر
  • فلترة اللغة غير اللائقة في النص: نستخدم أيضًا الخيار Perspective واجهة برمجة التطبيقات لتحديد وفلترة الصور إلى جانب نص يُعتبر مهينًا أو فاحشًا أو يحض على الكراهية أو ضارًا بأي شكل آخر.
  • فلترة المعلومات الشخصية النصية: تمت فلترة معلومات شخصية معيّنة وغيرها من البيانات الحساسة باستخدام ميزة منع فقدان البيانات في السحابة الإلكترونية واجهة برمجة التطبيقات (DLP) لحماية وخصوصية الأفراد. تتضمن المعرّفات مثل أرقام التأمين الاجتماعي أنواع المعلومات الحسّاسة الأخرى.
  • طرق إضافية: الفلترة استنادًا إلى جودة المحتوى والأمان في بما يتوافق مع سياساتنا وممارساتنا

معلومات التنفيذ

أجهزة

تم تدريب PaliGemma باستخدام أحدث جيل من وحدة معالجة Tensor الأجهزة (TPU) (TPUv5e).

البرامج

تم إجراء التدريب باستخدام JAX، Flax، TFDS و big_vision

تسمح وكالة JAX للباحثين بالاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة الموتّرات، للحصول على تدريب أسرع وأكثر فعالية للنماذج الكبيرة.

يُستخدم TFDS للوصول إلى مجموعات البيانات، ويستخدم Flax لبنية النموذج. تشير رسالة الأشكال البيانية تم إصدار رمز الاستنتاج PaliGemma في big_vision مستودع جيت هب.

معلومات التقييم

نتائج قياس الأداء

للتحقّق من قابلية نقل PaliGemma إلى مجموعة متنوعة من المهام الأكاديمية، يتم تحسين النماذج المُدرَّبة مسبقًا في كل مهمة. بالإضافة إلى ذلك، تدريب نموذج المزيج بمزيج من مهام النقل. نحن نبلّغ عن نتائج عن ودرجات دقة مختلفة لإعطاء انطباع عن المهام التي تستفيد من وزيادة درجة الدقة. والأهم من ذلك، لا تُعد أي من هذه المهام أو مجموعات البيانات جزءًا من بمزيج البيانات المسبق للتدريب، وتتم إزالة صورهم صراحةً من بيانات التدريب المسبق على نطاق الويب.

مهمة واحدة (ضبط دقيق في مهمة واحدة)

مقياس الأداء (تقسيم القطار) المقياس (التقسيم) pt-224 pt-448 pt-896
إضافة الشرح
شرح COCO (تدريب واستعادة) CIDEr (val) 141.92 144.60
NoCaps (تقييم نقل شرح COCO) CIDEr (val) 121.72 123.58
COCO-35L (قطار) CIDEr dev (ar/avg-34/avg)
139.2
115.8
116.4
141.2
118.0
118.6
XM3600 (تقييم نقل COCO-35L) CIDEr dev (ar/avg-34/avg)
78.1
41.3
42.4
80.0
41.9
42.9
TextCaps (قطار) CIDEr (val) 127.48 153.94
SciCap (الجملة الأولى، بدون رقم فرعي) (train+val) CIDEr/BLEU-4 (اختبار)
162.25
0.192
181.49
0.211
Screen2words (التدريب + تطوير البرامج) CIDEr (اختبار) 117.57 119.59
Widget Captioning (train+dev) CIDEr (اختبار) 136.07 148.36
الإجابة عن السؤال
VQAv2 (القطار+ التحقُّق من الصحة) الدقة (خادم الاختبار - SD) 83.19 85.64
MMVP (قيمة نقل VQAv2) دقة الاقتران 47.33 45.33
بروتوكول POPE (Eval من نقل VQAv2) الدقة (عشوائية/شعبية/عدائية)
87.80
85.87
84.27
88.23
86.77
85.90
OKVQA (قطار) الدقة (val) 63.54 63.15
A-OKVQA (MC) (train+val) الدقة (خادم الاختبار) 76.37 76.90
A-OKVQA (DA) (قطار+فال) الدقة (خادم الاختبار) 61.85 63.22
GQA (train_balanced+val_balanced) الدقة (testdev متوازن) 65.61 67.03
xGQA (تقييم نقل GQA) متوسّط الدقة (bn وde وen وid وko وpt وru وzh) 58.37 59.07
NLVR2 (القطار+ وتطوير البرامج) الدقة (الاختبار) 90.02 88.93
MaRVL (Eval of NLVR2 النقل) متوسط الدقة (اختبار) (id, sw, ta, tr, zh) 80.57 76.78
AI2D (قطار) الدقة (الاختبار) 72.12 73.28
ScienceQA (مجموعة فرعية من الصور، بدون CoT) (train+val) الدقة (الاختبار) 95.39 95.93
RSVQA-LR (غير رقمية) (قطار+val) متوسط الدقة (اختبار) 92.65 93.11
RSVQA-HR (غير رقمية) (قطار+فال) متوسط الدقة (اختبار/اختبار2)
92.61
90.58
92.79
90.54
ChartQA (human+aug)x(train+val) متوسط الدقة الهادئة (test_human، test_aug) 57.08 71.36
VizWiz VQA (القطار+val) الدقة (خادم الاختبار - SD) 73.7 75.52
TallyQA (قطار) الدقة (test_simple/test_complex)
81.72
69.56
84.86
72.27
OCR-VQA (قطار+val) الدقة (الاختبار) 72.32 74.61 74.93
TextVQA (قطار+val) الدقة (خادم الاختبار - SD) 55.47 73.15 76.48
DocVQA (قطار+val) ANLS (خادم الاختبار) 43.74 78.02 84.77
VQA مخطط المعلومات البياني (train+val) ANLS (خادم الاختبار) 28.46 40.47 47.75
SceneText VQA (قطار+val) ANLS (خادم الاختبار) 63.29 81.82 84.40
التقسيم
RefCOCO (انعكاسات refcoco وrefcoco+ وrefcog باستثناء الصور والاختبار) MIoU (التحقّق) refcoco/refcoco+/refcocog
73.40
68.32
67.65
75.57
69.76
70.17
76.94
72.18
72.22
مهام الفيديو (الترجمة والشرح/تأكيد الجودة)
MSR-VTT (ترجمة وشرح) CIDEr (اختبار) 70.54
MSR-VTT (QA) الدقة (الاختبار) 50.09
ActivityNet (الشرح) CIDEr (اختبار) 34.62
ActivityNet (ضمان الجودة) الدقة (الاختبار) 50.78
VATEX (ترجمة وشرح) CIDEr (اختبار) 79.73
MSVD (QA) الدقة (الاختبار) 60.22

نموذج مختلط (ضبط دقيق عند مزيج من مهام النقل)

مقياس الأداء المقياس (التقسيم) mix-224 mix-448
MMVP دقة الاقتران 46.00 45.33
بروتوكول POPE الدقة (عشوائية/شعبية/عدائية)
88.00
86.63
85.67
89.37
88.40
87.47

الأخلاقيات والأمان

نهج التقييم

وتشمل طرق التقييم لدينا التقييمات المهيكلة والفريق الأحمر الداخلي اختبار سياسات المحتوى ذات الصلة تم إجراء الفريق الأحمر بواسطة عدد من فرق مختلفة، ولكل منها أهداف ومقاييس تقييم بشري مختلفة. هذه النماذج مقارنةً بعدد من الفئات المختلفة ذات الصلة الأخلاقيات والسلامة، بما في ذلك:

  • عملية تقييم تتم من قِبل فريق المراجعين بشأن المطالبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار التمثيلية. الاطّلاع على نموذج Gemma بطاقة لـ مزيد من التفاصيل حول منهج التقييم، ولكن مع شرح الصور والعناصر المرئية إعدادات الإجابة على الأسئلة.
  • تقييم مقياس أداء تحويل الصورة إلى نص: قياس الأداء مقارنةً بالأكاديمي ذوي الصلة مثل مجموعة بيانات FairFace (Karkkainen et al., 2021).

نتائج التقييم

  • تقع نتائج التقييم البشري للأخلاقيات وتقييمات السلامة في معايير مقبولة لاستيفاء المعايير الداخلية السياسات لفئات مثل سلامة الأطفال وسلامة المحتوى وتقديم معلومات ضررًا.
  • بالإضافة إلى التقييمات الداخلية الفعّالة، نستخدم أيضًا Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية وغيرها من المخاطر مشاكل في مقاطع الترجمة والشرح التي تم إنشاؤها للصور التي تم الحصول عليها من منصة FairFace مجموعة البيانات الأصلية. نُبلغ عن القيم القصوى والوسيطة المرصودة في المجموعات الفرعية لكل سمة من سمات الجنس والانتماء العِرقي والعمر المتصورة.
المقياس الجنس المتصور الانتماء العرقي الفئة العمرية
الحد الأقصى Median الحد الأقصى Median الحد الأقصى Median
لغة غير لائقة 0.04% 0.03% 0.08% 0.00% 0.09% 0.00%
الهجوم على الهوية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
إهانة 0.06% 0.04% 0.09% 0.07% 0.16% 0.00%
مواضيع تتضمن تهديدات 0.06% 0.05‏% 0.14% 0.05‏% 0.17% 0.00%
اللغة النابية 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

الاستخدام والقيود

الغرض من الاستخدام

لنماذج لغوية الرؤية المفتوحة (VLM) مجموعة واسعة من التطبيقات عبر مختلف الصناعات والمجالات. القائمة التالية للاستخدامات المحتملة ليست وشاملة. تهدف هذه القائمة إلى توفير معلومات سياقية حول حالات الاستخدام المحتملة التي اعتبرها منشئو النماذج كجزء من النموذج التدريب والتطوير.

الضبط الدقيق لمهمة محدَّدة بلغة الرؤية:

  • يمكن تحسين النماذج المدرّبة مسبقًا على مجموعة واسعة من لغات الرؤية مهام مثل: شرح الصور وترجمة الفيديو القصير والسؤال المرئي الإجابة وقراءة النص واكتشاف الكائنات وتقسيم الكائنات.
  • يمكن تحسين النماذج المدرّبة مسبقًا لتناسب مجالات محددة مثل التحكم عن بُعد والإجابة عن الأسئلة الحساسة، والأسئلة المرئية من المكفوفين، للإجابة عن سؤال علمي، وصف وظائف عنصر واجهة المستخدم.
  • يمكن تحسين النماذج المدرّبة مسبقًا لتناسب المهام ذات المخرجات غير النصية مثل مربعات الإحاطة أو أقنعة التجزئة.

البحث عن اللغة والرؤية:

  • يمكن أن تعمل النماذج المدرّبة مسبقًا والنماذج المحسّنة كأساس تجربة تقنيات VLM وتطوير الخوارزميات يساهم في تقدم هذا المجال.

الاعتبارات والمخاطر الأخلاقية

يطرح تطوير نماذج لغة الرؤية (VLM) العديد من الجوانب الأخلاقية من المخاوف. عند إنشاء نموذج مفتوح، يتم أخذ ما يلي في الاعتبار بعناية:

  • التحيز والإنصاف
    • يمكن أن تعكس خوارزميات VLM المدربة على بيانات نص صورة واسعة النطاق وواقعية التحيزات الاجتماعية والثقافية المضمنة في المواد التدريبية. هذه النماذج خضعت لتدقيق دقيق، والمعالجة المسبقة للبيانات الموصوفة التقييمات اللاحقة التي تم الإبلاغ عنها في هذه البطاقة
  • المعلومات الخاطئة وإساءة الاستخدام
    • يمكن إساءة استخدام أدلة VLM لإنشاء نص زائف أو مضلِّل أو ضارة.
    • يتم تقديم إرشادات للاستخدام المسؤول مع النموذج، راجع مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤولة.
  • الشفافية والمساءلة
    • تلخّص بطاقة النموذج هذه تفاصيل النماذج والهندسة المعمارية والإمكانات والقيود وعمليات التقييم.
    • يتيح النموذج المفتوح الذي تم تطويره بشكلٍ مسؤول فرصة مشاركة الابتكار من خلال جعل تقنية VLM في متناول المطورين للباحثين عبر منظومة الذكاء الاصطناعي المتكاملة

المخاطر التي تم تحديدها وتقليلها:

  • استمرار الانحياز: يُستحسن إجراء مراقبة مستمرة (باستخدام مقاييس التقييم، والمراجعة التي يجريها فريق المراجعين) واستكشاف نزع التحيز والتقنيات المختلفة أثناء تدريب النموذج والضبط الدقيق وحالات الاستخدام الأخرى.
  • إنشاء محتوى ضار: الآليات والإرشادات المتعلّقة بالمحتوى السلامة أمر ضروري. ننصح المطوّرين بتوخي الحذر تنفيذ إجراءات وقاية أمان المحتوى المناسبة استنادًا إلى سياسات المنتجات وحالات استخدام التطبيق.
  • إساءة الاستخدام لأغراض ضارّة: القيود الفنية ومطوّر البرامج يمكن أن يساعد تعريف المستخدمين النهائيين في الحدّ من احتمالات التطبيقات الضارة للنماذج اللغوية الكبيرة. الموارد التعليمية وآليات الإبلاغ التي تتيح للمستخدمين الإبلاغ عن حالات إساءة الاستخدام يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. استخدامات Gemma المحظورة ضمن "سياسة الاستخدام المحظور لـ Gemma"
  • انتهاكات الخصوصية: تم تدريب النماذج على البيانات التي تمت فلترتها لإزالتها بعض المعلومات الشخصية والبيانات الحساسة. نشجّع المطوّرين الالتزام بلوائح الخصوصية بأساليب الحفاظ على الخصوصية.

القيود

  • لا تزال معظم القيود المكتسَبة من نموذج Gemma الأساسي سارية:
    • تكون أشرطة الفيديو الافتراضية أفضل في المهام التي يمكن تأطيرها بمطالبات واضحة على التعليمات قد تكون المهام المفتوحة أو المعقدة للغاية صعبة.
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه خوارزميات VLM صعوبة في استيعاب الفروق الدقيقة أو السخرية أو اللغة المجازية.
    • ينتج عن خوارزميات VLM ردودًا استنادًا إلى المعلومات التي تعلموها من التطبيق، لكنها ليست قواعد معرفية. قد ينشئون عبارات واقعية غير صحيحة أو قديمة
    • تعتمد نماذج VLM على أنماط إحصائية في اللغة والصور. ربما يفتقر إلى القدرة على تطبيق الاستدلال المنطقي في مواقف معينة.
  • تم تصميم PaliGemma في المقام الأول ليكون بمثابة تدريب عام ضبط النموذج المناسب للمهام المتخصصة. وبالتالي، يمكن القول "إنها منتج جديد" أو "صفر طلقة" قد يتأخر الأداء عن النماذج المصممة خصيصًا ذلك.
  • PaliGemma ليس برنامج دردشة مبرمجة متعدد الأدوار. فهي مصممة لجولة واحدة من إدخال الصور والنص.