يمكنك زيارة مستودع Gemma Cookbook للحصول على أمثلة للإنشاء وضبطه! مزيد من المعلومات

تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

بطاقة طراز PaliGemma 2

صفحة الطراز: PaliGemma

المراجع والمستندات الفنية:

بنود الاستخدام: البنود

المؤلفون: Google

معلومات الطراز

ملخّص النموذج

‫PaliGemma 2 هو تحديث لنموذج PaliGemma لمعالجة اللغة المرئية (VLM) الذي يجمع بين إمكانات نماذج Gemma 2. مجموعة نماذج PaliGemma مستوحاة من PaLI-3 وتستند إلى مكوّنات مفتوحة مثل SigLIP ونماذج اللغة Gemma 2. يأخذ التطبيق كلاً من الصورة والنص كمدخلات وينشئ نصًا كناتج، مع إتاحة استخدام لغات متعددة. تم تصميمه لتحقيق أداء متميز في التحسين على مستوى مجموعة واسعة من مهام الرؤية واللّغة، مثل ترجمة الصور والفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأجسام وتقسيمها.

بنية النموذج

‫PaliGemma 2 هو تركيبة من مفكِّر ترميز Transformer و مشفِّر صور Vision Transformer. يتمّ إعداد وحدة فك ترميز النصوص من Gemma 2 في أحجام المَعلمات 2 بايت و9 بايت و27 بايت. يتمّ إعداد برنامج ترميز الصور من SigLIP-So400m/14. على غرار نموذج PaliGemma الأصلي، يتم تدريب PaliGemma 2 وفقًا لوصفات PaLI-3.

المدخلات والمخرجات

الإدخال: سلسلة من الصور والنصوص، مثل طلب لإضافة شرح للصورة أو سؤال
النتيجة: النص الذي تم إنشاؤه استجابةً للمدخلات، مثل شرح توضيحي للصورة أو إجابة عن سؤال أو قائمة بإحداثيات المربّع المحدود للجسم أو كلمات ترميز التقسيم

معلومات الكتاب

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

بيانات الطراز

مجموعات البيانات المخصّصة للتدريب المُسبَق

تم تدريب PaliGemma 2 مسبقًا على مجموعة مختلطة من مجموعات البيانات التالية:

WebLI: WebLI (Web Language Image) هو مجموعة بيانات متعددة اللغات من الصور والنصوص على مستوى الويب تم إنشاؤها من الويب العلني. يتم استخدام مجموعة واسعة من تقسيمات WebLI للحصول على إمكانات متنوعة للنموذج، مثل الفهم الدلالي المرئي وتحديد موقع الأجسام وفهم النص في سياقه البصري وتعدد اللغات.
‫CC3M-35L: أزواج من الصور والنصوص البديلة باللغة الإنجليزية تم اختيارها من صفحات الويب (Sharma et al., 2018). لقد استخدمنا Google Cloud Translation API لترجمة المحتوى إلى 34 لغة إضافية.
‫VQ²A-CC3M-35L/VQG-CC3M-35L: مجموعة فرعية من VQ2A-CC3M (Changpinyo et al., 2022a)، مترجمة إلى 34 لغة إضافية مثل CC3M-35L، باستخدام Google Cloud Translation API.
OpenImages: أسئلة وإجابات تتعلّق برصد الأشياء والتعرّف عليها (Piergiovanni et al. 2022) تم إنشاؤها باستخدام قواعد مُعدّة يدويًا في مجموعة بيانات OpenImages.
WIT: الصور والنصوص التي تم جمعها من Wikipedia (Srinivasan et al., 2021).

يستند PaliGemma 2 إلى Gemma 2، ويمكنك العثور على معلومات عن مجموعات بيانات التدريب المُسبَق لـ Gemma 2 في بطاقة نموذج Gemma 2.

فلترة مسؤولية الحفاظ على البيانات

يتم تطبيق الفلاتر التالية على WebLI بهدف تدريب PaliGemma 2 على البيانات الآمنة والمسؤولة:

فلترة الصور الإباحية: يزيل هذا الفلتر الصور التي يُعتبَر أنّها ذات طبيعة إباحية.
تصفية أمان النصوص: نحدّد الصور التي تتضمّن نصًا غير آمن ونزيلها. النص غير الآمن هو أي نص يُعتبَر أنّه يتضمّن أو يتناول صور اعتداء جنسي على الأطفال أو مواد إباحية أو لغة نابية أو هو مسيء بأي شكل آخر.
فلترة اللغة المسيئة: نستخدم أيضًا واجهة برمجة تطبيقات Perspective لتحديد الصور التي يتم إقرانها بنصوص يُعتبَر أنّها مسيئة أو بذيئة أو بغيضة أو مسيئة بأي شكل آخر، وفلترتها.
فلترة المعلومات الشخصية النصية: لقد عالجنا معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة باستخدام واجهة برمجة التطبيقات Cloud Data Loss Prevention (DLP) API بهدف حماية خصوصية الأفراد. تمّت إزالة المعرّفات، مثل أرقام التأمين الاجتماعي و أنواع المعلومات الحسّاسة الأخرى.
طرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا وممارساتنا

معلومات التنفيذ

أجهزة

تم تدريب PaliGemma 2 باستخدام أحدث جيل من أجهزة وحدة معالجة الموتّرات (TPU)‏ (TPUv5e).

البرامج

تم إكمال التدريب باستخدام JAX، Flax، TFDS و big_vision.

تسمح حزمة JAX للباحثين بالاستفادة من أحدث جيل من الأجهزة، بما في ذلك وحدات معالجة النطاق الفائق (TPU)، لتدريب النماذج الكبيرة بشكل أسرع وأكثر فعالية.

يتم استخدام TFDS للوصول إلى مجموعات البيانات ويتم استخدام Flax لبنية النموذج. تم إصدار رمز تحسين PaliGemma 2 ورمز الاستنتاج في big_vision مستودع GitHub.

معلومات التقييم

نتائج قياس الأداء

للتحقّق من إمكانية نقل PaliGemma 2 إلى مجموعة كبيرة من المهام الأكاديمية، نُجري تحسينًا على النماذج المدربة مسبقًا لكل مهمة. بالإضافة إلى ذلك، نُدرّب النموذج المختلط على مجموعة متنوعة من مهام النقل. نعرض النتائج بدرجات دقة مختلفة لتقديم فكرة عن المهام التي تستفيد من زيادة درجة الدقة. من المهم الإشارة إلى أنّ أيًا من هذه المهام أو مجموعات البيانات ليس جزءًا من مجموعة بيانات التدريب المُسبَق، ويتم إزالة صورها صراحةً من بيانات التدريب المُسبَق على مستوى الويب.

نتائج PaliGemma 2 حسب درجة دقة الطراز وحجمه

مقياس الأداء	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	83.2	76.0	84.4	84.6
AOKVQA-DA (val)	64.2	68.9	70.2	67.9	70.8	71.2
AOKVQA-MC (val)	79.7	83.7	84.7	82.5	85.9	87.0
ActivityNet-CAP	34.2	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (avg34)	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L (الإنجليزية)	138.4	140.8	142.4	140.4	142.4	142.3
COCOcap	141.3	143.7	144.0	143.4	145.0	145.2
ChartQA (متوسط)	74.4	74.2	68.9	89.2	90.1	85.1
ChartQA (بشري)	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	86.4	82.0	85.3	87.4
‫DocVQA (val)	39.9	43.9	44.9	73.6	76.6	76.1
GQA	66.2	67.2	67.3	68.1	68.3	68.3
InfoVQA (val)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL (avg5)	83.5	89.5	90.6	82.7	89.1	89.7
MSRVTT-CAP	68.5	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
OKVQA	64.2	68.0	71.2	64.1	68.6	70.6
RSVQA-hr (اختبار)	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr (test2)	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (testA)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (testB)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO (val)	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (testA)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (testB)	64.2	68.4	67.1	67.0	71.1	68.6
RefCOCO+ (val)	68.6	72.0	70.3	72.1	74.4	72.8
RefCOCOg (اختبار)	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (val)	68.3	71.4	70.5	72.3	74.4	73.0
‫ST-VQA (val)	61.9	64.3	65.1	80.5	82.0	81.8
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA (معقد)	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA (بسيط)	81.8	83.2	83.4	85.3	86.2	85.7
TextCaps	127.5	137.9	139.9	152.1	157.7	153.6
‫TextVQA (val)	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	82.7	-	-	-	-
‫VQAv2 (minival)	83	84.3	84.5	84.8	85.8	85.8
‫VizWizVQA (val)	76.4	78.1	78.7	77.5	78.6	78.9
WidgetCap	138.1	139.8	138.8	151.4	151.9	148.9
XM3600 (avg35)	42.8	44.5	45.2	43.2	44.6	45.2
XM3600 (en)	79.8	80.7	81.0	80.3	81.5	81.0
xGQA (متوسط القيمة من 7 تقييمات)	58.6	61.4	61.1	60.4	62.6	62.1

مقاييس الأداء الإضافية

ICDAR 2015 Incidental

الطراز	الدقة	التذكُّر	F1
PaliGemma 2 3B	81.88	70.73	75.9

Total-Text

الطراز	الدقة	التذكُّر	F1
PaliGemma 2 3B	73.8.	74.54	74.17

FinTabNet

الطراز	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

PubTabNet

الطراز	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

GrandStaff

الطراز	CER	LER	SER
PaliGemma 2 3B	1.6	6.7	2.3

PubChem

PaliGemma 2 3B، المطابقة الكاملة: 94.8

DOCCI

الطراز	avg#char	avg#sent	نسبة NES
PaliGemma 2 3B	529	7.74	28.42
PaliGemma 2 10B	521	7.45	20.27

‫avg#char: متوسط عدد الأحرف
‫avg#sent: متوسط عدد الجُمل
NES: جمل لا تتضمن معنى ضمنيًا

MIMIC-CXR

الطراز	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	‫28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

التفكير المكاني المرئي

الطراز	VSR zeroshot split (test)	تقسيم VSR عشوائي (اختبار)
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

الأخلاق والسلامة

منهج التقييم

تشمل طرق التقييم لدينا تقييمات أخلاقية وأمان منظَّمة على مستوى سياسات المحتوى ذات الصلة، بما في ذلك:

تقييم بشري للطلبات التي تتناول سلامة الأطفال وسلامة المحتوى والأضرار الناتجة عن المحتوى اطّلِع على بطاقة نموذج Gemma للحصول على مزيد من التفاصيل حول نهج التقييم، ولكن مع إعدادات ترجمة الصور وطرح أسئلة مرئية.
تقييم قياس الأداء لميزة "تحويل الصور إلى نص": قياس الأداء مقارنةً بمجموعات بيانات أكاديمية ذات صلة، مثل مجموعة بيانات FairFace Dataset (Karkkainen et al., 2021).

نتائج التقييم

تقع نتائج التقييم البشري لتقييمات الأخلاق والسلامة ضمن الحدود القصوى المقبولة لاستيفاء السياسات الداخلية لفئات مثل سلامة الأطفال وسلامة المحتوى والأضرار المرسَلة.
بالإضافة إلى التقييمات الداخلية القوية، نستخدم أيضًا واجهة برمجة التطبيقات Perspective API (الحدّ الأدنى 0.8) لقياس اللغة غير اللائقة واللغة النابية وغيرها من الصعوبات المحتملة في مقاطع الترجمة والشرح التي تم إنشاؤها للصور المستمَدة من مجموعة بيانات FairFace. نُبلغ عن الحد الأقصى ومتوسط القيم التي تم رصدها في المجموعات الفرعية لكل من سمات الجنس والمنشأ العرقي والعمر المتأثّرة.

المقياس	الجنس المتوقّع			الانتماء العرقي			الفئة العمرية
حجم النموذج	‫3 مليارات	10 مليار	28 مليار	‫3 مليارات	10 مليار	28 مليار	‫3 مليارات	10 مليار	28 مليار
	الحد الأقصى
اللغة غير اللائقة	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
هجوم على الهوية	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
إهانة	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
مواضيع تتضمن تهديدات	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
اللغة النابية	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	Median
اللغة غير اللائقة	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0.12%	0.08%	0.12%
هجوم على الهوية	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
إهانة	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
مواضيع تتضمن تهديدات	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0,40%
اللغة النابية	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

الاستخدام والقيود

الغرض من الاستخدام

تُستخدم النماذج اللغوية لنظام الرؤية المفتوح (VLM) في مجموعة واسعة من التطبيقات في مختلف التخصصات والمجالات. إنّ القائمة التالية للاستخدامات المحتملة ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتمَلة التي أخذها صنّاع النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور في Gemma.

تحسين مهمة معيّنة تعتمد على الرؤية والنص:

يمكن تحسين النماذج المدربة مسبقًا على مجموعة واسعة من المهام المتعلّقة بالرؤية والّلغة، مثل: ترجمة الصور وترجمة الفيديوهات القصيرة والإجابة عن الأسئلة المرئية وقراءة النصوص ورصد الأشياء وتقسيمها.
يمكن تحسين النماذج المدربة مسبقًا لنطاقات معيّنة، مثل الإجابة عن أسئلة متعلقة بالاستشعار عن بُعد، والأسئلة المرئية من الأشخاص المكفوفين، والردّ على أسئلة علمية، ووصف وظائف عناصر واجهة المستخدم.
يمكن تحسين النماذج المدربة مسبقًا للمهام التي تتضمن نتائج غير نصية، مثل المربّعات الحدودية أو أقنعة التقسيم.

أبحاث اللغة المرئية:

يمكن أن تُشكّل النماذج المدربة مسبقًا والنماذج المحسّنة أساسًا لمحاولة الباحثين اختبار تقنيات النماذج اللغوية الكبيرة وتطوير الخوارزميات والمساهمة في تطوير هذا المجال.

الاعتبارات الأخلاقية والمخاطر

يثير تطوير نماذج الرؤية والترجمة (VLM) عدة قضايا تتعلّق بالجانب الأخلاقي. عند إنشاء نموذج مفتوح، أخذنا في الاعتبار ما يلي بعناية:

الانحياز والعدالة
- يمكن أن تعكس نماذج اللغة المرئية (VLM) التي تم تدريبها على بيانات نصية مصوّرة على نطاق واسع في العالم الواقعي الانحيازات الاجتماعية والثقافية المضمّنة في المادة التدريبية. خضعَت هذه النماذج لفحص دقيق ومعالجة مسبقة للبيانات المُدخلة كما هو موضّح في التقييمات اللاحقة المُدرَجة في هذه البطاقة.
المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام النماذج اللغوية الافتراضية لإنشاء نص كاذب أو مضلِّل أو ضار.
- يتم توفير إرشادات للاستخدام المسؤول مع النموذج، اطّلِع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول.
الشفافية والمساءلة
- تلخِّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وإمكاناتها والقيود المفروضة عليها وعمليات التقييم.
- يقدّم النموذج المفتوح الذي تم تطويره بمسؤولية فرصة لمشاركة الابتكار من خلال إتاحة تكنولوجيا VLM للمطوّرين و الباحثين في المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها والتدابير التي تم اتّخاذها للحدّ منها:

استمرار الانحيازات: ننصح بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النماذج وضبطها وحالات الاستخدام الأخرى.
إنشاء محتوى ضار: يجب توفير آليات وإرشادات للحفاظ على أمان المحتوى. ننصح المطوّرين بتوخي الحذر وتطبيق إجراءات الوقاية المناسبة لسلامة المحتوى استنادًا إلى سياسات المنتجات وحالات استخدام التطبيقات المحدّدة.
إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وبرامج التعليم المخصّصة للمطوّرين والمستخدمين النهائيين في الحدّ من التطبيقات الضارة للغة الآلية الضخمة. ونوفّر أيضًا موارد تعليمية وآليات الإبلاغ تتيح للمستخدمين الإبلاغ عن إساءة الاستخدام: يُرجى الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول. يمكنك الاطّلاع على الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور في Gemma.
انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وبيانات حسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات الحفاظ على الخصوصية.

القيود

لا تزال معظم القيود المُكتسَبة من نماذج Gemma 2 الأساسية سارية:
- تُحقّق نماذج VLM أداءً أفضل في المهام التي يمكن صياغة طلبات وتعليمات واضحة لها. قد تكون المهام المفتوحة أو المهام المعقدة للغاية صعبة.
- اللغة الطبيعية معقّدة بطبيعتها. قد يواجه نموذج المعالجة اللغوية الآلية صعوبة في فهم الاختلافات الدقيقة أو السخرية أو اللغة المجازية.
- تُنشئ النماذج اللغوية الضخمة (VLM) الردود استنادًا إلى المعلومات التي اكتسبتها من مجموعات البيانات التدريبية، ولكنها ليست قواعد معرفة. وقد تنشئ بيانات وقائعية غير صحيحة أو قديمة.
- تعتمد نماذج الترجمة الآلية بالاستناد إلى المحتوى المرئِي على الأنماط الإحصائية في اللغة والصور. قد لا يملك الطفل القدرة على تطبيق المنطق السليم في مواقف معيّنة.
تم تصميم PaliGemma 2 في المقام الأول ليكون نموذجًا عامًا مدرَّبًا مسبقًا للضبط الدقيق على المهام المتخصّصة. وبالتالي، قد يكون أداؤها "خارج الصندوق" أو "بدون تدريب مسبق" أقل من النماذج المصمّمة خصيصًا للاستخدام العام.
لا يُعدّ PaliGemma 2 روبوت دردشة متعدّد الخطوات. وهو مصمّم لإجراء جولة واحدة من إدخال الصور والنصوص.