بطاقة نموذج Gemma 4

Gemma 4 Banner

Hugging Face | GitHub | مدونة الإطلاق | المستندات
الترخيص: Apache 2.0 | المؤلفون: Google DeepMind

‫Gemma هي مجموعة من النماذج المفتوحة المصدر من إنشاء Google DeepMind. نماذج Gemma 4 هي نماذج متعدّدة الوسائط، إذ يمكنها التعامل مع النصوص والصور (مع إتاحة المحتوى الصوتي على نماذج E2B وE4B و12B) وإنشاء مخرجات نصية. يتضمّن هذا الإصدار نماذج بأوزان مفتوحة في كل من الإصدارات المدربة مسبقًا والإصدارات المعدّلة لتناسب التعليمات. تتميّز Gemma 4 بقدرة استيعاب تصل إلى 256 ألف رمز مميّز، وتتيح استخدام أكثر من 140 لغة.

يتميّز Gemma 4 ببنيتَي Dense وMixture-of-Experts (MoE)، ما يجعله مناسبًا تمامًا لمهام مثل إنشاء النصوص والترميز والاستدلال. تتوفّر الطُرز بخمسة أحجام مختلفة: E2B وE4B و12B و26B A4B و31B. وتتيح أحجامها المتنوعة إمكانية نشرها في بيئات تتراوح بين الهواتف المتطورة وأجهزة الكمبيوتر المحمولة والخوادم، ما يتيح للجميع الاستفادة من أحدث تقنيات الذكاء الاصطناعي.

تقدّم Gemma 4 تحسينات رئيسية على مستوى الإمكانات والبنية:

  • الاستدلال: تم تصميم جميع النماذج في المجموعة لتكون قادرة على الاستدلال بشكل كبير، مع توفّر أوضاع تفكير قابلة للضبط.

  • تعدُّد الوسائط الموسّع: يعالج النصوص والصور بنِسب عرض إلى ارتفاع ودقة متغيرة (جميع النماذج) والفيديوهات والمقاطع الصوتية (مضمّنة في النماذج E2B وE4B و12B).

  • تصاميم متنوعة وفعّالة: تقدّم هذه التصاميم صيغًا كثيفة وصيغًا مختلطة من الخبراء (MoE) بأحجام مختلفة لتوفير إمكانية نشر قابلة للتوسّع.

  • محسَّن للعمل على الأجهزة: تم تصميم النماذج الأصغر حجمًا خصيصًا لتنفيذ المهام بكفاءة على أجهزة الكمبيوتر المحمولة والأجهزة الجوّالة.

  • زيادة قدرة الاستيعاب: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تتيح النماذج المتوسطة 256 ألف رمز مميّز.

  • الترميز المحسّن والقدرات الوكيلة: يحقّق تحسينات ملحوظة في مقاييس الترميز إلى جانب إتاحة وظيفة استدعاء الدوال البرمجية الأصلية، ما يتيح إنشاء وكلاء مستقلين يتمتّعون بقدرات عالية.

  • إتاحة استخدام طلبات النظام الأصلية: يتيح الإصدار 4 من Gemma استخدام الدور system الأصلي، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.

نظرة عامة على النماذج

تم تصميم نماذج Gemma 4 لتقديم أداء متطوّر في كل حجم، واستهداف سيناريوهات النشر من الأجهزة الجوّالة وأجهزة الحافة (E2B وE4B) إلى وحدات معالجة الرسومات وأجهزة الكمبيوتر المكتبي للمستهلكين (12B و26B A4B و31B). وهي مناسبة تمامًا للاستدلال ومهام سير العمل المستندة إلى الذكاء الاصطناعي الوكيل والترميز وفهم المحتوى المتعدد الوسائط.

تستخدم النماذج آلية انتباه مختلطة تجمع بين الانتباه إلى النافذة المنزلقة المحلية والانتباه الكامل على مستوى العالم، ما يضمن أن تكون الطبقة النهائية عالمية دائمًا. يوفّر هذا التصميم المختلط سرعة المعالجة وحجم الذاكرة المنخفضة التي يتطلّبها النموذج الخفيف الوزن، بدون التضحية بالوعي العميق المطلوب للمهام المعقّدة التي تتضمّن سياقًا طويلاً. لتحسين استخدام الذاكرة في السياقات الطويلة، تتضمّن الطبقات العامة مفاتيح وقيم موحّدة، ويتم تطبيق Proportional RoPE (p-RoPE).

النماذج الكثيفة

الموقع E2B E4B ‫12B Unified ‫31B Dense
إجمالي المَعلمات ‫2.3 مليار مَعلمة فعّالة (5.1 مليار مَعلمة مع التضمينات) ‫4.5 مليار رمز مميز فعّال (8 مليارات رمز مميز مع التضمينات) 11.95B ‫30.7 مليار
الطبقات 35 42 48 60
النافذة المنزلقة ‫512 رمزًا مميزًا ‫512 رمزًا مميزًا ‫1024 رمزًا مميزًا ‫1024 رمزًا مميزًا
طول السياق ‫128 ألف رمز مميّز ‫128 ألف رمز مميّز ‫256 ألف رمز مميّز ‫256 ألف رمز مميّز
حجم المفردات ‫262 ألف ‫262 ألف ‫262 ألف ‫262 ألف
طُرق التواصل المتاحة النص والصورة والصوت النص والصورة والصوت النص والصورة والصوت نص وصورة
مَعلمات أداة ترميز الصور حوالي 150 مليون حوالي 150 مليون - حوالي 550 مليون
معلَمات برنامج ترميز الصوت حوالي 300 مليون حوالي 300 مليون - لا يتوفّر صوت

يشير الحرف "E" في E2B وE4B إلى المعلّمات "الفعّالة". تتضمّن النماذج الأصغر حجمًا ميزة "التضمينات على مستوى كل طبقة" (PLE) لتحقيق أقصى قدر من كفاءة المَعلمات في عمليات النشر على الأجهزة. بدلاً من إضافة المزيد من الطبقات أو المَعلمات إلى النموذج، تمنح PLE كل طبقة من طبقات فك الترميز تضمينًا صغيرًا خاصًا بها لكل رمز مميز. تكون جداول التضمين هذه كبيرة، ولكن يتم استخدامها فقط لعمليات البحث السريع، ولهذا السبب يكون عدد المَعلمات الفعّالة أقل بكثير من الإجمالي.

يشير مصطلح "موحّد" في Gemma 4 12B Unified إلى البنية غير المستندة إلى أداة الترميز. تستخدم نماذج Gemma 4 الأخرى برامج ترميز مخصّصة لمعالجة البيانات المتعدّدة الوسائط قبل تمريرها إلى النموذج اللغوي الكبير. تتخلص Gemma 4 12B من برامج الترميز هذه بالكامل، وتعرض رقع الصور الأولية وأشكال الموجات الصوتية مباشرةً في مساحة التضمين الخاصة بالنموذج اللغوي الكبير من خلال طبقات خطية خفيفة الوزن. يعني هذا النهج الموحّد أنّ جميع الوسائط تتدفق مباشرةً إلى محوّل واحد مخصّص لفك الترميز فقط، ما يقلّل من وقت الاستجابة المتعدد الوسائط ويسمح بضبط النموذج بأكمله بدقة في عملية واحدة.

نموذج "مزيج الخبراء" (MoE)

الموقع ‫26B A4B MoE
إجمالي المَعلمات ‫25.2 مليار
المعلَمات النشطة ‫3.8 مليار
الطبقات 30
النافذة المنزلقة ‫1024 رمزًا مميزًا
طول السياق ‫256 ألف رمز مميّز
حجم المفردات ‫262 ألف
عدد الخبراء ‫8 نشطة / 128 إجمالية و1 تمت مشاركتها
طُرق التواصل المتاحة نص وصورة
مَعلمات أداة ترميز الصور حوالي 550 مليون

يشير الحرف "A" في 26B A4B إلى "المَعلمات النشطة"، وذلك على عكس إجمالي عدد المَعلمات التي يتضمّنها النموذج. من خلال تفعيل مجموعة فرعية من 4 مليارات معلَمة فقط أثناء الاستدلال، يعمل نموذج Mixture-of-Experts بشكل أسرع بكثير مما قد يشير إليه إجمالي عدد معلَماته البالغ 26 مليارًا. وهذا يجعلها خيارًا ممتازًا للاستدلال السريع مقارنةً بنموذج 31B الكثيف، لأنّها تعمل بسرعة تقارب سرعة نموذج 4B.

نتائج قياس الأداء

تم تقييم هذه النماذج استنادًا إلى مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص. نتائج التقييم الموضّحة في الجدول هي للنماذج التي تم ضبطها وفقًا للتعليمات.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 12B Unified Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (no think)
MMLU Pro ‫85.2% ‫82.6% ‫77.2% ‫69.4% ‫60.0% 67.6%
AIME 2026 no tools ‫89.2% ‫88.3% ‫77.5% 42.5% 37.5% ‫20.8%
LiveCodeBench v6 ‫80.0% 77.1% 72.0% ‫52.0% 44.0% ‫29.1%
Codeforces ELO 2150 1718 1659 940 633 110
GPQA Diamond ‫84.3% ‫82.3% ‫78.8% ‫58.6% ‫43.4% 42.4%
Tau2 (المتوسط على مدى 3 أيام) ‫76.9% ‫68.2% ‫69.0% ‫42.2% 24.5% ‫16.2%
HLE no tools ‫19.5% ‫8.7% ‫5.2% - - -
HLE مع البحث 26.5% 17.2% - - - -
BigBench Extra Hard ‫74.4% ‫64.8% ‫53.0% ‫33.1% ‫21.9% 19.3%
MMMLU ‫88.4% ‫86.3% ‫83.4% ‫76.6% ‫67.4% ‫70.7%
النظر
MMMU Pro ‫76.9% ‫73.8% 69.1% ‫52.6% ‫44.2% 49.7%
‫OmniDocBench 1.5 (متوسط مسافة التعديل، وكلما كانت القيمة أقل كان ذلك أفضل) 0.131 0.149 0.164 0.181 0.290 0.365
MATH-Vision ‫85.6% 82.4% ‫79.7% 59.5% 52.4% ‫46.0%
MedXPertQA MM 61.3% ‫58.1% ‫48.7% ‫28.7% ‫23.5% -
الصوت
CoVoST - - 38.5* 35.54 33.47 -
‫FLEURS (كلما انخفضت النتيجة، تحسّن الأداء) - - 0.069* 0.08 0.09 -
سياق طويل
MRCR v2 8 needle 128k (average) ‫66.4% ‫44.1% ‫43.4% 25.4% ‫19.1% ‫13.5%

*باستثناء اللغة الصينية

الإمكانات الأساسية

تتعامل نماذج Gemma 4 مع مجموعة واسعة من المهام المتعلقة بالنصوص والصور والمقاطع الصوتية. تشمل الإمكانات الرئيسية ما يلي:

  • وضع المفكِّر: وضع استدلال منطقي مدمج يتيح للنموذج التفكير خطوة بخطوة قبل تقديم الإجابة.
  • قدرة استيعاب موسَّعة: قدرة استيعاب تصل إلى 128 ألف رمز مميز (E2B/E4B) و256 ألف رمز مميز (12B/26B A4B/31B).
  • فهم الصور: رصد العناصر، وتحليل المستندات/ملفات PDF، وفهم الشاشة وواجهة المستخدم، وفهم الرسوم البيانية، والتعرّف البصري على الأحرف (بما في ذلك اللغات المتعددة)، والتعرّف على الكتابة اليدوية، والإشارة يمكن معالجة الصور بنِسب عرض إلى ارتفاع ودقة متغيرة.
  • فهم الفيديو: تحليل الفيديو من خلال معالجة تسلسلات اللقطات
  • المدخلات المتداخلة المتعددة الوسائط: يمكنك دمج النصوص والصور بحرية بأي ترتيب ضمن طلب واحد.
  • استدعاء الدوال: توفير دعم أصلي لاستخدام الأدوات المنظَّمة، ما يتيح مهام سير العمل المستندة إلى الوكلاء
  • الترميز: إنشاء الرموز البرمجية وإكمالها وتصحيحها
  • متعدد اللغات: يتوافق مع أكثر من 35 لغة، وتم تدريبه مسبقًا على أكثر من 140 لغة.
  • الصوت (الإصدارات E2B وE4B و12B Unified فقط): التعرّف التلقائي على الكلام (ASR) والترجمة من الكلام إلى النص المترجَم بلغات متعددة

أفضل الممارسات

للحصول على أفضل أداء، استخدِم الإعدادات وأفضل الممارسات التالية:

1. مَعلَمات اختيار العيّنات

استخدِم إعدادات أخذ العيّنات الموحّدة التالية في جميع حالات الاستخدام:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. إعدادات "وضع التفكير"

مقارنةً بـ Gemma 3، تستخدم النماذج أدوار system وassistant وuser العادية. لإدارة عملية التفكير بشكل سليم، استخدِم رموز التحكّم التالية:

  • التفكير المشغِّل: يتم تفعيل التفكير من خلال تضمين الرمز المميز <|think|> في بداية طلب النظام. لإيقاف التفكير، أزِل الرمز المميّز.
  • الإنشاء العادي: عندما تكون ميزة "التفكير" مفعّلة، سيعرض النموذج الاستدلال الداخلي الخاص به متبوعًا بالإجابة النهائية باستخدام البنية التالية: <|channel>thought\n[الاستدلال الداخلي]<channel|>
  • سلوك التفكير غير المفعّل: بالنسبة إلى جميع النماذج باستثناء متغيرَي E2B وE4B، إذا تم إيقاف ميزة التفكير، سيظل النموذج ينشئ العلامات ولكن مع حقل تفكير فارغ: <|channel>thought\n<channel|>[الجواب النهائي]

يُرجى العِلم أنّ العديد من المكتبات، مثل Transformers وllama.cpp، تتولّى معالجة تعقيدات نموذج المحادثة نيابةً عنك.

3- المحادثات المتعدّدة الجولات

  • عدم تضمين محتوى التفكير في السجلّ: في المحادثات المتعددة الأدوار، يجب أن يتضمّن الناتج التاريخي للنموذج الردّ النهائي فقط. يجب عدم إضافة الأفكار من النموذج السابق قبل بدء دور المستخدم التالي.

4. ترتيب الأنماط

للحصول على الأداء الأمثل عند استخدام المدخلات المتعددة الوسائط، ضَع:

  • محتوى الصورة قبل النص في طلبك
  • المحتوى الصوتي بعد النص في طلبك

5- دقة الصورة المتغيرة

بالإضافة إلى نسب العرض إلى الارتفاع المتغيرة، يتيح الإصدار 4 من Gemma دقة صورة متغيرة من خلال ميزانية رموز مرئية قابلة للضبط، ما يتحكّم في عدد الرموز المستخدَمة لتمثيل صورة. يؤدي توفير ميزانية أكبر للرموز المميزة إلى الحفاظ على المزيد من التفاصيل المرئية، ولكن على حساب زيادة في عمليات الحوسبة، بينما تتيح الميزانية الأصغر استنتاجًا أسرع للمهام التي لا تتطلب فهمًا دقيقًا.

  • ميزانيات الرموز المميزة المتاحة هي: 70 و140 و280 و560 و1120.
    • استخدِم ميزانيات أقل للتصنيف أو إضافة الترجمة والشرح أو فهم الفيديو، حيث يكون الاستنتاج الأسرع ومعالجة العديد من اللقطات أكثر أهمية من التفاصيل الدقيقة.
    • استخدِم ميزانيات أعلى لمهام مثل التعرّف البصري على الأحرف أو تحليل المستندات أو قراءة النصوص الصغيرة.

6. الصوت

استخدِم بُنى الطلبات التالية لمعالجة الصوت:

  • التعرّف على الكلام الصوتي (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • الترجمة التلقائية للكلام (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. مدة الصوت والفيديو

تتيح جميع النماذج إدخال الصور ويمكنها معالجة الفيديوهات كإطارات، بينما تتيح النماذج E2B وE4B و12B أيضًا إدخال المقاطع الصوتية. يمكن أن تبلغ مدة الصوت 30 ثانية كحدّ أقصى. يمكن أن تبلغ مدة الفيديو 60 ثانية كحد أقصى، على افتراض أنّه تتم معالجة الصور بمعدل لقطة واحدة في الثانية.

بيانات النموذج

البيانات المستخدَمة لتدريب النماذج وطريقة معالجتها

مجموعة بيانات التدريب

مجموعة بيانات التدريب المُسبَق هي مجموعة كبيرة ومتنوعة من البيانات تشمل مجموعة واسعة من المجالات وأنواع البيانات، بما في ذلك مستندات الويب والرموز البرمجية والصور والمقاطع الصوتية، مع تاريخ نهائي هو يناير 2025. في ما يلي المكوّنات الرئيسية:

  • مستندات الويب: تضمن المجموعة المتنوعة من نصوص الويب تعرّض النموذج لمجموعة واسعة من الأساليب اللغوية والمواضيع والمفردات. تتضمّن مجموعة بيانات التدريب محتوًى بأكثر من 140 لغة.
  • الرموز البرمجية: إنّ تعريض النموذج للرموز البرمجية يساعده في تعلُّم بنية ولغة البرمجة، ما يحسّن قدرته على إنشاء الرموز البرمجية وفهم الأسئلة المتعلقة بها.
  • الرياضيات: يساعد التدريب على النصوص الرياضية النموذج في تعلُّم الاستدلال المنطقي والتمثيل الرمزي والرد على الاستفسارات الرياضية.
  • الصور: تتيح المجموعة الواسعة من الصور للنموذج تنفيذ مهام تحليل الصور واستخراج البيانات المرئية.

إنّ الجمع بين مصادر البيانات المتنوّعة هذه أمر بالغ الأهمية لتدريب نموذج قوي متعدد الوسائط يمكنه التعامل مع مجموعة واسعة من المهام المختلفة وتنسيقات البيانات.

المعالجة المُسبقة للبيانات

في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:

  • فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
  • فلترة البيانات الحسّاسة: في إطار سعينا إلى توفير نماذج Gemma مدرَّبة مسبقًا تتسم بالأمان والموثوقية، استخدمنا تقنيات مبرمَجة لاستبعاد بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
  • طُرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا

الأخلاقيات والأمان

مع ازدياد أهمية النماذج المفتوحة المصدر في البنية الأساسية للمؤسسات، أصبحت المصدر والأمان من أهم الأولويات. تم تطوير Gemma 4 بواسطة Google DeepMind، ويخضع لعمليات التقييم الصارمة نفسها التي تخضع لها نماذج Gemini الخاصة بنا.

منهجية التقييم

تم تطوير نماذج Gemma 4 بالتعاون مع فِرق السلامة الداخلية والذكاء الاصطناعي المسؤول. تم إجراء مجموعة من التقييمات الآلية والتقييمات التي يجريها الفريق للمساعدة في تحسين أمان النموذج. تتوافق عمليات التقييم هذه مع مبادئ الذكاء الاصطناعي في Google وسياسات الأمان التي تهدف إلى منع نماذج الذكاء الاصطناعي التوليدي من إنشاء محتوى ضار، بما في ذلك:

  • المحتوى المتعلّق بمواد الاعتداء الجنسي على الأطفال واستغلالهم
  • المحتوى الخطير (مثل الترويج للانتحار أو تقديم تعليمات حول أنشطة قد تؤدي إلى حدوث أضرار ملموسة)
  • المحتوى الجنسي الفاضح
  • الكلام الذي يحض على الكراهية (مثل تجريد أفراد المجموعات المحمية من الصفات الإنسانية)
  • التحرش (مثلاً، التشجيع على العنف ضد الأشخاص)

نتائج التقييم

في جميع مجالات اختبار الأمان، لاحظنا تحسّنًا كبيرًا في جميع فئات أمان المحتوى مقارنةً بنماذج Gemma السابقة. بشكل عام، تتفوّق نماذج Gemma 4 بشكل كبير على نماذج Gemma 3 و3n في تحسين السلامة، مع الحفاظ على معدّل منخفض من الرفض غير المبرّر. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم إمكانات النموذج وسلوكياته. بالنسبة إلى طلبات وردود نصية وتحويل الصورة إلى نص، وبجميع أحجام النماذج، لم يسجّل النموذج سوى عدد قليل من انتهاكات السياسات، وحقّق تحسّنًا كبيرًا في الأداء مقارنةً بنماذج Gemma السابقة.

الاستخدام والقيود

وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

تتوفّر مجموعة كبيرة من التطبيقات للنماذج المتعددة الوسائط (القادرة على معالجة الصور و/أو اللغة و/أو الصوت) في مختلف المجالات. قائمة الاستخدامات المحتملة التالية ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها مصمّمو النموذج في الاعتبار كجزء من تدريب النموذج وتطويره.

  • صناعة المحتوى والتواصل
    • إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء صيغ نصوص إبداعية، مثل القصائد والنصوص البرمجية والنصوص التسويقية ومسودات الرسائل الإلكترونية.
    • روبوتات الدردشة والذكاء الاصطناعي الحواري: توفير واجهات حوارية لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية
    • تلخيص النصوص: إنشاء ملخّصات موجزة لمجموعة من النصوص أو الأبحاث أو التقارير
    • استخراج البيانات من الصور: يمكن استخدام هذه النماذج لاستخراج البيانات المرئية وتفسيرها وتلخيصها من أجل التواصل النصي.
    • معالجة الصوت والتفاعل معه: يمكن لطُرز E2B وE4B و12B تحليل المدخلات الصوتية وتفسيرها، ما يتيح التفاعلات والتحويلات إلى نص المستندة إلى الصوت.
  • البحث والتعليم
    • أبحاث معالجة اللغات الطبيعية (NLP) والنماذج اللغوية المرئية (VLM): يمكن أن تشكّل هذه النماذج أساسًا للباحثين لتجربة تقنيات النماذج اللغوية المرئية ومعالجة اللغات الطبيعية، وتطوير الخوارزميات، والمساهمة في تطوير هذا المجال.
    • أدوات تعلُّم اللغات: تتيح تجارب تفاعلية لتعلم اللغات، وتساعد في تصحيح القواعد النحوية أو توفير تمارين كتابية.
    • استكشاف المعرفة: تساعد هذه الأداة الباحثين في استكشاف مجموعات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع معيّنة.

القيود

  • بيانات التدريب
    • تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج. قد تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
    • يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
  • السياق ومدى تعقيد المهمة
    • تؤدي النماذج أداءً جيدًا في المهام التي يمكن صياغتها باستخدام طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقّدة للغاية صعبة.
    • يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّم (يؤدي السياق الأطول عمومًا إلى نتائج أفضل، وذلك حتى حدّ معيّن).
  • غموض اللغة ودقتها
    • اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
  • الدقة الواقعية
    • تنشئ النماذج الردود استنادًا إلى المعلومات التي تعلّمتها من مجموعات بيانات التدريب، ولكنّها ليست قواعد معلومات. قد تقدّم هذه النماذج جُملًا غير صحيحة أو قديمة.
  • Common Sense
    • تعتمد النماذج على الأنماط الإحصائية في اللغة. وقد لا تتمكّن من تطبيق المنطق السليم في بعض الحالات.

الاعتبارات والمخاطر الأخلاقية

يثير تطوير نماذج الرؤية واللغة (VLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا بعين الاعتبار ما يلي:

  • الانحياز والعدالة
    • يمكن أن تعكس النماذج المرئية اللغوية المدرَّبة على بيانات نصية وصور واقعية واسعة النطاق انحيازات اجتماعية وثقافية مضمّنة في المواد التدريبية. خضعت نماذج Gemma 4 لتدقيق دقيق ومعالجة مسبقة لبيانات الإدخال وتقييمات بعد التدريب، كما هو موضّح في هذه البطاقة، وذلك للمساعدة في الحدّ من مخاطر هذه الانحيازات.
  • المعلومات الخاطئة وإساءة الاستخدام
  • الشفافية والمساءلة
    • تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وقدراتها وقيودها وعمليات التقييم.
    • يتيح النموذج المفتوح الذي تم تطويره بشكل مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج المرئية الكبيرة للمطوّرين والباحثين في جميع أنحاء المنظومة المتكاملة للذكاء الاصطناعي.

المخاطر التي تم تحديدها وإجراءات التخفيف من حدّتها:

  • إنشاء محتوى ضار: من الضروري توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر واتّخاذ تدابير وقائية مناسبة لحماية المحتوى استنادًا إلى سياسات منتجاتهم وحالات استخدام تطبيقاتهم.
  • إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارة لنماذج اللغات الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام.
  • انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات تحافظ على الخصوصية.
  • إدامة التحيزات: يُنصح بإجراء رصد مستمر (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النموذج وضبطه الدقيق وحالات الاستخدام الأخرى.

المزايا

عند طرح هذه المجموعة من النماذج، كانت توفّر عمليات تنفيذ عالية الأداء لنموذج مفتوح للرؤية واللغة مصمَّم من البداية لتطوير ذكاء اصطناعي مسؤول مقارنةً بالنماذج ذات الأحجام المماثلة.