
Hugging Face |
GitHub |
مدونة الإطلاق |
المستندات
الترخيص: Apache 2.0 | المؤلفون: Google DeepMind
Gemma هي مجموعة من النماذج المفتوحة المصدر من إنشاء Google DeepMind. تتسم نماذج Gemma 4 بتعدد الوسائط، إذ يمكنها معالجة النصوص والصور (مع إمكانية معالجة المحتوى الصوتي في نماذج E2B وE4B و12B) وإنشاء مخرجات نصية. يتضمّن هذا الإصدار نماذج بأوزان مفتوحة في كل من الإصدارات المدربة مسبقًا والإصدارات المعدّلة لتناسب التعليمات. تتميّز Gemma 4 بقدرة استيعاب تصل إلى 256 ألف رمز مميّز، وتتيح استخدام أكثر من 140 لغة.
يتميّز الإصدار 4 من Gemma ببنيتَي Dense وMixture-of-Experts (MoE)، ما يجعله مناسبًا تمامًا لمهام مثل إنشاء النصوص والترميز والاستدلال. تتوفّر الطُرز بخمسة أحجام مختلفة: E2B وE4B و12B و26B A4B و31B. وتتيح أحجامها المتنوعة إمكانية نشرها في بيئات مختلفة، بدءًا من الهواتف المتطورة إلى أجهزة الكمبيوتر المحمولة والخوادم، ما يتيح للجميع الاستفادة من أحدث تقنيات الذكاء الاصطناعي.
تقدّم Gemma 4 تحسينات رئيسية على مستوى الإمكانات والبنية:
الاستدلال: تم تصميم جميع النماذج في المجموعة لتكون قادرة على الاستدلال بشكل كبير، مع توفّر أوضاع تفكير قابلة للضبط.
تعدُّد الوسائط الموسّع: يعالج النصوص والصور بنِسب عرض إلى ارتفاع ودقة متغيرة (جميع النماذج) والفيديوهات والمقاطع الصوتية (مضمّنة في النماذج E2B وE4B و12B).
تصاميم متنوعة وفعّالة: تقدّم هذه التصاميم صيغًا كثيفة وصيغًا مختلطة من الخبراء (MoE) بأحجام مختلفة لتوفير إمكانية نشر قابلة للتوسّع.
محسَّن للعمل على الأجهزة: تم تصميم النماذج الأصغر حجمًا خصيصًا لتنفيذ المهام بكفاءة على أجهزة الكمبيوتر المحمولة والأجهزة الجوّالة.
قدرة استيعاب أكبر: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تتيح النماذج المتوسطة 256 ألف رمز مميّز.
الترميز المحسّن والقدرات الوكيلة: يحقّق تحسينات ملحوظة في مقاييس الترميز إلى جانب إتاحة وظيفة استدعاء الدوال البرمجية الأصلية، ما يتيح إنشاء وكلاء مستقلين يتمتّعون بقدرات عالية.
إتاحة استخدام طلبات النظام الأصلية: يتيح الإصدار 4 من Gemma استخدام الدور
systemالأصلي، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.
نظرة عامة على النماذج
تم تصميم نماذج Gemma 4 لتقديم أداء متطوّر في كل حجم، واستهداف سيناريوهات النشر من الأجهزة الجوّالة وأجهزة الحافة (E2B وE4B) إلى وحدات معالجة الرسومات وأجهزة الكمبيوتر المخصّصة للمستهلكين (12B و26B A4B و31B). وهي مناسبة للاستدلال، وسير العمل المستند إلى الوكلاء، والترميز، والفهم المتعدّد الوسائط.
تستخدم النماذج آلية انتباه مختلطة تجمع بين الانتباه إلى النافذة المنزلقة المحلية والانتباه الكامل على مستوى العالم، ما يضمن أن تكون الطبقة النهائية عالمية دائمًا. يوفّر هذا التصميم المختلط سرعة المعالجة وحجم الذاكرة المنخفض للنموذج الخفيف الوزن بدون التضحية بالوعي العميق المطلوب للمهام المعقدة ذات السياق الطويل. ولتحسين الذاكرة للسياقات الطويلة، تتضمّن الطبقات العالمية مفاتيح وقيم موحّدة، وتطبّق ترميز الموضع الدوّار النسبي (p-RoPE).
النماذج الكثيفة
| الموقع | E2B | E4B | 12B Unified | 31B Dense |
|---|---|---|---|---|
| إجمالي المَعلمات | 2.3 مليار رمز مميز فعال (5.1 مليار رمز مميز مع التضمينات) | 4.5 مليار رمز مميز فعّال (8 مليارات رمز مميز مع التضمينات) | 11.95B | 30.7 مليار |
| الطبقات | 35 | 42 | 48 | 60 |
| النافذة المنزلقة | 512 رمزًا مميزًا | 512 رمزًا مميزًا | 1024 رمزًا مميّزًا | 1024 رمزًا مميّزًا |
| طول السياق | 128 ألف رمز مميّز | 128 ألف رمز مميّز | 256 ألف رمز مميّز | 256 ألف رمز مميّز |
| حجم المفردات | 262 ألف | 262 ألف | 262 ألف | 262 ألف |
| طُرق التواصل المتاحة | النص والصورة والصوت | النص والصورة والصوت | النص والصورة والصوت | نص وصورة |
| مَعلمات أداة ترميز الصور | حوالي 150 مليون | حوالي 150 مليون | - | حوالي 550 مليون |
| معلَمات برنامج ترميز الصوت | حوالي 300 مليون | حوالي 300 مليون | - | لا يتوفّر صوت |
يشير الحرف "E" في E2B وE4B إلى المَعلمات "الفعّالة". تتضمّن النماذج الأصغر حجمًا ميزة "التضمينات على مستوى كل طبقة" (PLE) لتحقيق أقصى قدر من كفاءة المَعلمات في عمليات النشر على الأجهزة. بدلاً من إضافة المزيد من الطبقات أو المَعلمات إلى النموذج، تمنح PLE كل طبقة فك ترميز تضمينًا صغيرًا خاصًا بها لكل رمز مميز. تكون جداول التضمين هذه كبيرة، ولكن يتم استخدامها فقط لعمليات البحث السريع، ولهذا السبب يكون عدد المَعلمات الفعّالة أقل بكثير من الإجمالي.
يشير مصطلح "موحّد" في Gemma 4 12B Unified إلى بنيته غير المستندة إلى أداة الترميز. تستخدم نماذج Gemma 4 الأخرى برامج ترميز مخصّصة لمعالجة البيانات المتعدّدة الوسائط قبل تمريرها إلى النموذج اللغوي الكبير. تتخلص Gemma 4 12B من برامج الترميز هذه بالكامل، وتعرض رقع الصور الأولية وأشكال الموجات الصوتية مباشرةً في مساحة التضمين الخاصة بالنموذج اللغوي الكبير من خلال طبقات خطية خفيفة الوزن. يعني هذا النهج الموحّد أنّ جميع الوسائط تتدفق مباشرةً إلى محوّل واحد مخصّص لفك الترميز فقط، ما يقلّل من وقت الاستجابة المتعدد الوسائط ويسمح بضبط النموذج بأكمله بدقة في عملية واحدة.
نموذج "مزيج الخبراء" (MoE)
| الموقع | 26B A4B MoE |
|---|---|
| إجمالي المَعلمات | 25.2 مليار |
| المعلَمات النشطة | 3.8 مليار |
| الطبقات | 30 |
| النافذة المنزلقة | 1024 رمزًا مميّزًا |
| طول السياق | 256 ألف رمز مميّز |
| حجم المفردات | 262 ألف |
| عدد الخبراء | 8 نشطة / 128 إجمالية و1 تمت مشاركتها |
| طُرق التواصل المتاحة | نص وصورة |
| مَعلمات أداة ترميز الصور | حوالي 550 مليون |
يشير الحرف "A" في 26B A4B إلى "المَعلمات النشطة"، وذلك على عكس العدد الإجمالي للمَعلمات التي يتضمّنها النموذج. ومن خلال تفعيل مجموعة فرعية من المَعلمات بحجم 4 مليار مَعلمة فقط أثناء الاستدلال، يعمل نموذج Mixture-of-Experts بشكل أسرع بكثير مما قد يشير إليه إجمالي عدد المَعلمات البالغ 26 مليار مَعلمة، ما يجعله خيارًا ممتازًا للاستدلال السريع مقارنةً بنموذج 31B الكثيف، لأنّه يعمل بسرعة تقارب سرعة نموذج 4B.
نتائج قياس الأداء
تم تقييم هذه النماذج استنادًا إلى مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص. نتائج التقييم الموضّحة في الجدول هي للنماذج التي تم ضبطها وفقًا للتعليمات.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Unified | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (no think) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 77.2% | 69.4% | 60.0% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 77.5% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 72.0% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 78.8% | 58.6% | 43.4% | 42.4% |
| Tau2 (المتوسط على مدى 3 أيام) | 76.9% | 68.2% | 69.0% | 42.2% | 24.5% | 16.2% |
| HLE no tools | 19.5% | 8.7% | 5.2% | - | - | - |
| HLE مع البحث | 26.5% | 17.2% | - | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 53.0% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 83.4% | 76.6% | 67.4% | 70.7% |
| النظر | ||||||
| MMMU Pro | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (متوسط مسافة التعديل، وكلما كانت القيمة أقل كان ذلك أفضل) | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 79.7% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 48.7% | 28.7% | 23.5% | - |
| الصوت | ||||||
| CoVoST | - | - | 38.5 | 35.54 | 33.47 | - |
| FLEURS (كلما انخفضت النتيجة، تحسّن الأداء) | - | - | 0.069 | 0.08 | 0.09 | - |
| سياق طويل | ||||||
| MRCR v2 8 needle 128k (average) | 66.4% | 44.1% | 43.4% | 25.4% | 19.1% | 13.5% |
الإمكانات الأساسية
تتعامل نماذج Gemma 4 مع مجموعة واسعة من المهام المتعلقة بالنصوص والصور والمقاطع الصوتية. تشمل الإمكانات الرئيسية ما يلي:
- وضع المفكِّر: وضع استدلال منطقي مدمج يتيح للنموذج التفكير خطوة بخطوة قبل تقديم الإجابة.
- قدرة استيعاب موسَّعة: قدرة استيعاب تصل إلى 128 ألف رمز مميز (E2B/E4B) و256 ألف رمز مميز (12B/26B A4B/31B).
- فهم الصور: رصد العناصر، وتحليل المستندات/ملفات PDF، وفهم الشاشة وواجهة المستخدم، وفهم الرسوم البيانية، والتعرّف البصري على الأحرف (بما في ذلك اللغات المتعددة)، والتعرّف على الكتابة اليدوية، والإشارة يمكن معالجة الصور بنِسب عرض إلى ارتفاع ودقة متغيرة.
- فهم الفيديو: تحليل الفيديو من خلال معالجة تسلسلات اللقطات
- المدخلات المتداخلة المتعددة الوسائط: يمكنك دمج النصوص والصور بحرية بأي ترتيب ضمن طلب واحد.
- استدعاء الدوال: توفير دعم أصلي لاستخدام الأدوات المنظَّمة، ما يتيح مهام سير العمل المستندة إلى الوكلاء
- الترميز: إنشاء الرموز البرمجية وإكمالها وتصحيحها
- متعدد اللغات: يتوافق مع أكثر من 35 لغة، وتم تدريبه مسبقًا على أكثر من 140 لغة.
- الصوت (الإصدارات E2B وE4B و12B Unified فقط): التعرّف التلقائي على الكلام (ASR) وترجمة الكلام إلى نص مترجَم بعدة لغات
أفضل الممارسات
للحصول على أفضل أداء، استخدِم الإعدادات وأفضل الممارسات التالية:
1. مَعلَمات اختيار العيّنات
استخدِم إعدادات أخذ العيّنات الموحّدة التالية في جميع حالات الاستخدام:
temperature=1.0top_p=0.95top_k=64
2. إعدادات "وضع التفكير"
مقارنةً بنموذج Gemma 3، تستخدم النماذج أدوار system وassistant وuser
عادية. لإدارة عملية التفكير بشكل سليم، استخدِم رموز التحكّم التالية:
- بدء التفكير: يتم تفعيل التفكير من خلال تضمين الرمز المميّز
<|think|>في بداية طلب النظام. لإيقاف التفكير، عليك إزالة الرمز المميّز. - الإنشاء العادي: عندما تكون ميزة "التفكير" مفعّلة، سيعرض النموذج
الاستدلال الداخلي الخاص به متبوعًا بالإجابة النهائية باستخدام البنية التالية:
<|channel>thought\n[الاستدلال الداخلي]<channel|> - سلوك التفكير غير المفعّل: في جميع النماذج باستثناء متغيرَي E2B وE4B، إذا كان التفكير غير مفعّل، سيظل النموذج ينشئ العلامات ولكن مع حظر التفكير فارغًا:
<|channel>thought\n<channel|>[الجواب النهائي]
يُرجى العِلم أنّ العديد من المكتبات، مثل Transformers وllama.cpp، تتولّى معالجة تعقيدات نموذج المحادثة نيابةً عنك.
3- المحادثات المتعدّدة الجولات
- عدم تضمين محتوى التفكير في السجلّ: في المحادثات المتعددة الأدوار، يجب أن يتضمّن الناتج التاريخي للنموذج الردّ النهائي فقط. يجب عدم إضافة الأفكار من النموذج السابق قبل بدء دور المستخدم التالي.
4. ترتيب الأنماط
للحصول على أفضل أداء عند استخدام المدخلات المتعدّدة الوسائط، يجب وضع:
- محتوى الصورة قبل النص في طلبك
- المحتوى الصوتي بعد النص في طلبك
5- دقة الصورة المتغيرة
بالإضافة إلى نسب العرض إلى الارتفاع المتغيرة، يتيح الإصدار 4 من Gemma دقة صورة متغيرة من خلال ميزانية رموز مرئية قابلة للضبط، ما يتيح التحكّم في عدد الرموز المستخدَمة لتمثيل صورة. وتتيح ميزانية الرموز الأعلى الحفاظ على المزيد من التفاصيل المرئية على حساب زيادة عمليات الحوسبة، بينما تتيح الميزانية الأقل استنتاجًا أسرع للمهام التي لا تتطلب فهمًا دقيقًا.
- ميزانيات الرموز المميزة المتاحة هي: 70 و140 و280 و560 و1120.
- استخدِم ميزانيات أقل للتصنيف أو إضافة الترجمة والشرح أو فهم الفيديو، حيث يكون الاستنتاج الأسرع ومعالجة العديد من اللقطات أكثر أهمية من التفاصيل الدقيقة.
- استخدِم ميزانيات أعلى لمهام مثل التعرّف البصري على الأحرف أو تحليل المستندات أو قراءة النصوص الصغيرة.
6. الصوت
استخدِم بُنى الطلبات التالية لمعالجة الصوت:
- التعرّف التلقائي على الكلام (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- الترجمة التلقائية للكلام (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. مدة الصوت والفيديو
تتيح جميع النماذج إدخال الصور ويمكنها معالجة الفيديوهات كإطارات، بينما تتيح النماذج E2B وE4B و12B أيضًا إدخال المقاطع الصوتية، على ألا تتجاوز مدة المقطع الصوتي 30 ثانية، ومدة الفيديو 60 ثانية، على أن تتم معالجة الصور بمعدل لقطة واحدة في الثانية.
بيانات النموذج
البيانات المستخدَمة لتدريب النماذج وطريقة معالجتها
مجموعة بيانات التدريب
مجموعة بيانات التدريب المُسبَق هي مجموعة كبيرة ومتنوعة من البيانات تشمل مجموعة واسعة من المجالات وأنواع البيانات، بما في ذلك مستندات الويب والرموز البرمجية والصور والمقاطع الصوتية، مع تاريخ نهائي هو يناير 2025. في ما يلي المكوّنات الرئيسية:
- مستندات الويب: تضمن المجموعة المتنوعة من نصوص الويب تعرّض النموذج لمجموعة واسعة من الأساليب اللغوية والمواضيع والمفردات. تتضمّن مجموعة بيانات التدريب محتوًى بأكثر من 140 لغة.
- الرموز البرمجية: إنّ تعريض النموذج للرموز البرمجية يساعده في تعلُّم بنية ولغة البرمجة، ما يحسّن قدرته على إنشاء الرموز البرمجية وفهم الأسئلة المتعلقة بها.
- الرياضيات: يساعد التدريب على النصوص الرياضية النموذج في تعلُّم الاستدلال المنطقي والتمثيل الرمزي والرد على الاستفسارات الرياضية.
- الصور: تتيح مجموعة كبيرة من الصور للنموذج تنفيذ مهام تحليل الصور واستخراج البيانات المرئية.
إنّ الجمع بين مصادر البيانات المتنوّعة هذه أمر بالغ الأهمية لتدريب نموذج قوي متعدد الوسائط يمكنه التعامل مع مجموعة واسعة من المهام وتنسيقات البيانات المختلفة.
المعالجة المُسبقة للبيانات
في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:
- فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
- فلترة البيانات الحسّاسة: في إطار سعينا إلى توفير نماذج Gemma مدرَّبة مسبقًا تتسم بالأمان والموثوقية، استخدمنا تقنيات مبرمَجة لاستبعاد بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
- طُرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا
الأخلاقيات والأمان
مع ازدياد أهمية النماذج المفتوحة في البنية التحتية للمؤسسات، أصبحت المصدر والأمان من أهم الأولويات. وقد طوّرت Google DeepMind نموذج Gemma 4 الذي يخضع لعمليات التقييم الصارمة نفسها التي تخضع لها نماذج Gemini الخاصة بنا.
منهجية التقييم
تم تطوير نماذج Gemma 4 بالتعاون مع فِرق داخلية متخصّصة في السلامة والذكاء الاصطناعي المسؤول. تم إجراء مجموعة من التقييمات الآلية والتقييمات التي يجريها الفريق للمساعدة في تحسين أمان النموذج. تتوافق عمليات التقييم هذه مع مبادئ الذكاء الاصطناعي في Google وسياسات الأمان التي تهدف إلى منع نماذج الذكاء الاصطناعي التوليدي من إنشاء محتوى ضار، بما في ذلك:
- المحتوى المتعلّق بمواد الاعتداء الجنسي على الأطفال واستغلالهم
- المحتوى الخطير (مثل الترويج للانتحار أو تقديم تعليمات حول أنشطة قد تؤدي إلى حدوث أضرار ملموسة)
- المحتوى الجنسي الفاضح
- الكلام الذي يحض على الكراهية (مثل تجريد أفراد المجموعات المحمية من الصفات الإنسانية)
- التحرش (مثلاً، التشجيع على العنف ضد الأشخاص)
نتائج التقييم
في جميع مجالات اختبار الأمان، لاحظنا تحسّنًا كبيرًا في جميع فئات أمان المحتوى مقارنةً بنماذج Gemma السابقة. بشكل عام، تتفوّق نماذج Gemma 4 بشكل كبير على نماذج Gemma 3 و3n في تحسين السلامة، مع الحفاظ على معدّل منخفض من الرفض غير المبرّر. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم إمكانات النموذج وسلوكياته. في ما يتعلّق بطلبات وردود نصية وتحويل الصورة إلى نص، وبجميع أحجام النماذج، حقّق النموذج أقل عدد من انتهاكات السياسات، كما حقّق تحسّنًا كبيرًا في الأداء مقارنةً بنماذج Gemma السابقة.
الاستخدام والقيود
وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.
الاستخدام المقصود
تتوفّر مجموعة واسعة من التطبيقات والنطاقات المختلفة التي يمكن استخدام النماذج المتعدّدة الوسائط فيها (القادرة على معالجة الصور و/أو اللغة و/أو الصوت). ولا تشمل القائمة التالية جميع الاستخدامات المحتملة، بل تهدف إلى تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها مصمّمو النماذج في الاعتبار كجزء من عملية تدريب النماذج وتطويرها.
- صناعة المحتوى والتواصل
- إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء صيغ نصوص إبداعية، مثل القصائد والنصوص البرمجية والنصوص التسويقية ومسودات الرسائل الإلكترونية.
- روبوتات الدردشة والذكاء الاصطناعي الحواري: توفير واجهات حوارية لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية
- تلخيص النصوص: إنشاء ملخّصات موجزة لمجموعة من النصوص أو الأبحاث أو التقارير
- استخراج البيانات من الصور: يمكن استخدام هذه النماذج لاستخراج البيانات المرئية وتفسيرها وتلخيصها من أجل التواصل النصي.
- معالجة الصوت والتفاعل معه: يمكن لنماذج E2B وE4B و12B تحليل المدخلات الصوتية وتفسيرها، ما يتيح التفاعلات والتحويلات إلى نص المستندة إلى الصوت.
- البحث والتعليم
- أبحاث معالجة اللغة الطبيعية (NLP) ونماذج اللغة المرئية (VLM): يمكن أن تشكّل هذه النماذج أساسًا للباحثين لتجربة تقنيات نماذج اللغة المرئية ومعالجة اللغة الطبيعية، وتطوير الخوارزميات، والمساهمة في تطوير هذا المجال.
- أدوات تعلُّم اللغات: تتيح تجارب تفاعلية لتعلم اللغات، وتساعد في تصحيح القواعد النحوية أو توفير تمارين كتابية.
- استكشاف المعرفة: تساعد هذه الأداة الباحثين في استكشاف مجموعات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع معيّنة.
القيود
- بيانات التدريب
- تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج، إذ يمكن أن تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى فرض قيود على ردود النموذج.
- يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
- السياق ومدى تعقيد المهمة
- تؤدي النماذج أداءً جيدًا في المهام التي يمكن صياغتها باستخدام طلبات وتعليمات واضحة، ولكن قد يصعب عليها إنجاز المهام المفتوحة أو المعقّدة للغاية.
- يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّم (يؤدي السياق الأطول عمومًا إلى نتائج أفضل، ولكن حتى حدّ معيّن).
- غموض اللغة ودقتها
- اللغة الطبيعية معقّدة بطبيعتها، وقد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
- الدقة الواقعية
- تنشئ النماذج ردودًا استنادًا إلى المعلومات التي تعلّمتها من مجموعات بيانات التدريب، ولكنّها ليست قواعد معلومات، وقد تنشئ عبارات وقائعية غير صحيحة أو قديمة.
- Common Sense
- تعتمد النماذج على الأنماط الإحصائية في اللغة، وقد لا تتمكّن من تطبيق المنطق السليم في بعض الحالات.
الاعتبارات والمخاطر الأخلاقية
يثير تطوير نماذج الرؤية واللغة (VLMs) العديد من المخاوف الأخلاقية، لذا أخذنا في الاعتبار ما يلي عند إنشاء نموذج مفتوح:
- الانحياز والعدالة
- يمكن أن تعكس النماذج المرئية اللغوية المدرَّبة على بيانات نصية وصور واقعية واسعة النطاق انحيازات اجتماعية وثقافية مضمّنة في المواد التدريبية. خضعت نماذج Gemma 4 لتدقيق دقيق ومعالجة مسبقة لبيانات الإدخال وتقييمات بعد التدريب، كما هو موضّح في هذه البطاقة، وذلك للمساعدة في الحدّ من مخاطر هذه الانحيازات.
- المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام النماذج اللغوية الكبيرة لإنشاء نصوص كاذبة أو مضلِّلة أو ضارة.
- تتوفّر إرشادات للاستخدام المسؤول للنموذج، يمكنك الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول.
- الشفافية والمساءلة
- تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وقدراتها وقيودها وعمليات التقييم.
- يتيح النموذج المفتوح الذي تم تطويره بشكل مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج المرئية الكبيرة (VLM) للمطوّرين والباحثين في جميع أنحاء المنظومة المتكاملة للذكاء الاصطناعي.
المخاطر التي تم تحديدها وإجراءات التخفيف من حدتها:
- إنشاء محتوى ضار: من الضروري توفير آليات وإرشادات لضمان سلامة المحتوى، وننصح المطوّرين بتوخّي الحذر واتّخاذ تدابير وقائية مناسبة لضمان سلامة المحتوى استنادًا إلى سياسات منتجاتهم وحالات استخدام تطبيقاتهم.
- إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارة لنماذج اللغات الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام.
- انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات تحافظ على الخصوصية.
- إدامة التحيزات: يُنصح بإجراء رصد مستمر (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النموذج وضبطه الدقيق وحالات الاستخدام الأخرى.
المزايا
عند طرح هذه المجموعة من النماذج، كانت توفّر عمليات تنفيذ عالية الأداء لنموذج مفتوح للرؤية واللغة مصمَّم من البداية لتطوير ذكاء اصطناعي مسؤول مقارنةً بالنماذج ذات الأحجام المماثلة.