تم إطلاق Gemma 4 مع إمكانية إدخال النصوص والصوت والصور، بالإضافة إلى قدرة استيعاب طويلة تصل إلى 256 ألف رمز مميّز. مزيد من المعلومات

بطاقة نموذج Gemma 4

Gemma 4 Banner

Hugging Face | GitHub | مدونة الإطلاق | المستندات
الترخيص: Apache 2.0 | المؤلفون: Google DeepMind

‫Gemma هي مجموعة من النماذج المفتوحة المصدر من إنشاء Google DeepMind. نماذج Gemma 4 هي نماذج متعدّدة الوسائط، إذ يمكنها التعامل مع النصوص والصور (مع إمكانية معالجة الصوت في النماذج الصغيرة) وإنشاء نصوص. يتضمّن هذا الإصدار نماذج بأوزان مفتوحة في كل من الإصدارات المدربة مسبقًا والإصدارات المعدّلة لتناسب التعليمات. تتميّز Gemma 4 بقدرة استيعاب تصل إلى 256 ألف رمز مميّز، وتتيح استخدام أكثر من 140 لغة.

تتضمّن Gemma 4 بنية Dense وبنية Mixture-of-Experts (MoE)، ما يجعلها مناسبة تمامًا لمهام مثل إنشاء النصوص والترميز والاستدلال. تتوفّر النماذج بأربعة أحجام مختلفة: E2B وE4B و26B A4B و31B. وتتيح أحجامها المتنوعة إمكانية نشرها في بيئات تتراوح بين الهواتف المتطورة وأجهزة الكمبيوتر المحمولة والخوادم، ما يتيح للجميع الاستفادة من أحدث تقنيات الذكاء الاصطناعي.

تقدّم Gemma 4 تحسينات رئيسية على مستوى الإمكانات والبنية:

الاستدلال: تم تصميم جميع النماذج في هذه السلسلة لتكون قادرة على الاستدلال بشكل كبير، مع توفّر أوضاع تفكير قابلة للضبط.
الوسائط المتعددة الموسّعة: تعالج النصوص والصور بنِسب عرض إلى ارتفاع ودقة متغيرة (جميع الطُرز) والفيديوهات والمقاطع الصوتية (مضمّنة في الطرازَين E2B وE4B).
تصاميم متنوعة وفعّالة: توفّر إصدارات كثيفة وإصدارات "مزيج من الخبراء" (MoE) بأحجام مختلفة لتسهيل عملية النشر.
محسَّن للعمل على الأجهزة: تم تصميم النماذج الأصغر حجمًا خصيصًا لتنفيذ المهام بكفاءة على أجهزة الكمبيوتر المحمولة والأجهزة الجوّالة.
زيادة قدرة الاستيعاب: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تتيح النماذج المتوسطة 256 ألف رمز مميّز.
قدرات محسّنة في الترميز والذكاء الاصطناعي الوكيل: يحقّق هذا النموذج تحسينات ملحوظة في مقاييس الترميز، بالإضافة إلى إتاحة وظيفة استدعاء الدوال البرمجية الأصلية، ما يتيح إنشاء وكلاء مستقلين يتمتعون بقدرات عالية.
إتاحة استخدام طلبات النظام الأصلية: يتيح الإصدار 4 من Gemma استخدام الدور system بشكل أصلي، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.

نظرة عامة على النماذج

تم تصميم نماذج Gemma 4 لتقديم أداء متطوّر في كل حجم، واستهداف سيناريوهات النشر من الأجهزة الجوّالة وأجهزة الحافة (E2B وE4B) إلى وحدات معالجة الرسومات وأجهزة الكمبيوتر المكتبي للمستهلكين (26B A4B و31B). وهي مناسبة تمامًا للاستدلال، وعمليات سير العمل المستندة إلى الذكاء الاصطناعي الوكيل، والترميز، وفهم المحتوى المتعدد الوسائط.

تستخدم النماذج آلية انتباه مختلطة تجمع بين الانتباه إلى النطاق المحلي المحدود والانتباه إلى النطاق العالمي الكامل، ما يضمن أن تكون الطبقة النهائية عالمية دائمًا. يوفّر هذا التصميم المختلط سرعة المعالجة وحجم الذاكرة المنخفض الذي يوفّره النموذج الخفيف الوزن، بدون التضحية بالوعي العميق المطلوب لتنفيذ المهام المعقّدة التي تتضمّن سياقًا طويلاً. لتحسين استخدام الذاكرة في السياقات الطويلة، تتضمّن الطبقات العامة ميزة "المفاتيح والقيم" الموحّدة، وتطبّق ميزة "الترميز الموضعي النسبي الدوّار" (p-RoPE).

النماذج الكثيفة

الموقع	E2B	E4B	‫31B Dense
إجمالي المَعلمات	‫2.3 مليار معلَمة (5.1 مليار معلَمة مع التضمينات)	‫4.5 مليار رمز مميز فعال (8 مليارات رمز مميز مع التضمينات)	‫30.7 مليار
الطبقات	35	42	60
نافذة منزلقة	512 رمزًا مميزًا	512 رمزًا مميزًا	‫1024 رمزًا مميزًا
طول السياق	‫128 ألف رمز مميّز	‫128 ألف رمز مميّز	‫256 ألف رمز مميز
حجم المفردات	‫262 ألف	‫262 ألف	‫262 ألف
طُرق العرض المتوافقة	النص والصورة والصوت	النص والصورة والصوت	نص، صورة
مَعلمات أداة ترميز الصور	حوالي 150 مليون	حوالي 150 مليون	حوالي 550 مليون
معلَمات برنامج ترميز الصوت	حوالي 300 مليون	حوالي 300 مليون	لا يتوفّر صوت

يشير الحرف "E" في E2B وE4B إلى المعلّمات "الفعّالة". تتضمّن النماذج الأصغر حجمًا ميزة "التضمينات على مستوى كل طبقة" (PLE) لتحقيق أقصى قدر من كفاءة المَعلمات في عمليات النشر على الجهاز فقط. بدلاً من إضافة المزيد من الطبقات أو المَعلمات إلى النموذج، تمنح PLE كل طبقة فك ترميز تضمينًا صغيرًا خاصًا بها لكل رمز مميز. تكون جداول التضمين هذه كبيرة، ولكن يتم استخدامها فقط لعمليات البحث السريع، ولهذا السبب يكون عدد المَعلمات الفعّالة أقل بكثير من الإجمالي.

نموذج "مزيج الخبراء" (MoE)

الموقع	‫26B A4B MoE
إجمالي المَعلمات	‫25.2 مليار
المعلَمات النشطة	‫3.8 مليار
الطبقات	30
نافذة منزلقة	‫1024 رمزًا مميزًا
طول السياق	‫256 ألف رمز مميز
حجم المفردات	‫262 ألف
عدد الخبراء	‫8 نشطة / 128 إجمالية و1 تمت مشاركتها
طُرق العرض المتوافقة	نص، صورة
مَعلمات أداة ترميز الصور	حوالي 550 مليون

يشير الحرف "A" في 26B A4B إلى "المعلّمات النشطة"، وذلك على عكس إجمالي عدد المعلّمات التي يتضمّنها النموذج. من خلال تفعيل مجموعة فرعية من 4 مليارات مَعلمة فقط أثناء الاستدلال، يعمل نموذج Mixture-of-Experts بشكل أسرع بكثير مما قد يشير إليه إجمالي عدد المَعلمات البالغ 26 مليارًا. وهذا يجعلها خيارًا ممتازًا للاستدلال السريع مقارنةً بنموذج 31B الكثيف، لأنّها تعمل بسرعة تقارب سرعة نموذج 4B.

نتائج قياس الأداء

تم تقييم هذه النماذج استنادًا إلى مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من إنشاء النصوص. نتائج التقييم الموضّحة في الجدول هي للنماذج التي تم ضبطها وفقًا للتعليمات.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (بدون تفكير)
MMLU Pro	‫85.2%	‫82.6%	‫69.4%	‫60.0%	67.6%
AIME 2026 no tools	‫89.2%	‫88.3%	42.5%	37.5%	‫20.8%
LiveCodeBench v6	80.0%	‫77.1%	‫52.0%	44.0%	‫29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	‫58.6%	‫43.4%	42.4%
Tau2 (المتوسط على مدى 3 أيام)	‫76.9%	‫68.2%	‫42.2%	24.5%	‫16.2%
HLE no tools	19.5%	‫8.7%	-	-	-
HLE مع البحث	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	‫64.8%	‫33.1%	‫21.9%	‫19.3%
MMMLU	88.4%	‫86.3%	76.6%	‫67.4%	‫70.7%
النظر
MMMU Pro	‫76.9%	‫73.8%	‫52.6%	‫44.2%	49.7%
OmniDocBench 1.5 (متوسط مسافة التعديل، وكلما كانت القيمة أقل كان ذلك أفضل)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	‫85.6%	82.4%	59.5%	52.4%	‫46.0%
MedXPertQA MM	‫61.3%	58.1%	‫28.7%	‫23.5%	-
الصوت
CoVoST	-	-	35.54	33.47	-
‫FLEURS (كلما انخفضت النتيجة، تحسّن الأداء)	-	-	0.08	0.09	-
سياق طويل
MRCR v2 8 needle 128k (average)	‫66.4%	‫44.1%	25.4%	‫19.1%	‫13.5%

الإمكانات الأساسية

تتعامل نماذج Gemma 4 مع مجموعة واسعة من المهام المتعلقة بالنصوص والصور والأصوات. تشمل الإمكانات الرئيسية ما يلي:

التفكير: وضع استدلال منطقي مدمج يتيح للنموذج التفكير خطوة بخطوة قبل تقديم الإجابة.
قدرة استيعاب موسَّعة: قدرة استيعاب تصل إلى 128 ألف رمز مميز (E2B/E4B) و256 ألف رمز مميز (26B A4B/31B).
فهم الصور: رصد العناصر، وتحليل المستندات/ملفات PDF، وفهم الشاشة وواجهة المستخدم، وفهم الرسوم البيانية، والتعرّف البصري على الأحرف (بما في ذلك اللغات المتعددة)، والتعرّف على الكتابة اليدوية، والإشارة. يمكن معالجة الصور بنِسب عرض إلى ارتفاع ودقة متغيرة.
فهم الفيديو: تحليل الفيديو من خلال معالجة تسلسلات اللقطات
إدخال متعدد الوسائط متداخل: يمكنك دمج النصوص والصور بحرية بأي ترتيب ضمن طلب واحد.
استدعاء الدوال: توفير دعم أصلي لاستخدام الأدوات المنظَّمة، ما يتيح مهام سير العمل المستندة إلى الوكلاء
الترميز: إنشاء الرموز البرمجية وإكمالها وتصحيحها
متعدد اللغات: يتوافق مع أكثر من 35 لغة، وتم تدريبه مسبقًا على أكثر من 140 لغة.
الصوت (E2B وE4B فقط): التعرّف التلقائي على الكلام (ASR) والترجمة من الكلام إلى النص المترجَم بلغات متعددة

البدء

يمكنك استخدام جميع نماذج Gemma 4 مع أحدث إصدار من Transformers. للبدء، ثبِّت التبعيات اللازمة في بيئتك:

pip install -U transformers torch accelerate

بعد تثبيت كل ما تحتاج إليه، يمكنك تحميل النموذج باستخدام الرمز أدناه:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

بعد تحميل النموذج، يمكنك البدء في إنشاء الناتج:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

لتفعيل الاستدلال، اضبط enable_thinking=True وستتولى الدالة parse_response مهمة تحليل ناتج التفكير.

أفضل الممارسات

للحصول على أفضل أداء، استخدِم الإعدادات وأفضل الممارسات التالية:

1. مَعلَمات اختيار العيّنات

استخدِم إعدادات أخذ العيّنات الموحّدة التالية في جميع حالات الاستخدام:

temperature=1.0
top_p=0.95
top_k=64

2. إعدادات "وضع التفكير"

مقارنةً بـ Gemma 3، تستخدم النماذج أدوار system وassistant وuser القياسية. لإدارة عملية التفكير بشكل سليم، استخدِم رموز التحكّم التالية:

التفكير المشغِّل: يتم تفعيل التفكير من خلال تضمين الرمز المميز <|think|> في بداية طلب النظام. لإيقاف التفكير، أزِل الرمز المميّز.
الإنشاء العادي: عندما تكون ميزة "التفكير" مفعّلة، سيعرض النموذج الاستدلال الداخلي الخاص به متبوعًا بالإجابة النهائية باستخدام البنية التالية: <|channel>thought\n[الاستدلال الداخلي]<channel|>
سلوك التفكير غير المفعّل: في جميع النماذج باستثناء متغيرَي E2B وE4B، إذا تم إيقاف ميزة التفكير، سيستمر النموذج في إنشاء العلامات، ولكن مع حظر التفكير فارغ: <|channel>thought\n<channel|>[الجواب النهائي]

يُرجى العِلم أنّ العديد من المكتبات، مثل Transformers وllama.cpp، تتولّى معالجة تعقيدات نموذج المحادثة نيابةً عنك.

3- المحادثات المتعدّدة الجولات

عدم تضمين محتوى التفكير في السجلّ: في المحادثات المتعددة الأدوار، يجب أن تتضمّن مخرجات النموذج السابق الردّ النهائي فقط. يجب عدم إضافة أفكار من النموذج السابق قبل أن يبدأ دور المستخدم التالي.

4. ترتيب الأنماط

للحصول على الأداء الأمثل عند استخدام المدخلات المتعدّدة الوسائط، ضَع محتوى الصور و/أو الصوت قبل النص في طلبك.

5- دقة الصورة المتغيرة

بالإضافة إلى نسب العرض إلى الارتفاع المتغيرة، يتيح الإصدار 4 من Gemma دقة صورة متغيرة من خلال ميزانية رموز مرئية قابلة للضبط، ما يتحكّم في عدد الرموز المستخدَمة لتمثيل صورة. تتيح ميزانية الرموز المميزة الأعلى الحفاظ على المزيد من التفاصيل المرئية، ولكنها تتطلّب قدرة حوسبة إضافية، بينما تتيح الميزانية الأقل استنتاجًا أسرع للمهام التي لا تتطلّب فهمًا دقيقًا.

ميزانيات الرموز المميزة المتاحة هي: 70 و140 و280 و560 و1120.
- استخدِم ميزانيات أقل للتصنيف أو إضافة الترجمة والشرح أو فهم الفيديو، حيث يكون الاستنتاج الأسرع ومعالجة العديد من اللقطات أكثر أهمية من التفاصيل الدقيقة.
- استخدِم ميزانيات أعلى لمهام مثل التعرّف البصري على الأحرف أو تحليل المستندات أو قراءة النصوص الصغيرة.

6. الصوت

استخدِم بُنى الطلبات التالية لمعالجة الصوت:

التعرّف على الكلام في الصوت (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

الترجمة التلقائية للكلام (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. مدة الصوت والفيديو

تتيح جميع الطُرز إدخال الصور ويمكنها معالجة الفيديوهات كإطارات، بينما تتيح الطُرز E2B وE4B أيضًا إدخال المقاطع الصوتية. يمكن أن تبلغ مدة المحتوى الصوتي 30 ثانية كحدّ أقصى. يمكن أن تبلغ مدة الفيديو 60 ثانية كحد أقصى، على افتراض أنّه تتم معالجة الصور بمعدل لقطة واحدة في الثانية.

بيانات النموذج

البيانات المستخدَمة لتدريب النماذج وطريقة معالجتها

مجموعة بيانات التدريب

مجموعة بيانات التدريب المُسبَق هي مجموعة متنوعة وواسعة النطاق من البيانات تشمل مجموعة كبيرة من المجالات وأنواع البيانات، بما في ذلك مستندات الويب والرموز البرمجية والصور والمقاطع الصوتية، مع تاريخ نهائي هو يناير 2025. في ما يلي المكوّنات الرئيسية:

مستندات الويب: تضمن المجموعة المتنوعة من نصوص الويب تعرّض النموذج لمجموعة واسعة من الأساليب اللغوية والمواضيع والمفردات. تتضمّن مجموعة بيانات التدريب محتوًى بأكثر من 140 لغة.
الرموز البرمجية: يساعد عرض الرموز البرمجية على النموذج في تعلُّم بنية ولغات البرمجة، ما يحسّن قدرته على إنشاء الرموز البرمجية وفهم الأسئلة المتعلقة بها.
الرياضيات: يساعد التدريب على النصوص الرياضية النموذج في تعلُّم الاستدلال المنطقي والتمثيل الرمزي والرد على الاستفسارات الرياضية.
الصور: تتيح المجموعة الواسعة من الصور للنموذج تنفيذ مهام تحليل الصور واستخراج البيانات المرئية.

إنّ الجمع بين مصادر البيانات المتنوّعة هذه أمر بالغ الأهمية لتدريب نموذج قوي متعدد الوسائط يمكنه التعامل مع مجموعة واسعة من المهام وتنسيقات البيانات المختلفة.

المعالجة المُسبقة للبيانات

في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:

فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
فلترة البيانات الحسّاسة: في إطار سعينا إلى توفير نماذج Gemma مدرَّبة مسبقًا تتسم بالأمان والموثوقية، استخدمنا تقنيات مبرمَجة لاستبعاد بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
طُرق إضافية: الفلترة استنادًا إلى جودة المحتوى وسلامته بما يتوافق مع سياساتنا

الأخلاقيات والأمان

مع ازدياد أهمية النماذج المفتوحة المصدر في البنية الأساسية للمؤسسات، أصبحت المصدر والأمان من أهم الأولويات. تم تطوير Gemma 4 بواسطة Google DeepMind، ويخضع للتقييمات الصارمة نفسها المتعلّقة بالأمان التي تخضع لها نماذج Gemini الخاصة بنا.

منهجية التقييم

تم تطوير نماذج Gemma 4 بالتعاون مع فِرق داخلية متخصّصة في السلامة والذكاء الاصطناعي المسؤول. تم إجراء مجموعة من التقييمات الآلية واليدوية للمساعدة في تحسين أمان النموذج. تتوافق هذه التقييمات مع مبادئ الذكاء الاصطناعي في Google وسياسات الأمان التي تهدف إلى منع نماذج الذكاء الاصطناعي التوليدي من إنشاء محتوى ضار، بما في ذلك:

المحتوى المتعلّق بمواد الاعتداء الجنسي على الأطفال واستغلالهم
المحتوى الخطير (مثل الترويج للانتحار أو تقديم تعليمات حول أنشطة قد تؤدي إلى حدوث أضرار ملموسة)
المحتوى الجنسي الفاضح
الكلام الذي يحض على الكراهية (مثل تجريد أفراد المجموعات المحمية من الصفات الإنسانية)
المضايقة (مثل التشجيع على العنف ضد الأشخاص)

نتائج التقييم

في جميع مجالات اختبار الأمان، لاحظنا تحسّنًا كبيرًا في جميع فئات أمان المحتوى مقارنةً بنماذج Gemma السابقة. بشكل عام، تتفوّق نماذج Gemma 4 بشكل كبير على نماذج Gemma 3 و3n في تحسين السلامة، مع الحفاظ على معدّل منخفض للرفض غير المبرّر. تم إجراء جميع الاختبارات بدون فلاتر أمان لتقييم إمكانات النموذج وسلوكياته. في ما يتعلّق بطلبات وردود نصية وتحويل الصورة إلى نص، وبجميع أحجام النماذج، لم يسجّل النموذج سوى عدد قليل من انتهاكات السياسات، وحقّق تحسّنًا كبيرًا في الأداء مقارنةً بنماذج Gemma السابقة.

الاستخدام والقيود

وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.

الاستخدام المقصود

تتضمّن النماذج المتعددة الوسائط (القادرة على معالجة الصور و/أو اللغة و/أو الصوت) مجموعة واسعة من التطبيقات في مختلف المجالات. قائمة الاستخدامات المحتملة التالية ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها مصمّمو النموذج في الاعتبار كجزء من تدريب النموذج وتطويره.

صناعة المحتوى والتواصل
- إنشاء النصوص: يمكن استخدام هذه النماذج لإنشاء صيغ نصوص إبداعية، مثل القصائد والنصوص البرمجية والنصوص التسويقية ومسودات الرسائل الإلكترونية.
- روبوتات الدردشة والذكاء الاصطناعي الحواري: تشغيل واجهات حوارية لخدمة العملاء أو المساعدين الافتراضيين أو التطبيقات التفاعلية
- تلخيص النصوص: يمكنك إنشاء ملخّصات موجزة لمجموعة من النصوص أو الأبحاث أو التقارير.
- استخراج البيانات من الصور: يمكن استخدام هذه النماذج لاستخراج البيانات المرئية وتفسيرها وتلخيصها من أجل التواصل النصي.
- معالجة الصوت والتفاعل معه: يمكن للنماذج الأصغر حجمًا (E2B وE4B) تحليل المدخلات الصوتية وتفسيرها، ما يتيح التفاعلات والتحويلات إلى نص المستندة إلى الصوت.
البحث والتعليم
- أبحاث معالجة اللغة الطبيعية (NLP) ونماذج اللغة المرئية (VLM): يمكن أن تشكّل هذه النماذج أساسًا للباحثين لتجربة تقنيات نماذج اللغة المرئية ومعالجة اللغة الطبيعية، وتطوير الخوارزميات، والمساهمة في تقدّم هذا المجال.
- أدوات تعلُّم اللغات: تتيح تجارب تفاعلية لتعلم اللغات، وتساعد في تصحيح القواعد النحوية أو توفير تمارين كتابية.
  - استكشاف المعرفة: مساعدة الباحثين في استكشاف كميات كبيرة من النصوص من خلال إنشاء ملخّصات أو الإجابة عن أسئلة حول مواضيع معيّنة

القيود

بيانات التدريب
- تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج. قد تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
- يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
السياق ومدى تعقيد المهمة
- تؤدي النماذج أداءً جيدًا في المهام التي يمكن صياغتها باستخدام طلبات وتعليمات واضحة. قد تكون المهام المفتوحة أو المعقّدة للغاية صعبة.
- يمكن أن يتأثر أداء النموذج بكمية السياق المقدَّم (يؤدي السياق الأطول عمومًا إلى نتائج أفضل، وذلك حتى حدّ معيّن).
غموض اللغة ودقتها
- اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
الدقة الواقعية
- تنشئ النماذج الردود استنادًا إلى المعلومات التي تعلّمتها من مجموعات بيانات التدريب، ولكنّها ليست قواعد معلومات. قد تقدّم هذه النماذج جُملًا غير صحيحة أو قديمة.
Common Sense
- تعتمد النماذج على الأنماط الإحصائية في اللغة. وقد لا تتمكّن من تطبيق المنطق السليم في مواقف معيّنة.

الاعتبارات والمخاطر الأخلاقية

يثير تطوير نماذج الرؤية واللغة (VLM) العديد من المخاوف الأخلاقية. عند إنشاء نموذج مفتوح، أخذنا بعين الاعتبار ما يلي:

الانحياز والعدالة
- يمكن أن تعكس النماذج المرئية اللغوية المدرَّبة على بيانات نصية ومرئية واسعة النطاق من العالم الحقيقي الانحيازات الاجتماعية والثقافية المضمّنة في مواد التدريب. خضعت نماذج Gemma 4 لتدقيق دقيق ومعالجة مسبقة لبيانات الإدخال وتقييمات بعد التدريب، كما هو موضّح في هذه البطاقة، وذلك للمساعدة في الحدّ من مخاطر هذه الانحيازات.
المعلومات الخاطئة وإساءة الاستخدام
- يمكن إساءة استخدام نماذج اللغات الكبيرة لإنشاء نصوص غير صحيحة أو مضلِّلة أو ضارة.
- تتوفّر إرشادات للاستخدام المسؤول للنموذج، يمكنك الاطّلاع على مجموعة أدوات الذكاء الاصطناعي التوليدي المسؤول.
الشفافية والمساءلة
- تلخّص بطاقة النموذج هذه تفاصيل حول بنية النماذج وقدراتها وقيودها وعمليات التقييم.
- يتيح النموذج المفتوح الذي تم تطويره بشكل مسؤول فرصة مشاركة الابتكار من خلال إتاحة تكنولوجيا النماذج المرئية الكبيرة (VLM) للمطوّرين والباحثين في جميع أنحاء منظومة الذكاء الاصطناعي المتكاملة.

المخاطر التي تم تحديدها وإجراءات التخفيف من حدّتها:

إنشاء محتوى ضار: من الضروري توفير آليات وإرشادات لضمان سلامة المحتوى. ننصح المطوّرين بتوخّي الحذر وتنفيذ تدابير وقائية مناسبة للحفاظ على سلامة المحتوى استنادًا إلى سياسات منتجاتهم وحالات استخدام تطبيقاتهم المحدّدة.
إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارة لنماذج اللغات الكبيرة. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام.
انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة معلومات شخصية معيّنة وغيرها من البيانات الحسّاسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات تحافظ على الخصوصية.
إدامة التحيزات: ننصحك بإجراء رصد مستمر (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النموذج وضبطه الدقيق وحالات الاستخدام الأخرى.

المزايا

عند طرح هذه المجموعة من النماذج، كانت توفّر عمليات تنفيذ عالية الأداء لنموذج مفتوح للرؤية واللغة مصمَّم من البداية لتطوير ذكاء اصطناعي مسؤول مقارنةً بالنماذج ذات الأحجام المماثلة.