تم إطلاق Gemma 4 مع إمكانية إدخال النصوص والصوت والصور، بالإضافة إلى قدرة استيعاب طويلة تصل إلى 256 ألف رمز مميّز. مزيد من المعلومات

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

نظرة عامة على نموذج Gemma 4

‫Gemma هي مجموعة من نماذج الذكاء الاصطناعي التوليدي، ويمكنك استخدامها في مجموعة متنوعة من مهام الإنشاء، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستنتاج. تتوفّر نماذج Gemma بأوزان مفتوحة و تسمح بالاستخدام التجاري المسؤول، ما يتيح لك ضبطها ونشرها في مشاريعك وتطبيقاتك الخاصة.

تتضمّن عائلة نماذج Gemma 4 أربع بُنى أساسية مختلفة مصمّمة لتلبية متطلبات أجهزة معيّنة:

الأحجام الصغيرة: نماذج مَعلمات فعّالة بسعة 2 مليار و4 مليارات مَعلمة مصمّمة للنشر على الأجهزة الجوّالة والأجهزة الطرفية والمتصفّحات (مثل Pixel وChrome)
النماذج الكثيفة: نموذج كثيف قوي بسعة 31 مليار مَعلمة يربط بين الأداء على مستوى الخادم والتنفيذ المحلي
Mixture-of-Experts: نموذج فعّال للغاية بسعة 26 مليار مَعلمة مصمّم لتقديم استنتاجات متقدّمة بمعدّل نقل بيانات عالٍ
النماذج الموحّدة: نموذج بسعة 12 مليار مَعلمة بدون أداة ترميز، مخصّص للمهام المتعدّدة الوسائط، وقد تم استبدال أدوات ترميز الصور والفيديوهات بإسقاطات خطية مباشرة للإدخال

يمكنك تنزيل نماذج Gemma 4 من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن Gemma 4، يُرجى الاطّلاع على بطاقة النموذج و التقرير الفني. تتوفّر أيضًا إصدارات سابقة من نماذج Gemma الأساسية للتنزيل. لمزيد من المعلومات، يُرجى الاطّلاع على نماذج Gemma السابقة.

الحصول على النموذج من Kaggle الحصول على النموذج من Hugging Face

الإمكانات

الاستنتاج: تم تصميم جميع النماذج في المجموعة لتكون قادرة على الاستنتاج بشكل كبير، مع أوضاع تفكير قابلة للإعداد.
الوسائط المتعدّدة الموسّعة: تعالج النماذج النصوص، الصور مع إمكانية تغيير نسبة العرض إلى الارتفاع ودقة العرض (جميع النماذج)، الفيديوهات، و المقاطع الصوتية (تتوفّر هذه الميزات تلقائيًا في النماذج E2B وE4B و12B).
قدرة استيعاب أكبر: تتميز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تدعم النماذج المتوسطة 256 ألف رمز مميّز.
إمكانات محسّنة في كتابة الرموز البرمجية والوكلاء: تحقّق النماذج تحسينات ملحوظة في مقاييس الأداء لكتابة الرموز البرمجية، بالإضافة إلى إمكانية استدعاء الدوال المضمّنة، ما يتيح إنشاء وكلاء مستقلين يتمتعون بقدرات عالية.
إمكانية استخدام طلبات النظام تلقائيًا: يقدّم Gemma 4 إمكانية استخدام دور النظام تلقائيًا، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.
التوقّع المتعدّد الرموز المميّزة: تتضمّن جميع نماذج Gemma 4 (E2B وE4B و12B و31B و26B A4B) نموذجًا مسودة مخصّصًا لفك الترميز القائم على التوقّع، ما يتيح استنتاجًا أسرع بكثير بدون فقدان الجودة.

أحجام المَعلمات والتقليل من الدقة

تتوفّر نماذج Gemma 4 بخمسة أحجام للمَعلمات: E2B وE4B و12B و31B و26B A4B. يمكن استخدام النماذج بدقتها التلقائية (16 بت) أو بدقة أقل باستخدام التقليل من الدقة. تمثّل الأحجام والدقة المختلفة مجموعة من الموازنات لتطبيق الذكاء الاصطناعي. تكون النماذج التي تحتوي على عدد أكبر من المَعلمات وعدد أكبر من البتات (دقة أعلى) أكثر قدرة بشكل عام، ولكنها تكون أكثر تكلفة من حيث دورات المعالجة وتكلفة الذاكرة واستهلاك الطاقة. تكون النماذج التي تحتوي على عدد أقل من المَعلمات وعدد أقل من البتات (دقة أقل) أقل قدرة، ولكنها قد تكون كافية لمهمة الذكاء الاصطناعي.

متطلبات الذاكرة للاستنتاج في Gemma 4

يوضّح الجدول التالي متطلبات الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة Tensor (TPU) لتشغيل الاستنتاج باستخدام كل حجم من إصدارات نموذج Gemma 4.

المعلمات	BF16 (16 بت)	SFP8 (8 بت)	Q4_0 (4 بت)	الجهاز الجوّال	الجهاز الجوّال (نصوص فقط)
Gemma 4 E2B	11.4 غيغابايت	5.7 غيغابايت	2.9 غيغابايت	1.1 غيغابايت	0.84 غيغابايت
Gemma 4 E4B	17.9 غيغابايت	8.9 غيغابايت	4.5 غيغابايت	2.5 غيغابايت	2.2 غيغابايت
Gemma 4 12B	26.7 غيغابايت	13.4 غيغابايت	6.7 غيغابايت	-	-
Gemma 4 26B A4B	57.7 غيغابايت	28.8 غيغابايت	14.4 غيغابايت	-	-
Gemma 4 31B	69.9 غيغابايت	34.9 غيغابايت	17.5 غيغابايت	-	-

الجدول 1. الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة Tensor المطلوبة لتحميل نماذج Gemma 4 استنادًا إلى عدد المَعلمات ومستوى التقليل من الدقة و20% من النفقات العامة لتحميل عناصر إضافية تستخدم إصدارات الأجهزة الجوّالة LiteRT-LM.

اعتبارات أساسية لتخطيط الذاكرة

البُنية الأساسية الفعّالة (E2B وE4B): يشير الحرف "E" إلى "المَعلمات الفعّالة". تتضمّن النماذج الأصغر حجمًا عمليات تضمين على مستوى الطبقة (PLE) لزيادة فعالية المَعلمات إلى أقصى حد في عمليات النشر على الجهاز. بدلاً من إضافة المزيد من الطبقات إلى النموذج، تمنح عمليات التضمين على مستوى الطبقة كل طبقة من طبقات فك الترميز عملية تضمين صغيرة خاصة بها لكل رمز مميّز. تكون جداول التضمين هذه كبيرة ولكنها تُستخدم فقط لعمليات البحث السريع، ولهذا السبب يكون إجمالي الذاكرة المطلوبة لتحميل الأوزان الثابتة أعلى مما يشير إليه عدد المَعلمات الفعّالة.
بُنية "مزيج الخبراء" (26B A4B): النموذج 26B هو نموذج "مزيج الخبراء". على الرغم من أنّه لا يفعّل سوى 4 مليارات مَعلمة لكل رمز مميّز أثناء الإنشاء، يجب تحميل جميع المَعلمات البالغ عددها 26 مليار مَعلمة في الذاكرة للحفاظ على سرعات التوجيه والاستنتاج العالية. لهذا السبب، يكون الحد الأدنى لمتطلبات الذاكرة أقرب بكثير إلى نموذج كثيف بسعة 26 مليار مَعلمة منه إلى نموذج بسعة 4 مليارات مَعلمة.
الأوزان الأساسية فقط: لا تأخذ التقديرات في الجدول السابق في الاعتبار إلا الذاكرة المطلوبة لتحميل أوزان النموذج الثابتة. ولا تتضمّن هذه التقديرات ذاكرة الوصول العشوائي المرئية الإضافية اللازمة للبرامج المتوافقة أو قدرة الاستيعاب.
قدرة الاستيعاب (ذاكرة التخزين المؤقت لقيم المفتاح والقيمة): سيزداد استهلاك الذاكرة بشكل ديناميكي استنادًا إلى إجمالي عدد الرموز المميّزة في طلبك والاستجابة التي تم إنشاؤها. تتطلب قدرات الاستيعاب الأكبر ذاكرة وصول عشوائي مرئية أكبر بكثير بالإضافة إلى أوزان النموذج الأساسية.
النفقات العامة للضبط: تكون متطلبات الذاكرة لـ ضبط نماذج Gemma أعلى بكثير من متطلبات الاستنتاج العادي. سيعتمد حجم الذاكرة الدقيق بشكل كبير على إطار التطوير وحجم الدُفعة وما إذا كنت تستخدم الضبط بدقة كاملة أو طريقة ضبط فعّالة للمَعلمات (PEFT) مثل Low-Rank Adaptation (LoRA).

التدريب مع مراعاة التقليل من الدقة (QAT)

بالنسبة إلى عمليات النشر التي تتطلب أقصى قدر من الكفاءة مع الحد الأدنى من التنازل عن الجودة، يقدّم Gemma نماذج التدريب مع مراعاة التقليل من الدقة (QAT) الرسمية.

على عكس التقليل من الدقة بعد التدريب (PTQ) العادي، الذي يضغط نموذجًا تم تدريبه بالكامل ويمكن أن يؤدي إلى تدهور الجودة، يدمج التدريب مع مراعاة التقليل من الدقة محاكاة التقليل من الدقة في عملية التدريب نفسها. يسمح ذلك للنموذج بتعلُّم كيفية التعويض عن فقدان الدقة، ما يؤدي إلى إنشاء نماذج أصغر حجمًا تؤدي وظائفها بشكل مطابق تقريبًا لخطوطها الأساسية عالية الدقة.

جدول التوجيه السريع

محرّك النشر المستهدَف	لاحقة التنزيل	حالة الاستخدام الأساسية
‫llama.cpp / LM Studio (محليًا)	`{model-name}-qat-q4_0-gguf`	عملية نشر محلية بدون إعداد على وحدة المعالجة المركزية أو Apple Silicon أو وحدات معالجة الرسومات للمستهلكين
‫vLLM / SGLang	SERVER: `{model-name}-qat-w4a16-ct` MOBILE: `{model-name}-qat-mobile-ct`	الاستنتاج بمعدّل نقل بيانات عالٍ باستخدام أوزان 4 بت مع عمليات تفعيل 16 بت
فك الترميز القائم على التوقّع	MODEL: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	تشغيل نموذج أساسي إلى جانب نموذج مسودة مطابق له في إطار التوقّع المتعدّد الرموز المميّزة لتسريع عملية إنشاء الرموز المميّزة بشكل كبير يجب تقليل دقة النموذج.
تنسيقات أخرى	`{model-name}-qat-q4_0-unquantized`	أوزان غير مقلّلة من الدقة للتحويل إلى تنسيقات أخرى (مثل MLX)
النشر على الأجهزة الجوّالة (المحوّلات)	`{model-name}-qat-mobile-transformers`	أوزان الأجهزة الطرفية المحسّنة لحالات الاستخدام على الأجهزة الجوّالة تُستخدم هذه الأوزان كمرجع للتنسيقات الأخرى.

مجموعات التدريب مع مراعاة التقليل من الدقة الرسمية على Hugging Face

collections/google/gemma-4-qat-q4-0
- نقاط التحقق من التدريب مع مراعاة التقليل من الدقة غير المقلّلة من الدقة (-unquantized / -assistant): أوزان نصف الدقة مستخرَجة مباشرةً من مسار التدريب مع مراعاة التقليل من الدقة تُعدّ هذه الأوزان مثالية للتجميع المخصّص في المراحل النهائية أو البحث أو تشغيل فك الترميز القائم على التوقّع باستخدام نماذج المسودة المخصّصة للمساعد. تتوفّر هذه الأوزان لـ Gemma 4 E2B وE4B و12B و26B A4B و31B.
- GGUF (-gguf): نقاط تحقق متاحة للتوافق الفوري مع منظومة النماذج اللغوية الكبيرة المحلية المتكاملة تتوفّر هذه الأوزان لـ Gemma 4 E2B وE4B و12B و26B A4B و31B.
- الموتر المضغوط (-w4a16-ct): يتم تسلسلها تلقائيًا بتنسيق compressed-tensors العادي لتقديم المحتوى المحسّن على السحابة الإلكترونية بالتزامن مع عدد كبير من المستخدمين. تتوفّر هذه الأوزان لـ Gemma 4 E2B وE4B و12B و31B.
collections/google/gemma-4-qat-mobile
- المحسّنة للأجهزة الجوّالة (-mobile-transformers / -mobile-ct): تم إنشاؤها استنادًا إلى مخطط wNa8o8 مخصّص مصمّم خصيصًا لتلبية حدود الأجهزة الجوّالة. تستخدم هذه الأوزان طبقات فك ترميز مستهدَفة بدقة 2 بت، وذاكرات تخزين مؤقت لقيم المفتاح والقيمة محسّنة، وعمليات تفعيل ثابتة لزيادة توفير ذاكرة الوصول العشوائي على الجهاز إلى أقصى حد بدون إبطاء معالجات الأجهزة الطرفية. تتوفّر هذه الأوزان لـ Gemma 4 E2B وE4B.

يمكن أيضًا الوصول إلى جميع نقاط التحقق الرسمية من التدريب مع مراعاة التقليل من الدقة في Gemma 4 مباشرةً من Kaggle.

نماذج Gemma السابقة

يمكنك استخدام الأجيال السابقة من نماذج Gemma، والتي تتوفّر أيضًا من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن نماذج Gemma السابقة، يُرجى الاطّلاع على صفحات بطاقات النماذج التالية:

هل أنت جاهز لبدء إنشاء الأدوات؟ ابدأ باستخدام نماذج Gemma.