Gemma هي مجموعة من نماذج الذكاء الاصطناعي التوليدي، ويمكنك استخدامها في مجموعة متنوعة من مهام الإنشاء، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستنتاج. تتوفّر نماذج Gemma بأوزان مفتوحة و تسمح بالاستخدام التجاري المسؤول، ما يتيح لك ضبطها ونشرها في مشاريعك وتطبيقاتك الخاصة.
تتضمّن مجموعة نماذج Gemma 4 أربع بُنى أساسية مختلفة مصمّمة لتلبية متطلبات أجهزة معيّنة:
- الأحجام الصغيرة: نماذج مَعلمات فعّالة بسعة 2 مليار و4 مليارات مَعلمة مصمّمة للنشر على الأجهزة الجوّالة والأجهزة الطرفية والمتصفّحات (مثل Pixel وChrome)
- النماذج الكثيفة: نموذج كثيف قوي بسعة 31 مليار مَعلمة يربط بين الأداء على مستوى الخادم والتنفيذ المحلي
- Mixture-of-Experts: نموذج MoE عالي الكفاءة بسعة 26 مليار مَعلمة مصمّم لتقديم إنتاجية عالية واستدلال متقدّم.
- النماذج الموحّدة: نموذج بسعة 12 مليار مَعلمة بدون أداة ترميز مصمّم للمهام المتعدّدة الوسائط، ويستبدل أدوات ترميز الصور والفيديوهات بإسقاطات خطية مباشرة للإدخال
يمكنك تنزيل نماذج Gemma 4 من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن Gemma 4، يُرجى الاطّلاع على بطاقة النموذج. تتوفّر أيضًا الإصدارات السابقة من نماذج Gemma الأساسية للتنزيل. لمزيد من المعلومات، يُرجى الاطّلاع على نماذج Gemma السابقة.
الحصول على النموذج من Kaggle الحصول على النموذج من Hugging Face
الإمكانات
- الاستنتاج: تم تصميم جميع النماذج في المجموعة لتكون أدوات استنتاج عالية الكفاءة، مع أوضاع تفكير قابلة للإعداد.
- الوسائط المتعدّدة الموسّعة: تعالج النماذج النصوص، الصور مع إمكانية ضبط نسبة العرض إلى الارتفاع ودقة الوضوح (جميع النماذج)، الفيديوهات، و المقاطع الصوتية (تتوفّر بشكل أساسي في النماذج E2B وE4B و12B)
- قدرة استيعاب أكبر: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تدعم النماذج المتوسطة 256 ألف رمز مميّز.
- إمكانات محسّنة في الترميز والوكلاء: تحقّق النماذج تحسينات ملحوظة في مقاييس أداء الترميز، بالإضافة إلى إمكانية استدعاء الدوال المضمّنة، ما يتيح إنشاء وكلاء مستقلين عاليي الكفاءة.
- إمكانية استخدام طلبات النظام الأساسية: يقدّم Gemma 4 إمكانية استخدام دور النظام المضمّنة، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.
- التوقّع المتعدّد الرموز المميّزة: تتضمّن جميع نماذج Gemma 4 (E2B وE4B و12B و31B و26B A4B) نموذجًا مسودة مخصّصًا لفك الترميز القائم على التوقّع، ما يتيح إجراء استنتاج أسرع بكثير بدون فقدان الجودة.
أحجام المَعلمات والتقليل من الدقة
تتوفّر نماذج Gemma 4 بخمسة أحجام للمَعلمات: E2B وE4B و12B و31B و26B A4B. يمكن استخدام النماذج بدقتها التلقائية (16 بت) أو بدقة أقل باستخدام التقليل من الدقة. تمثّل الأحجام والدقة المختلفة مجموعة من الموازنات لتطبيق الذكاء الاصطناعي. تكون النماذج التي تحتوي على عدد أكبر من المَعلمات وعدد أكبر من البتات (دقة أعلى) أكثر كفاءة بشكل عام، ولكنها أكثر تكلفة من حيث دورات المعالجة وتكلفة الذاكرة واستهلاك الطاقة. تكون النماذج التي تحتوي على عدد أقل من المَعلمات وعدد أقل من البتات (دقة أقل) أقل كفاءة، ولكنها قد تكون كافية لمهمة الذكاء الاصطناعي.
متطلبات الذاكرة للاستنتاج في Gemma 4
يوضّح الجدول التالي متطلبات الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة الموتّرات لتشغيل الاستنتاج باستخدام كل حجم من إصدارات نماذج Gemma 4.
| المعلمات | BF16 (16 بت) | SFP8 (8 بت) | Q4_0 (4 بت) | الجهاز الجوّال | الجهاز الجوّال (النصوص فقط) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 غيغابايت | 5.7 غيغابايت | 2.9 غيغابايت | 1.1 غيغابايت | 0.84 غيغابايت |
| Gemma 4 E4B | 17.9 غيغابايت | 8.9 غيغابايت | 4.5 غيغابايت | 2.5 غيغابايت | 2.2 غيغابايت |
| Gemma 4 12B | 26.7 غيغابايت | 13.4 غيغابايت | 6.7 غيغابايت | - | - |
| Gemma 4 26B A4B | 57.7 غيغابايت | 28.8 غيغابايت | 14.4 غيغابايت | - | - |
| Gemma 4 31B | 69.9 غيغابايت | 34.9 غيغابايت | 17.5 غيغابايت | - | - |
الجدول 1. الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة الموتّرات المطلوبة لتحميل نماذج Gemma 4 استنادًا إلى عدد المَعلمات ومستوى التقليل من الدقة و% 20 من النفقات العامة لتحميل عناصر إضافية تستخدم إصدارات الأجهزة الجوّالة LiteRT-LM.
اعتبارات أساسية عند التخطيط للذاكرة
- البُنية الأساسية الفعّالة (E2B وE4B): يشير الحرف "E" إلى "المَعلمات الفعّالة". تتضمّن النماذج الأصغر حجمًا عمليات تضمين على مستوى الطبقة (PLE) لزيادة كفاءة المَعلمات إلى أقصى حد في عمليات النشر على الجهاز فقط. بدلاً من إضافة المزيد من الطبقات إلى النموذج، تمنح عمليات التضمين على مستوى الطبقة كل طبقة من طبقات فك الترميز عملية تضمين صغيرة خاصة بها لكل رمز مميّز. تكون جداول التضمين هذه كبيرة ولكنها تُستخدم فقط لعمليات البحث السريع، ولهذا السبب يكون إجمالي الذاكرة المطلوبة لتحميل الأوزان الثابتة أعلى مما يشير إليه عدد المَعلمات الفعّالة.
- بُنية MoE الأساسية (26B A4B): النموذج 26B هو نموذج "مزيج الخبراء". على الرغم من أنّه لا يفعّل سوى 4 مليارات مَعلمة لكل رمز مميّز أثناء الإنشاء، يجب تحميل جميع المَعلمات البالغ عددها 26 مليار مَعلمة في الذاكرة للحفاظ على سرعات التوجيه والاستنتاج العالية. لهذا السبب، يكون الحد الأدنى لمتطلبات الذاكرة أقرب بكثير إلى نموذج كثيف بسعة 26 مليار مَعلمة منه إلى نموذج بسعة 4 مليارات مَعلمة.
- الأوزان الأساسية فقط: لا تأخذ التقديرات في الجدول السابق في الاعتبار إلا الذاكرة المطلوبة لتحميل أوزان النموذج الثابتة. ولا تتضمّن ذاكرة الوصول العشوائي المرئية الإضافية اللازمة للبرامج الداعمة أو قدرة الاستيعاب.
- قدرة الاستيعاب (ذاكرة التخزين المؤقت لقيم المفتاح والقيمة): سيزداد استهلاك الذاكرة بشكل ديناميكي استنادًا إلى إجمالي عدد الرموز المميّزة في طلبك والاستجابة التي تم إنشاؤها. تتطلب قدرات الاستيعاب الأكبر ذاكرة وصول عشوائي مرئية أكبر بكثير بالإضافة إلى أوزان النموذج الأساسية.
- النفقات العامة للضبط: تكون متطلبات الذاكرة لـ ضبط نماذج Gemma أعلى بكثير من متطلبات الاستنتاج العادي. سيعتمد حجم النموذج الدقيق بشكل كبير على إطار التطوير وحجم الدُفعة وما إذا كنت تستخدم الضبط الكامل الدقة مقابل طريقة ضبط فعّالة للمَعلمات (PEFT) مثل Low-Rank Adaptation (LoRA).
التدريب مع مراعاة التقليل من الدقة (QAT)
بالنسبة إلى عمليات النشر التي تتطلب أقصى قدر من الكفاءة مع الحد الأدنى من التنازل عن الجودة، يقدّم Gemma نماذج التدريب مع مراعاة التقليل من الدقة (QAT) الرسمية.
على عكس التقليل من الدقة بعد التدريب (PTQ) العادي، الذي يضغط نموذجًا تم تدريبه بالكامل ويمكن أن يؤدي إلى تدهور الجودة، يدمج التدريب مع مراعاة التقليل من الدقة محاكاة التقليل من الدقة في عملية التدريب نفسها. يسمح ذلك للنموذج بتعلُّم كيفية التعويض عن فقدان الدقة، ما يؤدي إلى إنشاء نماذج أصغر حجمًا تؤدي وظائفها بشكل مطابق تقريبًا لخطوطها الأساسية عالية الدقة.
جدول التوجيه السريع
| محرّك النشر المستهدَف | لاحقة التنزيل | حالة الاستخدام الأساسية |
|---|---|---|
| llama.cpp / LM Studio (محلي) | {model-name}-qat-q4_0-gguf |
النشر المحلي بدون إعداد على وحدة المعالجة المركزية أو Apple Silicon أو وحدات معالجة الرسومات للمستهلكين |
| vLLM / SGLang | الخادم: {model-name}-qat-w4a16-ctالجهاز الجوّال: {model-name}-qat-mobile-ct |
الاستنتاج عالي الإنتاجية باستخدام أوزان 4 بت مع عمليات تفعيل 16 بت |
| فك الترميز القائم على التوقّع | النموذج: {model-name}-qat-q4_0-unquantizedالنموذج المسودة: {model-name}-qat-q4_0-unquantized-assistant |
تشغيل نموذج أساسي إلى جانب نموذج مسودة مطابق له في إطار التوقّع المتعدّد الرموز المميّزة لتسريع إنشاء الرموز المميّزة بشكل كبير يجب تقليل دقة النموذج. |
| تنسيقات أخرى | {model-name}-qat-q4_0-unquantized |
أوزان غير مقلّلة الدقة للتحويل إلى تنسيقات أخرى (مثل MLX) |
| النشر على الأجهزة الجوّالة (المحوّلات) | {model-name}-qat-mobile-transformers |
أوزان الأجهزة الطرفية المحسّنة لحالات الاستخدام على الأجهزة الجوّالة تُستخدم كمرجع للتنسيقات الأخرى. |
مجموعات التدريب مع مراعاة التقليل من الدقة الرسمية على Hugging Face
- collections/google/gemma-4-qat-q4-0
- نقاط التحقق من التدريب مع مراعاة التقليل من الدقة غير المقلّلة الدقة (
-unquantized/-assistant): أوزان نصف الدقة مستخرَجة مباشرةً من مسار التدريب مع مراعاة التقليل من الدقة تُعدّ هذه الأوزان مثالية للتحويل البرمجي المخصّص في المراحل النهائية أو البحث أو تشغيل فك الترميز القائم على التوقّع باستخدام نماذج المسودة المساعدة. تتوفّر لـ Gemma 4 E2B وE4B و12B و26B A4B و31B. - GGUF (
-gguf): نقاط تحقق متاحة للتوافق الفوري مع منظومة النماذج اللغوية الكبيرة المحلية تتوفّر لـ Gemma 4 E2B وE4B و12B و26B A4B و31B. - الموتر المضغوط (
-w4a16-ct): يتم تسلسلها بشكل أساسي في معيارcompressed-tensorsلتقديم خدمة سحابية محسّنة وعالية التزامن تتوفّر لـ Gemma 4 E2B وE4B و12B و31B.
- نقاط التحقق من التدريب مع مراعاة التقليل من الدقة غير المقلّلة الدقة (
- collections/google/gemma-4-qat-mobile
- المحسّنة للأجهزة الجوّالة (
-mobile-transformers/-mobile-ct): تم إنشاؤها استنادًا إلى مخططwNa8o8مخصّص مصمّم خصيصًا لمراعاة حدود الأجهزة الجوّالة. تستخدم طبقات فك ترميز مستهدَفة ثنائية البتات وذاكرات تخزين مؤقتة محسّنة لقيم المفتاح والقيمة وعمليات تفعيل ثابتة لزيادة عمليات توفير ذاكرة الوصول العشوائي على الجهاز فقط إلى أقصى حد بدون إبطاء معالجات الأجهزة الطرفية. تتوفّر لـ Gemma 4 E2B وE4B.
- المحسّنة للأجهزة الجوّالة (
يمكن أيضًا الوصول إلى جميع نقاط التحقق الرسمية من التدريب مع مراعاة التقليل من الدقة في Gemma 4 مباشرةً من Kaggle.
نماذج Gemma السابقة
يمكنك استخدام الأجيال السابقة من نماذج Gemma، والتي تتوفّر أيضًا من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن نماذج Gemma السابقة، يُرجى الاطّلاع على صفحات بطاقات النماذج التالية:
هل أنت جاهز لبدء إنشاء الأدوات؟ ابدأ باستخدام نماذج Gemma!