Gemma هي عائلة من نماذج الذكاء الاصطناعي التوليدي، ويمكنك استخدامها في مجموعة متنوعة من مهام الإنشاء، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستدلال. تتوفّر نماذج Gemma مع أوزان مفتوحة وتسمح بالاستخدام التجاري المسؤول، ما يتيح لك ضبطها ونشرها في مشاريعك وتطبيقاتك.
تتضمّن عائلة نماذج Gemma 4 ثلاث بُنى أساسية مختلفة مصمَّمة لتلبية متطلبات أجهزة معيّنة:
- الأحجام الصغيرة: نماذج مَعلمات فعّالة بحجم 2B و4B مصمَّمة للنشر على الأجهزة الفائقة الصغر وعلى الأجهزة الطرفية وفي المتصفّحات (مثل Pixel وChrome).
- الكثيف: نموذج كثيف قوي يتضمّن 31 مليار مَعلمة ويسدّ الفجوة بين الأداء على مستوى الخادم والتنفيذ المحلي.
- Mixture-of-Experts: هو نموذج MoE عالي الكفاءة بسعة 26 مليار مَعلمة مصمَّم لتحقيق إنتاجية عالية واستدلال متقدّم.
يمكنك تنزيل نماذج Gemma 4 من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية حول Gemma 4، يُرجى الاطّلاع على بطاقة النموذج. تتوفّر أيضًا إصدارات سابقة من نماذج Gemma الأساسية للتنزيل. لمزيد من المعلومات، يُرجى الاطّلاع على نماذج Gemma السابقة.
الحصول على مجموعة البيانات على Kaggle الحصول على مجموعة البيانات على Hugging Face
الإمكانات
- الاستدلال: تم تصميم جميع النماذج في العائلة لتكون قادرة على الاستدلال بشكل كبير، مع أوضاع تفكير قابلة للضبط.
- الوسائط المتعددة الموسّعة: تعالج النصوص والصور بنسبة عرض إلى ارتفاع متغيرة ودقة متوافقة (جميع الطُرز) والفيديوهات والملفات الصوتية (المضمّنة في الطرازَين E2B وE4B).
- زيادة قدرة الاستيعاب: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تتيح النماذج المتوسطة 256 ألف رمز مميّز.
- إمكانات محسّنة في الترميز والوكلاء: تحقّق هذه الإمكانات تحسينات ملحوظة في معايير الترميز، بالإضافة إلى دعم مدمج لاستدعاء الدوال، ما يتيح إنشاء وكلاء مستقلين يتمتعون بقدرات عالية.
- التوافق مع طلبات النظام الأصلية: يتيح الإصدار 4 من Gemma إمكانية استخدام دور النظام المضمّن، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.
أحجام المَعلمات والتقسيم إلى فئات
تتوفّر نماذج Gemma 4 بأربعة أحجام مَعلمات: E2B وE4B و31B و26B A4B. يمكن استخدام النماذج بدقتها التلقائية (16 بت) أو بدقة أقل باستخدام التكميم. تمثّل الأحجام والدقّات المختلفة مجموعة من المفاضلات لتطبيق الذكاء الاصطناعي. تكون النماذج التي تتضمّن عددًا أكبر من المَعلمات وعددًا أكبر من البتات (دقة أعلى) أكثر فعالية بشكل عام، ولكنها تكون أعلى تكلفة من حيث دورات المعالجة وتكلفة الذاكرة واستهلاك الطاقة. تتضمّن النماذج التي تتضمّن عددًا أقل من المَعلمات وعددًا أقل من البتات (دقة أقل) إمكانات أقل، ولكنها قد تكون كافية لمهمة الذكاء الاصطناعي التي تريد تنفيذها.
متطلبات ذاكرة الاستدلال في Gemma 4
يوضّح الجدول التالي متطلبات ذاكرة وحدة معالجة الرسومات (GPU) أو وحدة معالجة Tensor (TPU) التقريبية لتشغيل الاستدلال مع كل حجم من أحجام إصدارات نموذج Gemma 4.
| المعلمات | BF16 (16 بت) | SFP8 (8 بت) | Q4_0 (4 بت) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 غيغابايت | 4.6 غيغابايت | 3.2 غيغابايت |
| Gemma 4 E4B | 15 غيغابايت | 7.5 غيغابايت | 5 غيغابايت |
| Gemma 4 31B | 58.3 غيغابايت | 30.4 غيغابايت | 17.4 غيغابايت |
| Gemma 4 26B A4B | 48 غيغابايت | 25 غيغابايت | 15.6 غيغابايت |
الجدول 1. الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة الموتّرات المطلوبة لتحميل نماذج Gemma 4 استنادًا إلى عدد المَعلمات ومستوى التكميم
اعتبارات أساسية لتخطيط الذاكرة
- البنية الفعّالة (E2B وE4B): يشير الحرف "E" إلى المَعلمات "الفعّالة". تتضمّن النماذج الأصغر حجمًا ميزة "التضمينات على مستوى كل طبقة" (PLE) بهدف زيادة كفاءة المَعلمات في عمليات النشر على الجهاز فقط. بدلاً من إضافة المزيد من الطبقات إلى النموذج، تمنح PLE كل طبقة من طبقات فك الترميز تضمينًا صغيرًا خاصًا بها لكل رمز مميز. تكون جداول التضمين هذه كبيرة ولكن يتم استخدامها فقط لعمليات البحث السريع، ولهذا السبب يكون إجمالي الذاكرة المطلوبة لتحميل الأوزان الثابتة أعلى مما يشير إليه عدد المَعلمات الفعّالة.
- بنية MoE (26B A4B): 26B هو نموذج Mixture of Experts. مع أنّ النموذج يفعّل 4 مليارات مَعلمة فقط لكل رمز مميّز أثناء عملية الإنشاء، يجب تحميل جميع المَعلمات البالغ عددها 26 مليارًا في الذاكرة للحفاظ على سرعة التوجيه والاستدلال. لهذا السبب، فإنّ الحد الأدنى لمتطلبات الذاكرة الأساسية أقرب بكثير إلى نموذج كثيف يضم 26 مليار مَعلمة مقارنةً بنموذج يضم 4 مليارات مَعلمة.
- الأوزان الأساسية فقط: إنّ التقديرات الواردة في الجدول السابق لا تأخذ في الاعتبار إلا الذاكرة المطلوبة لتحميل أوزان النموذج الثابتة. ولا تتضمّن هذه القيم مقدار ذاكرة الوصول العشوائي المرئية الإضافية اللازمة لتشغيل البرامج أو قدرة استيعاب.
- نافذة السياق (ذاكرة التخزين المؤقت KV): سيزداد استهلاك الذاكرة بشكل ديناميكي استنادًا إلى إجمالي عدد الرموز المميزة في طلبك والاستجابة التي تم إنشاؤها. تتطلّب قدرات الاستيعاب الأكبر مقدارًا أكبر بكثير من ذاكرة الوصول العشوائي المرئية (VRAM) بالإضافة إلى أوزان النموذج الأساسي.
- تكلفة الضبط الدقيق: متطلبات الذاكرة لعملية الضبط الدقيق لنماذج Gemma أعلى بكثير من متطلبات الاستدلال العادي. يعتمد الحجم الدقيق للنموذج بشكل كبير على إطار عمل التطوير وحجم الدفعة وما إذا كنت تستخدم الضبط الدقيق الكامل الدقة أو طريقة الضبط الدقيق الفعّال من حيث المَعلمات (PEFT) مثل Low-Rank Adaptation (LoRA).
نماذج Gemma السابقة
يمكنك استخدام الأجيال السابقة من نماذج Gemma المتوفّرة أيضًا على Kaggle وHugging Face. للحصول على مزيد من التفاصيل الفنية حول نماذج Gemma السابقة، يُرجى الاطّلاع على صفحات بطاقات النماذج التالية:
- بطاقة نموذج Gemma 3
- بطاقة نموذج Gemma 2
- Gemma 1 بطاقة النموذج
هل أنت مستعد لبدء إنشاء الأدوات؟ ابدأ باستخدام نماذج Gemma