Gemma هي عائلة من نماذج الذكاء الاصطناعي التوليدي، ويمكنك استخدامها في مجموعة كبيرة من مهام الإنشاء، بما في ذلك الإجابة عن الأسئلة والتلخيص والاستنتاج. تتوفّر نماذج Gemma بأوزان مفتوحة المصدر و تسمح بالاستخدام التجاري المسؤول، ما يتيح لك ضبطها ونشرها في مشاريعك وتطبيقاتك الخاصة.
تتضمّن عائلة نماذج Gemma 4 ثلاث بُنى أساسية مختلفة مصمّمة لتلبية متطلبات أجهزة معيّنة:
- الأحجام الصغيرة: نماذج مَعلمات فعّالة بسعة 2 مليار و4 مليارات مَعلمة مصمّمة للنشر على الأجهزة الجوّالة الفائقة وأجهزة الحافة والمتصفحات (مثل Pixel وChrome)
- النماذج الكثيفة: نموذج كثيف قوي بسعة 31 مليار مَعلمة يسدّ الفجوة بين الأداء على مستوى الخادم والتنفيذ المحلي
- Mixture-of-Experts: نموذج خليط خبراء عالي الكفاءة بسعة 26 مليار مَعلمة مصمّم للاستدلال المتقدّم والإنتاجية العالية
يمكنك تنزيل نماذج Gemma 4 من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن Gemma 4، يُرجى الاطّلاع على بطاقة النموذج. تتوفّر أيضًا إصدارات سابقة من نماذج Gemma الأساسية للتنزيل. لمزيد من المعلومات، يُرجى الاطّلاع على نماذج Gemma السابقة.
الحصول على النموذج على Kaggle الحصول على النموذج على Hugging Face
الإمكانات
- الاستنتاج: تم تصميم جميع النماذج في العائلة لتكون نماذج استنتاج عالية الكفاءة، مع أوضاع تفكير قابلة للإعداد.
- الوسائط المتعددة الموسّعة: تعالج النصوص، الصور مع دعم نسبة العرض إلى الارتفاع والدقة المتغيّرة (جميع النماذج)، الفيديوهات، و الملفات الصوتية (المضمّنة في النماذج E2B و E4B).
- قدرة استيعاب أكبر: تتميّز النماذج الصغيرة بقدرة استيعاب تبلغ 128 ألف رمز مميّز، بينما تدعم النماذج المتوسطة 256 ألف رمز مميّز.
- إمكانات محسّنة في البرمجة والوكلاء: تحقّق النماذج تحسينات ملحوظة في مقاييس أداء البرمجة إلى جانب دعم ميزة استدعاء الدوال المضمّنة، ما يتيح إنشاء وكلاء مستقلين عاليي الكفاءة.
- دعم الطلبات الموجّهة للنظام بشكلٍ أساسي: يقدّم Gemma 4 دعمًا مضمّنًا لدور النظام، ما يتيح إجراء محادثات أكثر تنظيمًا وقابلة للتحكّم.
- التنبؤ بعدة رموز مميّزة: تتضمّن جميع نماذج Gemma 4 (E2B وE4B و31B و26B A4B) نموذجًا مسودة مخصّصًا لفك التشفير التخميني، ما يتيح استنتاجًا أسرع بكثير بدون فقدان الجودة.
أحجام المَعلمات والتقليل من الدقة
تتوفّر نماذج Gemma 4 بأربعة أحجام مَعلمات: E2B وE4B و31B و26B A4B. يمكن استخدام النماذج بدقتها التلقائية (16 بت) أو بدقة أقل باستخدام التقليل من الدقة. تمثّل الأحجام والدقات المختلفة مجموعة من الموازنات لتطبيق الذكاء الاصطناعي. تكون النماذج التي تحتوي على عدد أكبر من المَعلمات وعدد أكبر من البتات (دقة أعلى) أكثر كفاءة بشكلٍ عام، ولكنها أكثر تكلفة من حيث دورات المعالجة وتكلفة الذاكرة واستهلاك الطاقة. تكون النماذج التي تحتوي على عدد أقل من المَعلمات وعدد أقل من البتات (دقة أقل) أقل كفاءة، ولكنها قد تكون كافية لمهمة الذكاء الاصطناعي.
متطلبات الذاكرة للاستنتاج في Gemma 4
يوضّح الجدول التالي متطلبات الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة الموتّرات لتشغيل الاستنتاج باستخدام كل حجم من إصدارات نماذج Gemma 4.
| المعلمات | BF16 (16 بت) | SFP8 (8 بت) | Q4_0 (4 بت) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 غيغابايت | 4.6 غيغابايت | 3.2 غيغابايت |
| Gemma 4 E4B | 15 غيغابايت | 7.5 غيغابايت | 5 غيغابايت |
| Gemma 4 31B | 58.3 غيغابايت | 30.4 غيغابايت | 17.4 غيغابايت |
| Gemma 4 26B A4B | 48 غيغابايت | 25 غيغابايت | 15.6 غيغابايت |
الجدول 1. الذاكرة التقريبية لوحدة معالجة الرسومات أو وحدة معالجة الموتّرات المطلوبة لتحميل نماذج Gemma 4 استنادًا إلى عدد المَعلمات ومستوى التقليل من الدقة
اعتبارات أساسية لتخطيط الذاكرة
- البُنية الأساسية الفعّالة (E2B وE4B): يشير الحرف "E" إلى "المَعلمات الفعّالة". تتضمّن النماذج الأصغر حجمًا عمليات تضمين على مستوى الطبقة (PLE) لزيادة كفاءة المَعلمات إلى أقصى حد في عمليات النشر على الجهاز فقط. بدلاً من إضافة المزيد من الطبقات إلى النموذج، تمنح عمليات التضمين على مستوى الطبقة كل طبقة فك تشفير عملية تضمين صغيرة خاصة بها لكل رمز مميّز. تكون جداول التضمين هذه كبيرة ولكنها تُستخدم فقط لعمليات البحث السريع، ولهذا السبب يكون إجمالي الذاكرة المطلوبة لتحميل الأوزان الثابتة أعلى مما يشير إليه عدد المَعلمات الفعّالة.
- بُنية خليط الخبراء (26B A4B): النموذج 26B هو نموذج خليط خبراء. على الرغم من أنّه لا يفعّل سوى 4 مليارات مَعلمة لكل رمز مميّز أثناء الإنشاء، يجب تحميل جميع المَعلمات البالغ عددها 26 مليار مَعلمة في الذاكرة للحفاظ على سرعات التوجيه والاستنتاج السريعة. لهذا السبب، يكون الحد الأدنى لمتطلبات الذاكرة أقرب بكثير إلى نموذج كثيف بسعة 26 مليار مَعلمة منه إلى نموذج بسعة 4 مليارات مَعلمة.
- الأوزان الأساسية فقط: لا تأخذ التقديرات في الجدول السابق في الاعتبار إلا الذاكرة المطلوبة لتحميل أوزان النموذج الثابتة. ولا تتضمّن هذه التقديرات ذاكرة الوصول العشوائي المرئية الإضافية اللازمة للبرامج الداعمة أو قدرة الاستيعاب.
- قدرة الاستيعاب (ذاكرة التخزين المؤقت لقيم المفتاح والقيمة): سيزداد استهلاك الذاكرة بشكلٍ ديناميكي استنادًا إلى إجمالي عدد الرموز المميّزة في طلبك والردّ الذي تم إنشاؤه. تتطلب قدرات الاستيعاب الأكبر ذاكرة وصول عشوائي مرئية أكبر بكثير بالإضافة إلى أوزان النموذج الأساسية.
- العبء الإضافي للضبط: تكون متطلبات الذاكرة لـ ضبط نماذج Gemma أعلى بكثير من متطلبات الاستنتاج العادي. سيعتمد حجم الذاكرة الدقيق بشكلٍ كبير على إطار التطوير وحجم الدُفعة وما إذا كنت تستخدم الضبط بدقة كاملة أو طريقة ضبط فعّالة من حيث المَعلمات (PEFT) مثل Low-Rank Adaptation (LoRA).
نماذج Gemma السابقة
يمكنك استخدام الأجيال السابقة من نماذج Gemma، والتي تتوفّر أيضًا من Kaggle و Hugging Face. لمزيد من التفاصيل الفنية عن نماذج Gemma السابقة، يُرجى الاطّلاع على صفحات بطاقات النماذج التالية:
هل أنت جاهز لبدء إنشاء الأدوات؟ ابدأ باستخدام نماذج Gemma!