نظرة عامة على نموذج DiffusionGemma

‫DiffusionGemma هو نموذج تجريبي مفتوح المصدر يستكشف انتشار النصوص، وهو أسلوب سريع جدًا لإنشاء النصوص. استنادًا إلى بنية Gemma 4 القائمة على نموذج Mixture-of-Experts (MoE) الذي يتضمّن 26 مليار مَعلمة (4 مليارات مَعلمة نشطة)، ينشئ نموذج DiffusionGemma رموزًا مميزة باستخدام الانتشار المنفصل. هذا النموذج مفتوح المصدر ومتعدد الوسائط، إذ يعالج النصوص والصور والفيديوهات لإنشاء مخرجات نصية.

تم تصميم DiffusionGemma، المستند إلى أساس MoE، لتحسين سرعة الإنشاء (الرموز المميزة في الثانية) مع إمكانية نشره على مختلف بيئات الأجهزة. يستند DiffusionGemma إلى التحسينات المعمارية وتحسينات القدرات التي تم إدخالها على Gemma 4، ويقدّم العديد من الميزات الأساسية:

  • Discrete Text Diffusion: يبتعد هذا النموذج عن إنشاء الرموز المميزة السببية التقليدية، ويتّبع أسلوب أخذ العيّنات المتعددة اللوحات ذات الانحدار التلقائي على مستوى الوحدات. ينشئ النموذج نصًا من خلال إزالة التشويش بشكل متكرر من مجموعات الرموز المميزة (لوحة) بالتوازي لزيادة سرعات فك الترميز بشكل كبير.
  • معالجة متعددة الوسائط: يقبل النموذج بشكل أساسي النصوص والصور (مع إمكانية تغيير نسبة العرض إلى الارتفاع والدقة) والفيديوهات كمدخلات (ملاحظة: إدخال المحتوى الصوتي غير متاح).
  • بنية الترميز وفك الترميز: تستخدم هذه البنية أداة ترميز ذات انحدار تلقائي لمعالجة سياق الطلب وتخزينه مؤقتًا، بالإضافة إلى إزالة التشويش التي تطبّق الانتباه الثنائي الاتجاه على لوحة إنشاء الصور.
  • كفاءة Mixture-of-Experts (MoE): تستفيد هذه السمة من تصميم MoE متفرّق يستند إلى إصدار MoE بسعة 26 مليار مَعلمة (4 مليارات مَعلمة نشطة)، ما يوفّر إمكانات استنتاجية متعمّقة مع الحد الأدنى من الحمل الزائد. وعندما يتم تحديد كميته، يكون ضمن حدود ذاكرة الوصول العشوائي المرئية (VRAM) البالغة 18 غيغابايت لوحدات معالجة الرسومات المخصّصة للمستهلكين، ما يجعله مثاليًا للتنفيذ المحلي.
  • وضع التفكير: تتيح قنوات الاستدلال القابلة للإعداد المضمّنة للنموذج التفكير خطوة بخطوة قبل تقديم الإجابة النهائية.

المفاضلة مع النماذج التقليدية

في حين أنّ نماذج اللغة التقليدية تتسم بكفاءة عالية في عمليات النشر على نطاق واسع على السحابة الإلكترونية لأنّها يمكنها معالجة آلاف الطلبات دفعة واحدة، فإنّ تشغيلها محليًا لمستخدم واحد يؤدي إلى عدم الاستفادة من الأجهزة بشكل كامل. تحلّ DiffusionGemma هذه المشكلة من خلال إنشاء حزمة كاملة من 256 رمزًا مميزًا في الوقت نفسه بدلاً من رمز مميز واحد في كل مرة، ما يزيد من أداء الأجهزة المحلية إلى أقصى حد.

ومع ذلك، يهدف هذا الأسلوب بشكل صارم إلى الاستخدام المحلي الموجَّه للمستهلكين وبمعدل تزامن منخفض، لأنّ فك الترميز المتوازي يحقّق نتائج متناقصة في أحمال العمل السحابية ذات معدل طلبات في الثانية العالي، وتكون ميزة سرعة معالجة البيانات في أعلى مستوياتها مع أحجام الدُفعات المنخفضة إلى المتوسطة على مسرَّع واحد.

للحصول على أفضل جودة وأقل وقت استجابة، ننصحك باستخدام المَعلمات التلقائية التالية في "إعدادات أخذ عينات الانتشار":

المَعلمة القيمة المقترَحة الوظيفة الأسباب
الحد الأقصى لعدد خطوات إزالة التشويش 48 الحدّ الأقصى لعدد خطوات إزالة التشويش لكل لوحة عرض حدّ آمن لعدد خطوات إزالة التشويش سيتم إيقاف عملية إزالة التشويش في عدد أقل من الخطوات عند تفعيل ميزة الإيقاف التكيّفي، وعادةً ما تتراوح بين 12 و16 خطوة حسب المهمة.
جدول ضبط درجة الحرارة تغيير خطي من 0.8 إلى 0.4 جدول تغيير درجة العشوائية الذي يبدأ بدرجة عالية وينخفض كدالة لخطوات إزالة التشويش تشجّع درجة الحرارة المرتفعة (0.8) على الاستكشاف المبكر، بينما تؤدي درجة الحرارة المنخفضة (0.4) إلى تثبيت الرموز المميزة النهائية.
الإيقاف المبكر التكيّفي حد الإنتروبيا: 0.005 يوقف التنفيذ مبكرًا إذا
أ) كان متوسط إنتروبيا النموذج على مستوى لوحة العرض أقل من الحدّ الأدنى، و
ب) إذا ظلّت تنبؤات مزيل التشويش المتتالية متطابقة.
تتطلّب الطلبات الأبسط والمهام المنظَّمة، مثل الرموز البرمجية، عددًا أقل من خطوات إزالة التشويش، ما يتيح سرعات ديناميكية للرموز المميزة في الثانية استنادًا إلى مدى تعقيد المهمة.
اختيار الرمز المميز حدّ الإنتروبيا: 0.1 في كل خطوة، يختار أداة أخذ العينات الرموز المميزة ذات القصور الأدنى بحيث يظل الحد الأقصى للمعلومات المتبادلة أقل من الحد الأقصى للقصور. يعيد أخذ العينات بالكامل تشويش الرموز المميزة غير المحدّدة. يضمن هذا الخيار اختيار الرموز المميزة التي يتأكّد النموذج منها نسبيًا لتحسين اللوحة، مع ترك الرموز المميزة الأخرى ليتم تحسينها في خطوات إزالة التشويش اللاحقة.

الحصول على النموذج على Hugging Face الحصول على النموذج على Kaggle الوصول إلى النموذج على Vertex

الوصول إلى القيم التقديرية للنموذج التجريبي (التي تم إصدارها بموجب ترخيص Apache 2.0)، ما يتيح لك نشره في مشاريعك وتطبيقاتك الخاصة

مزيد من المعلومات حول بنية DiffusionGemma تجربة DiffusionGemma

ضبط DiffusionGemma بدقة نشر DiffusionGemma