شرح حول الانتشار في إنشاء النصوص

لفهم DiffusionGemma، من المفيد التعرّف على القيود الأساسية للنماذج اللغوية العادية وكيفية اختلاف الانتشار المستند إلى النصوص.

مشكلة النماذج ذات الانحدار الذاتي

النماذج الانحدارية الذاتية مقارنةً بنماذج الانتشار

تكون العديد من النماذج اللغوية الكبيرة (LLM) تراجعية، ما يعني أنّها تنشئ النص بمعدل رمز واحد في كل مرة. ومع أنّ هذا الأسلوب فعّال في تقديم الخدمة للعديد من المستخدمين في الوقت نفسه من خلال التجميع، إلا أنّه يؤدي إلى حدوث اختناق في زمن الاستجابة بالنسبة إلى المستخدمين الفرديين.

أثناء مرحلة فك الترميز، تكون نماذج Transformer العادية محدودة الذاكرة بدلاً من أن تكون محدودة الحوسبة. يتم استغراق معظم وقت الإنشاء في تحميل أوزان النموذج من ذاكرة الجهاز إلى وحدات المعالجة، بدلاً من إجراء العمليات الحسابية الفعلية. وبما أنّه لا يلزم تحميل الأوزان إلا مرة واحدة لكل خطوة بغض النظر عن حجم الدفعة، يستغرق إنشاء الرمز المميز الوقت نفسه تقريبًا سواء كان لمستخدم واحد أو 256 مستخدمًا مجمّعين معًا.

نتيجةً لذلك، لا يستفيد المستخدم الفردي من أي ميزة متعلقة بوقت الاستجابة، إذ تبقى سعة الحوسبة للأجهزة غير مستخدَمة أثناء انتظار عمليات نقل البيانات من الذاكرة.

نظرة عامة على DiffusionGemma

تستفيد DiffusionGemma من وقت الحوسبة غير النشط هذا للمستخدم الفردي. بدلاً من إنشاء رمز مميّز واحد لـ 256 مستخدمًا منفصلاً، يتم إنشاء 256 رمزًا مميّزًا في وقت واحد لمستخدم واحد.

يبدأ النموذج بتسلسل فارغ من 256 رمزًا عشوائيًا، يُعرف باسم لوحة العرض، ثم يقيّم ويحسّن اللوحة بأكملها بشكل متكرر في الوقت نفسه. يؤدي ذلك إلى نقل النموذج من كونه مقيّدًا بالذاكرة إلى كونه مقيدًا بالحساب، ما يتيح له زيادة سرعات المعالجة بكفاءة مع زيادة قوة الحوسبة.

جانب التحوّل التلقائي للنص Text Diffusion
إنشاء الرموز المميزة رمز مميّز واحد في كل مرة لوحة عرض كاملة للرموز المميّزة في آنٍ واحد
الخطوات خطوة واحدة لكل رمز مميز خطوة واحدة لرموز مميزة متعددة
ترتيب الإنشاء من اليسار إلى اليمين جميع المواضع بالتوازي
نقطة البداية تسلسل فارغ الرموز العشوائية التي تم أخذ عيّنات منها من المفردات
تصحيح الأخطاء ثابتة، ولا يمكن تعديل الرموز المميزة السابقة ديناميكي، يمكن تعديل أي موضع على لوحة العرض
مؤثِّر سلبي في الأجهزة محدودية الذاكرة محدود بالحوسبة
التركيز على معدل النقل معدّل نقل بيانات عالٍ لعدة مستخدمين وقت استجابة فائق السرعة لمستخدم واحد

فهم آليات نشر النصوص

في عملية إنشاء الصور، تبدأ نماذج الانتشار بضوضاء غاوسية عشوائية بنسبة% 100، ثم تزيلها تدريجيًا (إزالة التشويش) على مدار خطوات متعددة استنادًا إلى طلب نصي. ويصعب ترجمة هذه المنطق إلى نص لأنّ الرموز المميزة للنص هي كيانات منفصلة، على عكس قيم البكسل المتواصلة.

تحقّق DiffusionGemma الانتشار المستند إلى النص من خلال سلسلة من المنهجيات المتخصصة:

1. Masked Diffusion

Masked Diffusion

اعتمد الانتشار المبكر للنصوص على الإخفاء، على غرار تدريب BERT. يتم استبدال الرموز المميزة العشوائية في تسلسل برمز مميز [MASK] (يمثّل التشويش). أثناء عملية الانتشار العكسي، يتوقّع النموذج الرمز المميز الصحيح خلف القناع، ويستبدل الرموز المميزة عندما تتجاوز الثقة حدًا معيّنًا.

ومع ذلك، تعاني عملية الانتشار المقنّع من عدم المرونة، فبمجرد استبدال رمز [MASK] بكلمة، يتم تثبيتها. ولا يمكن تصحيحها في الخطوات اللاحقة إذا تغيّر السياق المحيط بها.

2. Uniform State Diffusion

Uniform State Diffusion

لحلّ القيود المفروضة على التمويه، تستخدم DiffusionGemma الانتشار المنتظم للحالة. بدلاً من استخدام رمز مميز [MASK] صريح، يتم إدخال التشويش من خلال استبدال الكلمات الأصلية برموز مميزة عشوائية بالكامل من المفردات.

أثناء عملية إزالة التشويش، يحلّل النموذج اللوحة بأكملها لتحديد الرموز المميزة التي تمثّل تشويشًا سياقيًا، ثم يعدّلها. وإذا كان الرمز المميز صحيحًا، يحتفظ باحتمالية عالية. وإذا انخفضت احتمالية الرمز المميز إلى ما دون الحد الأدنى بسبب ظهور سياق جديد في الخطوات اللاحقة، تتم إعادة تشويشه باستخدام رمز مميز عشوائي جديد. تتيح هذه الدورة التصحيح المستمر للأخطاء وتحسين اللوحة بشكل متوازٍ.

البنية: الملء المسبق التدريجي وإزالة التشويش

Block Autoregressive Denoising

تنفّذ DiffusionGemma عملية نشر الحالة الموحّدة بكفاءة من خلال التبديل بين التعبئة المسبقة التزايدية وإزالة التشويش. لا يتم استخدام نموذج Gemma 4 26B A4B بشكل أصلي، بل يتم ضبطه بدقة لدعم المهام المختلفة لإزالة التشويش والترميز. وبدلاً من استخدام نماذج منفصلة، يتم التبديل ديناميكيًا بين وضعين باستخدام بنية أساسية واحدة:

  • الملء المسبق / الملء المسبق التدريجي (السببي): يستخدم هذا النوع الانتباه السببي لاستيعاب سياق الطلب والكتابة إلى ذاكرة التخزين المؤقت لمفاتيح القيمة. يتم تنفيذ هذه العملية مرة واحدة لملء السياق الأوّلي مسبقًا، ثم مرة واحدة لكل كتلة لإلحاق كل لوحة نهائية تتضمّن 256 رمزًا مميّزًا بذاكرة التخزين المؤقت لمفتاح القيمة قبل الانتقال إلى إزالة التشويش من اللوحة التالية.
  • إزالة التشويش (ثنائية الاتجاه): تستخدم هذه الطريقة الانتباه الثنائي الاتجاه لإزالة التشويش من اللوحة بشكل متكرّر. يمكن لرموز طلب البحث في أي موضع على لوحة العرض أن تتفاعل مع جميع رموز لوحة العرض الأخرى (بالإضافة إلى ذاكرة التخزين المؤقت KV)، ما يتيح للنموذج معالجة السياق بشكل ثنائي الاتجاه.

أُطر الاستدلال المتقدّمة

لتحويل لوحة من ضوضاء عشوائية إلى نص نهائي، تستخدم DiffusionGemma مجموعة من أنظمة فك الترميز الأساسية:

التكييف الذاتي

أثناء الاستدلال، يحتفظ برنامج الترميز (المعروف أيضًا باسم برنامج إزالة التشويش) بحالته السابقة. بعد إكمال خطوة إزالة التشويش، يضرب النموذج مصفوفة التوزيع الاحتمالي التي تم إنشاؤها في جدول تضمين الرموز المميزة. وينتج عن ذلك تمثيل متّجهي مترجَم يتضمّن معلومات عن التوقّعات السابقة ومقاييس الثقة، ويتم تمريره مباشرةً إلى الخطوة التالية.

أخذ عيّنات من لوحات عرض متعدّدة (انتشار الحظر)

بما أنّ لوحة العرض الواحدة ثابتة عند 256 رمزًا مميزًا، تربط DiffusionGemma بين الانتشار والانحدار التلقائي لإنشاء نص طويل. وتنفّذ دورات الانتشار لإنشاء مجموعة كاملة من 256 رمزًا مميزًا، وتلحق هذه المجموعة المكتملة بسياق الطلب، وتعدّل ذاكرة التخزين المؤقت لقيم المفاتيح (KV) الخاصة ببرنامج الترميز، وتبدأ دورة انتشار جديدة للوحة العرض تتضمّن 256 رمزًا مميزًا.

ملخّص

تُنشئ نماذج اللغة التراجعية الذاتية العادية نصًا بالتسلسل (رمز مميز واحد في كل مرة)، ما يجعلها محدودة الذاكرة ويؤدي إلى حدوث اختناق في زمن الاستجابة للمستخدمين الفرديين. تحلّ DiffusionGemma هذه المشكلة من خلال الانتقال إلى نموذج محدود الحوسبة ينشئ "لوحة" كاملة من 256 رمزًا مميزًا في الوقت نفسه.

باستخدام الانتشار المنتظم للحالة، يستبدل النموذج النص بضوضاء عشوائية من المفردات، ويحسّن اللوحة القماشية بأكملها بشكل متكرر ومتوازٍ. ويستخدم النموذج نسخة معدَّلة من Gemma 4 26B A4B لدعم المهام المختلفة المتعلقة بإزالة الضوضاء والترميز. وتسمح أُطر العمل المتقدّمة، مثل التكييف الذاتي وأخذ عينات من كتل اللوحات القماشية المتعددة، للنموذج بتصحيح الأخطاء ديناميكيًا، والتعامل مع إنشاء المحتوى الطويل، وتحقيق زمن انتقال منخفض للغاية للمستخدم الفردي.