مرور کلی مدل DiffusionGemma

DiffusionGemma یک مدل باز آزمایشی است که انتشار متن، یک رویکرد فوق‌العاده سریع برای تولید متن، را بررسی می‌کند. DiffusionGemma که بر اساس معماری 26B (4B active) Mixture-of-Experts (MoE) Gemma 4 ساخته شده است، توکن‌ها را با استفاده از انتشار گسسته تولید می‌کند. این مدل با وزن‌های باز، چندوجهی است و ورودی‌های متن، تصویر و ویدیو را برای تولید خروجی متن مدیریت می‌کند.

DiffusionGemma که بر پایه MoE ساخته شده است، به گونه‌ای طراحی شده است که سرعت تولید (توکن در ثانیه) را بهبود بخشد و در عین حال در محیط‌های سخت‌افزاری مختلف قابل استفاده باشد. DiffusionGemma بر اساس پیشرفت‌های معماری و قابلیت‌های Gemma 4 ساخته شده و چندین ویژگی اصلی را معرفی می‌کند:

  • انتشار متن گسسته: از تولید سنتی توکن‌های سببی به نمونه‌گیری چند بوم بلوکی خودرگرسیونی تغییر جهت می‌دهد. این مدل با حذف نویز مکرر بلوک‌های توکن‌ها (یک "بوم") به صورت موازی، متن را تولید می‌کند تا سرعت رمزگشایی را به طرز چشمگیری افزایش دهد.
  • پردازش چندوجهی: ورودی‌های متن، تصویر (با پشتیبانی از نسبت ابعاد و وضوح متغیر) و ویدیو را به صورت بومی می‌پذیرد. (توجه: ورودی صدا پشتیبانی نمی‌شود).
  • معماری رمزگذار-رمزگشا: از یک رمزگذار خودهمبسته برای پردازش و ذخیره متن اعلان استفاده می‌کند، که با حذف نویز همراه است و توجه دو طرفه را بر روی بوم تولید اعمال می‌کند.
  • کارایی ترکیبی از متخصصان (MoE): از یک طراحی MoE پراکنده مبتنی بر نوع MoE 26B (4B فعال) بهره می‌برد و قابلیت‌های استدلال عمیق را با حداقل سربار ارائه می‌دهد. هنگامی که کوانتیزه می‌شود، در محدوده 18 گیگابایت VRAM پردازنده‌های گرافیکی مصرف‌کننده قرار می‌گیرد که برای اجرای محلی ایده‌آل است.
  • حالت تفکر: کانال‌های استدلال قابل تنظیم داخلی به مدل اجازه می‌دهند تا قبل از ارائه پاسخ نهایی، گام به گام فکر کند.

معاوضه با مدل‌های سنتی

در حالی که مدل‌های زبانی سنتی برای استقرارهای ابری در مقیاس بزرگ بسیار کارآمد هستند زیرا می‌توانند هزاران درخواست را دسته‌بندی کنند، اجرای آنها به صورت محلی برای یک کاربر، باعث می‌شود سخت‌افزار به طور کامل مورد استفاده قرار نگیرد. DiffusionGemma این مشکل را با تولید همزمان یک بلوک کامل ۲۵۶ توکنی به جای یک توکن در هر زمان حل می‌کند و عملکرد سخت‌افزار محلی را به حداکثر می‌رساند.

با این حال، این رویکرد صرفاً برای استفاده محلی با همزمانی کم و در مواجهه با مصرف‌کننده طراحی شده است؛ از آنجا که رمزگشایی موازی آن تحت بارهای کاری ابری با QPS بالا، بازده نزولی ارائه می‌دهد، مزیت توان عملیاتی در اندازه‌های دسته‌ای کم تا متوسط ​​روی یک شتاب‌دهنده واحد، قوی‌ترین است.

برای تأخیر و کیفیت بهینه، توصیه می‌کنیم از پارامترهای پیش‌فرض زیر برای تنظیمات نمونه‌برداری انتشار استفاده کنید:

پارامتر مقدار توصیه شده عملکرد منطق
حداکثر تعداد مراحل حذف نویز ۴۸ حد بالای تعداد مراحل حذف نویز در هر بوم. یک محدودیت ایمن برای تعداد مراحل حذف نویز. وقتی توقف تطبیقی ​​فعال باشد، حذف نویز در مراحل کمتری متوقف می‌شود، که معمولاً بسته به نوع کار ۱۲ تا ۱۶ مرحله است.
برنامه دما خطی ۰.۸ -> ۰.۴ برنامه مقیاس‌بندی دما که از بالا شروع می‌شود و به عنوان تابعی از مراحل حذف نویز، کاهش می‌یابد. دمای بالا (0.8) اکتشاف اولیه را تشویق می‌کند؛ دمای پایین (0.4) نشانه‌های نهایی را قفل می‌کند.
توقف زودهنگام تطبیقی آستانه آنتروپی: ۰.۰۰۵ اگر اجرا را زودتر متوقف کند
الف) میانگین آنتروپی مدل روی بوم کمتر از آستانه است، و
ب) اگر دو پیش‌بینی متوالی حذف نویز یکسان باقی بمانند.
دستورات ساده‌تر و وظایف ساختاریافته مانند کدنویسی به مراحل حذف نویز کمتری نیاز دارند و سرعت‌های پویای توکن در ثانیه را بر اساس پیچیدگی وظیفه امکان‌پذیر می‌کنند.
انتخاب توکن حد آنتروپی: ۰.۱ در هر مرحله، نمونه‌گیر، توکن‌های با کمترین آنتروپی را انتخاب می‌کند به طوری که مرز اطلاعات متقابل آنها زیر مرز آنتروپی باقی بماند. نمونه‌گیر، توکن‌های انتخاب نشده را به طور کامل دوباره نویز می‌کند. تضمین می‌کند که فقط توکن‌هایی که مدل در مورد آنها نسبتاً مطمئن است برای اصلاح بوم انتخاب شوند و سایر توکن‌ها در مراحل بعدی حذف نویز اصلاح شوند.

از Hugging Face بگیرید، از Kaggle بگیرید، از Vertex دسترسی پیدا کنید

به وزن‌های مدل آزمایشی (که تحت مجوز آپاچی ۲.۰ منتشر شده‌اند) دسترسی پیدا کنید و به شما امکان می‌دهد آن را در پروژه‌ها و برنامه‌های خود مستقر کنید.

درباره معماری DiffusionGemma بیشتر بدانید DiffusionGemma را امتحان کنید

تنظیم دقیق DiffusionGemma