DiffusionGemma یک مدل باز آزمایشی است که انتشار متن، یک رویکرد فوقالعاده سریع برای تولید متن، را بررسی میکند. DiffusionGemma که بر اساس معماری 26B (4B active) Mixture-of-Experts (MoE) Gemma 4 ساخته شده است، توکنها را با استفاده از انتشار گسسته تولید میکند. این مدل با وزنهای باز، چندوجهی است و ورودیهای متن، تصویر و ویدیو را برای تولید خروجی متن مدیریت میکند.
DiffusionGemma که بر پایه MoE ساخته شده است، به گونهای طراحی شده است که سرعت تولید (توکن در ثانیه) را بهبود بخشد و در عین حال در محیطهای سختافزاری مختلف قابل استفاده باشد. DiffusionGemma بر اساس پیشرفتهای معماری و قابلیتهای Gemma 4 ساخته شده و چندین ویژگی اصلی را معرفی میکند:
- انتشار متن گسسته: از تولید سنتی توکنهای سببی به نمونهگیری چند بوم بلوکی خودرگرسیونی تغییر جهت میدهد. این مدل با حذف نویز مکرر بلوکهای توکنها (یک "بوم") به صورت موازی، متن را تولید میکند تا سرعت رمزگشایی را به طرز چشمگیری افزایش دهد.
- پردازش چندوجهی: ورودیهای متن، تصویر (با پشتیبانی از نسبت ابعاد و وضوح متغیر) و ویدیو را به صورت بومی میپذیرد. (توجه: ورودی صدا پشتیبانی نمیشود).
- معماری رمزگذار-رمزگشا: از یک رمزگذار خودهمبسته برای پردازش و ذخیره متن اعلان استفاده میکند، که با حذف نویز همراه است و توجه دو طرفه را بر روی بوم تولید اعمال میکند.
- کارایی ترکیبی از متخصصان (MoE): از یک طراحی MoE پراکنده مبتنی بر نوع MoE 26B (4B فعال) بهره میبرد و قابلیتهای استدلال عمیق را با حداقل سربار ارائه میدهد. هنگامی که کوانتیزه میشود، در محدوده 18 گیگابایت VRAM پردازندههای گرافیکی مصرفکننده قرار میگیرد که برای اجرای محلی ایدهآل است.
- حالت تفکر: کانالهای استدلال قابل تنظیم داخلی به مدل اجازه میدهند تا قبل از ارائه پاسخ نهایی، گام به گام فکر کند.
معاوضه با مدلهای سنتی
در حالی که مدلهای زبانی سنتی برای استقرارهای ابری در مقیاس بزرگ بسیار کارآمد هستند زیرا میتوانند هزاران درخواست را دستهبندی کنند، اجرای آنها به صورت محلی برای یک کاربر، باعث میشود سختافزار به طور کامل مورد استفاده قرار نگیرد. DiffusionGemma این مشکل را با تولید همزمان یک بلوک کامل ۲۵۶ توکنی به جای یک توکن در هر زمان حل میکند و عملکرد سختافزار محلی را به حداکثر میرساند.
با این حال، این رویکرد صرفاً برای استفاده محلی با همزمانی کم و در مواجهه با مصرفکننده طراحی شده است؛ از آنجا که رمزگشایی موازی آن تحت بارهای کاری ابری با QPS بالا، بازده نزولی ارائه میدهد، مزیت توان عملیاتی در اندازههای دستهای کم تا متوسط روی یک شتابدهنده واحد، قویترین است.
پیکربندی سرو توصیه شده
برای تأخیر و کیفیت بهینه، توصیه میکنیم از پارامترهای پیشفرض زیر برای تنظیمات نمونهبرداری انتشار استفاده کنید:
| پارامتر | مقدار توصیه شده | عملکرد | منطق |
|---|---|---|---|
| حداکثر تعداد مراحل حذف نویز | ۴۸ | حد بالای تعداد مراحل حذف نویز در هر بوم. | یک محدودیت ایمن برای تعداد مراحل حذف نویز. وقتی توقف تطبیقی فعال باشد، حذف نویز در مراحل کمتری متوقف میشود، که معمولاً بسته به نوع کار ۱۲ تا ۱۶ مرحله است. |
| برنامه دما | خطی ۰.۸ -> ۰.۴ | برنامه مقیاسبندی دما که از بالا شروع میشود و به عنوان تابعی از مراحل حذف نویز، کاهش مییابد. | دمای بالا (0.8) اکتشاف اولیه را تشویق میکند؛ دمای پایین (0.4) نشانههای نهایی را قفل میکند. |
| توقف زودهنگام تطبیقی | آستانه آنتروپی: ۰.۰۰۵ | اگر اجرا را زودتر متوقف کند الف) میانگین آنتروپی مدل روی بوم کمتر از آستانه است، و ب) اگر دو پیشبینی متوالی حذف نویز یکسان باقی بمانند. | دستورات سادهتر و وظایف ساختاریافته مانند کدنویسی به مراحل حذف نویز کمتری نیاز دارند و سرعتهای پویای توکن در ثانیه را بر اساس پیچیدگی وظیفه امکانپذیر میکنند. |
| انتخاب توکن | حد آنتروپی: ۰.۱ | در هر مرحله، نمونهگیر، توکنهای با کمترین آنتروپی را انتخاب میکند به طوری که مرز اطلاعات متقابل آنها زیر مرز آنتروپی باقی بماند. نمونهگیر، توکنهای انتخاب نشده را به طور کامل دوباره نویز میکند. | تضمین میکند که فقط توکنهایی که مدل در مورد آنها نسبتاً مطمئن است برای اصلاح بوم انتخاب شوند و سایر توکنها در مراحل بعدی حذف نویز اصلاح شوند. |
از Hugging Face بگیرید، از Kaggle بگیرید، از Vertex دسترسی پیدا کنید
به وزنهای مدل آزمایشی (که تحت مجوز آپاچی ۲.۰ منتشر شدهاند) دسترسی پیدا کنید و به شما امکان میدهد آن را در پروژهها و برنامههای خود مستقر کنید.
درباره معماری DiffusionGemma بیشتر بدانید DiffusionGemma را امتحان کنید