کارت مدل DiffusionGemma

چهره در آغوش گرفته | گیت‌هاب | وبلاگ راه‌اندازی | مستندات
مجوز : آپاچی ۲.۰ | نویسندگان : گوگل دیپ‌مایند

DiffusionGemma یک مدل مولد است که توسط Google DeepMind ساخته شده است. DiffusionGemma که بر اساس معماری 26B A4B Mixture-of-Experts (MoE) Gemma 4 ساخته شده است، توکن‌ها را با استفاده از انتشار گسسته تولید می‌کند. این مدل با وزن‌های باز، چندوجهی است و ورودی‌های متن، تصویر و ویدیو را برای تولید خروجی متن مدیریت می‌کند.

DiffusionGemma که بر پایه MoE ساخته شده است، به گونه‌ای طراحی شده است که سرعت تولید (توکن در ثانیه) را بهبود بخشد و در عین حال در محیط‌های سخت‌افزاری مختلف قابل استفاده باشد. DiffusionGemma بر اساس پیشرفت‌های معماری و قابلیت‌های Gemma 4 ساخته شده و چندین ویژگی اصلی را معرفی می‌کند:

  • انتشار متن گسسته - از خودرگرسیون توکن به توکن به نمونه‌گیری چند بوم خودرگرسیون بلوکی تغییر می‌کند. این روش با حذف نویز تکراری بلوک‌های توکن‌ها (یک «بوم») به صورت موازی، متن تولید می‌کند و سرعت رمزگشایی را به طور قابل توجهی افزایش می‌دهد.
  • پردازش ورودی چندوجهی - ورودی‌های متن، تصویر (با پشتیبانی از نسبت ابعاد و وضوح متغیر) و ویدیو را به صورت درهم‌تنیده پردازش می‌کند تا خروجی‌های متنی تولید کند.
  • معماری رمزگذار-رمزگشا - از یک رمزگذار خودهمبسته برای پردازش و ذخیره متن اعلان استفاده می‌کند، که با یک رمزگشا که توجه دو طرفه را بر روی بوم تولید اعمال می‌کند، جفت شده است.
  • کارایی ترکیبی از متخصصان (MoE) - از یک طراحی MoE پراکنده (۸ متخصص فعال از مجموع ۱۲۸ متخصص) بهره می‌برد تا قابلیت‌های استدلال قوی را ارائه دهد و در عین حال، فضای حافظه کمی را برای اجرای محلی مناسب نگه دارد.
  • حالت تفکر (استدلال) - به عنوان یک استدلال‌کننده بسیار توانمند، با حالت‌های تفکر قابل تنظیم طراحی شده است.
  • بهینه‌سازی شده برای استنتاج در اندازه دسته کوچک - به طور خاص برای تولید با تأخیر کم و سرعت بالا در یک شتاب‌دهنده توانمند مهندسی شده است.
  • پشتیبانی بومی سیستم - همانند Gemma 4، از به‌روزرسانی نقش system پشتیبانی می‌کند و مکالمات ساختاریافته‌تر و قابل کنترل‌تری را امکان‌پذیر می‌سازد.

نمای کلی مدل

DiffusionGemma برای کاهش تنگناهای متوالی مدل‌های زبان سببی استاندارد مهندسی شده است. این نرم‌افزار از یک معماری رمزگذار-رمزگشا استفاده می‌کند که به‌طور خاص برای سرعت استنتاج بهینه شده است.

رمزگذار با ظرفیت پیش از پر کردن عمل می‌کند، اعلان اولیه را پردازش کرده و حافظه پنهان KV را تولید می‌کند. سپس رمزگشا از توجه دو طرفه برای پردازش یک بلوک ورودی (یک «بوم») از توکن‌ها استفاده می‌کند و از طریق توجه متقابل به زمینه ذخیره شده دسترسی پیدا می‌کند.

در طول استنتاج، DiffusionGemma از نمونه‌گیری چند بوم (multi-canvas sampling) بهره می‌برد. به جای تولید یک توکن در هر زمان، مدل به صورت تکراری یک بلوک کامل از توکن‌ها را با استفاده از یک نمونه‌گیر انتشار نویززدایی می‌کند. هنگامی که یک بوم به طور کامل نویززدایی شد، توسط رمزگذار پردازش شده و به حافظه نهان KV اضافه می‌شود، پس از آن مدل بوم بعدی را تولید می‌کند. این رویکرد خودرگرسیونی بلوکی، تولید متن را با سرعت بالاتر تسهیل می‌کند.

دیفیوژن‌جما

| مجموع پارامترها | ۲۵.۲B | | پارامترهای فعال | ۳.۸B | | لایه‌ها | ۳۰ | | پنجره کشویی | ۱۰۲۴ توکن | | طول متن | تا ۲۵۶ هزار توکن | | طول بوم | ۲۵۶ | | اندازه واژگان | ۲۶۲ هزار | | تعداد متخصصان | ۸ فعال / ۱۲۸ کل و ۱ اشتراک‌گذاری شده | | روش‌های پشتیبانی شده | متن، تصویر | | پارامترهای رمزگذار بینایی | ~۵۵۰M |

نتایج بنچمارک

این مدل‌ها در برابر مجموعه‌ای بزرگ از مجموعه داده‌ها و معیارهای مختلف ارزیابی شدند تا جنبه‌های مختلف تولید متن را پوشش دهند. نتایج ارزیابی مشخص شده در جدول برای مدل‌های تنظیم‌شده با دستورالعمل، با نمونه‌گیر توصیه‌شده‌ی Entropy Bound (EB) (به بهترین شیوه‌ها در زیر مراجعه کنید) هستند.

معیار دیفیوژن جما 26B A4B جما ۴ ۲۶ب A4ب
MMLU Pro ۷۷.۶٪ ۸۲.۶٪
AIME 2026 بدون ابزار ۶۹.۱٪ ۸۸.۳٪
لایو کد بنچ نسخه ۶ ۶۹.۱٪ ۷۷.۱٪
کدفورسز ELO ۱۴۲۹ ۱۷۱۸
الماس GPQA ۷۳.۲٪ ۸۲.۳٪
Tau2 (میانگین بالای ۳) ۵۶.۲٪ ۶۸.۲٪
HLE بدون ابزار ۱۱.۰٪ ۸.۷٪
HLE با جستجو ۱۱.۹٪ ۱۷.۲٪
بیگ بنچ فوق العاده سخت ۴۷.۶٪ ۶۴.۸٪
MMMLU ۸۱.۵٪ ۸۶.۳٪
چشم انداز
MMMU پرو ۵۴.۳٪ ۷۳.۸٪
OmniDocBench 1.5 (میانگین فاصله ویرایش، هر چه کمتر بهتر) ۰.۳۱۹ ۰.۱۴۹
MATH-Vision ۷۰.۵٪ ۸۲.۴٪
MedXPertQA MM ۴۹.۰٪ ۵۸.۱٪
متن طولانی
سوزن MRCR v2 8، 128k (میانگین) ۳۲.۰٪ ۴۴.۱٪

قابلیت‌های اصلی

DiffusionGemma طیف گسترده‌ای از وظایف را در حوزه متن و تصویر انجام می‌دهد. قابلیت‌های کلیدی آن عبارتند از:

  • تولید پرسرعت - نویززدایی موازی ۲۵۶ توکن از طریق نمونه‌برداری انتشاری، با تولید ۱۵ تا ۲۰ توکن در هر عبور رو به جلو، به تأخیر کم دست می‌یابد و سرعت تولید به ازای هر کاربر را در تنظیمات اندازه دسته کم (H100، FP8) به بیش از ۱۱۰۰ توکن در ثانیه می‌رساند.
  • محاسبه زمان استنتاج تطبیقی ​​- دستورات ساده‌تر و وظایف ساختاریافته مانند کدنویسی به مراحل حذف نویز کمتری نیاز دارند و سرعت‌های پویای توکن در ثانیه را بر اساس پیچیدگی وظیفه امکان‌پذیر می‌کنند.
  • تفکر - حالت استدلال داخلی که به مدل اجازه می‌دهد قبل از پاسخ دادن، گام به گام فکر کند.
  • متن طولانی - پنجره‌های متن با حداکثر ۲۵۶ هزار توکن.
  • درک تصویر - تشخیص اشیاء، تجزیه سند/PDF، درک صفحه نمایش و رابط کاربری، درک نمودار، OCR (شامل چندزبانه)، تشخیص دستخط و اشاره‌گر. تصاویر را می‌توان با نسبت‌های ابعاد و وضوح متغیر پردازش کرد.
  • درک ویدیو - با پردازش توالی فریم‌ها، محتوای ویدیو را تجزیه و تحلیل و توصیف می‌کند.
  • ورودی چندوجهی درهم‌تنیده - تصاویر، ویدیو و متن را در یک درخواست واحد برای استدلال‌های پیچیده ترکیب کنید.
  • فراخوانی تابع - پشتیبانی بومی برای استفاده ساختاریافته از ابزار، که گردش‌های کاری عامل‌محور را فعال می‌کند.
  • کدنویسی و استدلال - قابلیت تولید کد، تکمیل آن و استدلال منطقی گام به گام.
  • چندزبانه - پشتیبانی پیش‌فرض از بیش از ۳۵ زبان، از پیش آموزش‌دیده روی بیش از ۱۴۰ زبان.

بهترین شیوه‌ها

برای بهترین عملکرد، از این تنظیمات و بهترین شیوه‌ها استفاده کنید:

۱. تنظیمات نمونه‌برداری انتشاری

از پیکربندی نمونه‌گیری استاندارد زیر در تمام موارد استفاده استفاده کنید:

  • روش: نمونه‌برداری انتشار با نویززدایی محدود به آنتروپی و توقف تطبیقی.
  • پیکربندی نمونه‌برداری:
    • حداکثر تعداد مراحل حذف نویز = ۴۸
    • جدول دما (برای شکل‌دهی لوجیت): کاهش خطی از ۰.۸ → ۰.۴
    • انتخاب نشانه: در هر مرحله، نمونه‌گیر، نشانه‌ها با کمترین آنتروپی را انتخاب می‌کند به طوری که کران اطلاعات متقابل آنها کمتر از کران آنتروپی = 0.1 باقی بماند.
    • نویزگیری مجدد توکن: نمونه‌گیر، توکن‌های انتخاب نشده را به طور کامل نویزگیری مجدد می‌کند.
  • توقف تطبیقی: نمونه‌برداری زودتر از موعد خاتمه می‌یابد اگر و تنها اگر هر دو شرط زیر به طور همزمان برقرار باشند:
    • پیش‌بینی‌های مطمئن: میانگین آنتروپی مدل روی بوم، پایین‌تر از آستانه آنتروپی = 0.005 است.
    • پیش‌بینی‌های پایدار: پیش‌بینی‌های توکن با بالاترین احتمال در دو مرحله متوالی حذف نویز یکسان باقی می‌مانند.

۲. پیکربندی حالت تفکر

مشابه مدل‌های Gemma 4، ما از نقش‌های استاندارد system ، assistant و user استفاده می‌کنیم. برای مدیریت صحیح فرآیند تفکر، از توکن‌های کنترلی زیر استفاده کنید:

  • فعال کردن تفکر: تفکر با قرار دادن توکن <|think|> در ابتدای اعلان سیستم فعال می‌شود. برای غیرفعال کردن تفکر، توکن را حذف کنید (توجه داشته باشید که ممکن است هنوز یک کانال تفکر خالی منتشر شود).
  • تولید استاندارد: وقتی تفکر فعال باشد، مدل استدلال درونی خود و به دنبال آن پاسخ نهایی را با استفاده از این ساختار ارائه می‌دهد: <|channel>thought\n [Internal reasoning] <channel|> .
  • رفتار تفکر غیرفعال: اگر تفکر غیرفعال باشد، مدل همچنان برچسب‌ها را تولید می‌کند اما با یک بلوک فکری خالی: <|channel>thought\n<channel|> [پاسخ نهایی] .

توجه داشته باشید که بسیاری از کتابخانه‌ها مانند transformers پیچیدگی‌های قالب چت را برای شما مدیریت می‌کنند.

۳. مکالمات چند نوبتی

  • عدم وجود محتوای تفکر در تاریخچه: در مکالمات چند نوبتی، خروجی مدل تاریخی فقط باید شامل پاسخ نهایی باشد. افکار نوبت‌های مدل قبلی نباید قبل از شروع نوبت بعدی کاربر اضافه شوند.

۴. ترتیب روش

  • برای عملکرد بهینه با ورودی‌های چندوجهی، محتوای تصویر را قبل از متن در اعلان خود قرار دهید.

۵. وضوح تصویر متغیر

گذشته از نسبت‌های ابعاد متغیر، DiffusionGemma از طریق یک بودجه توکن بصری قابل تنظیم، از وضوح تصویر متغیر پشتیبانی می‌کند که تعداد توکن‌های مورد استفاده برای نمایش یک تصویر را کنترل می‌کند. بودجه توکن بالاتر، جزئیات بصری بیشتری را با هزینه محاسبات اضافی حفظ می‌کند، در حالی که بودجه پایین‌تر، استنتاج سریع‌تر را برای وظایفی که نیازی به درک دقیق ندارند، امکان‌پذیر می‌سازد.

  • بودجه‌های توکن پشتیبانی‌شده عبارتند از: ۷۰ ، ۱۴۰ ، ۲۸۰ ، ۵۶۰ و ۱۱۲۰ .
    • از بودجه‌های پایین‌تر برای طبقه‌بندی، زیرنویس‌گذاری یا درک ویدیو استفاده کنید، جایی که استنتاج و پردازش سریع‌تر فریم‌های زیاد بر جزئیات دقیق‌تر غلبه می‌کند.
    • برای کارهایی مانند OCR، تجزیه اسناد یا خواندن متن‌های کوچک، از بودجه‌های بالاتر استفاده کنید.

۶. طول ویدیو

همه مدل‌ها از ورودی‌های تصویر پشتیبانی می‌کنند و می‌توانند ویدیوها را به صورت فریم پردازش کنند. ویدیو حداکثر ۶۰ ثانیه را پشتیبانی می‌کند، با فرض اینکه تصاویر با سرعت یک فریم در ثانیه پردازش شوند.

داده‌های مدل

داده‌های مورد استفاده برای آموزش مدل و نحوه پردازش داده‌ها.

مجموعه داده‌های آموزشی

مجموعه داده‌های پیش‌آموزش ما، مجموعه‌ای متنوع و در مقیاس بزرگ از داده‌ها است که طیف وسیعی از حوزه‌ها و روش‌ها را شامل می‌شود و شامل اسناد وب، کد، تصاویر، صدا و تاریخ انقضای ژانویه ۲۰۲۵ می‌شود. اجزای کلیدی عبارتند از:

  • اسناد وب: مجموعه‌ای متنوع از متون وب تضمین می‌کند که مدل در معرض طیف گسترده‌ای از سبک‌های زبانی، موضوعات و واژگان قرار می‌گیرد. مجموعه داده‌های آموزشی شامل محتوا در بیش از ۱۴۰ زبان است.
  • کد: قرار دادن مدل در معرض کد به آن کمک می‌کند تا سینتکس و الگوهای زبان‌های برنامه‌نویسی را یاد بگیرد، که این امر توانایی آن را در تولید کد و درک سوالات مربوط به کد بهبود می‌بخشد.
  • ریاضیات: آموزش روی متن ریاضی به مدل کمک می‌کند تا استدلال منطقی، نمایش نمادین و پاسخ به پرسش‌های ریاضی را یاد بگیرد.
  • تصاویر: طیف گسترده‌ای از تصاویر، مدل را قادر می‌سازد تا تجزیه و تحلیل تصویر و وظایف استخراج داده‌های بصری را انجام دهد.

ترکیب این منابع داده متنوع برای آموزش یک مدل چندوجهی قدرتمند که بتواند طیف گسترده‌ای از وظایف و قالب‌های داده مختلف را مدیریت کند، بسیار مهم است.

پیش‌پردازش داده‌ها

در اینجا روش‌های کلیدی پاکسازی و فیلتر کردن داده‌ها که روی داده‌های آموزشی اعمال می‌شوند، آورده شده است:

  • فیلترینگ CSAM: فیلترینگ دقیق CSAM (مطالب مربوط به سوءاستفاده جنسی از کودکان) در مراحل مختلف فرآیند آماده‌سازی داده‌ها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
  • فیلتر کردن داده‌های حساس: به عنوان بخشی از ایمن و قابل اعتماد کردن مدل‌های از پیش آموزش‌دیده‌ی Gemma، از تکنیک‌های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده‌های حساس از مجموعه‌های آموزشی استفاده شد.
  • روش‌های اضافی: فیلتر کردن بر اساس کیفیت و ایمنی محتوا مطابق با سیاست‌های ما .

اخلاق و ایمنی

با تبدیل شدن مدل‌های باز به هسته اصلی زیرساخت‌های سازمانی، منشأ و امنیت از اهمیت بالایی برخوردارند. DiffusionGemma که توسط Google DeepMind توسعه داده شده است، تحت همان ارزیابی‌های ایمنی سختگیرانه‌ای قرار می‌گیرد که مدل‌های اختصاصی Gemini ما انجام می‌دهند.

رویکرد ارزیابی

DiffusionGemma با همکاری تیم‌های ایمنی داخلی و هوش مصنوعی مسئول توسعه داده شد. طیف وسیعی از ارزیابی‌های خودکار و همچنین انسانی برای کمک به بهبود ایمنی مدل انجام شد. این ارزیابی‌ها با اصول هوش مصنوعی گوگل و همچنین سیاست‌های ایمنی که هدف آنها جلوگیری از تولید محتوای مضر توسط مدل‌های هوش مصنوعی مولد ما است، همسو هستند، از جمله:

  • محتوای مرتبط با سوءاستفاده جنسی از کودکان و استثمار
  • محتوای خطرناک (مثلاً ترویج خودکشی یا آموزش فعالیت‌هایی که می‌توانند باعث آسیب در دنیای واقعی شوند)
  • محتوای صریح جنسی
  • سخنان نفرت‌پراکن (مثلاً غیرانسانی جلوه دادن اعضای گروه‌های تحت حمایت)
  • آزار و اذیت (مثلاً تشویق به خشونت علیه مردم)

نتایج ارزیابی

در تمام زمینه‌های آزمایش ایمنی، ما شاهد بهبودهای عمده‌ای در تمام دسته‌بندی‌های ایمنی محتوا نسبت به نسل‌های قبلی مدل‌های Gemma بودیم. در مجموع، DiffusionGemma، مانند مدل‌های Gemma 4، در بهبود ایمنی به طور قابل توجهی از مدل‌های Gemma 3 و 3n بهتر عمل می‌کند، در حالی که میزان امتناع‌های ناموجه را پایین نگه می‌دارد. تمام آزمایش‌ها عمداً بدون فیلترهای ایمنی انجام شد تا قابلیت‌های خام مدل و رفتارهای پایه ارزیابی شوند. برای هر دو مدل متن به متن و تصویر به متن، و در تمام اندازه‌های مدل، این مدل حداقل نقض سیاست را ایجاد کرد و پیشرفت‌های قابل توجهی نسبت به مدل‌های قبلی Gemma نشان داد.

کاربرد و محدودیت‌ها

این مدل‌ها محدودیت‌های خاصی دارند که کاربران باید از آنها آگاه باشند.

کاربرد مورد نظر

مدل‌های چندوجهی (که قادر به پردازش بینایی، زبان و/یا صدا هستند) طیف گسترده‌ای از کاربردها را در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف از این فهرست، ارائه اطلاعات زمینه‌ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته‌اند.

  • تولید محتوا و ارتباطات
    • تولید متن: قالب‌های متنی خلاقانه مانند شعر، اسکریپت، کد، متن بازاریابی و پیش‌نویس ایمیل تولید می‌کند.
    • چت‌بات‌ها و هوش مصنوعی محاوره‌ای: رابط‌های محاوره‌ای را برای خدمات مشتری، دستیاران مجازی یا برنامه‌های تعاملی تقویت می‌کند.
    • خلاصه‌سازی متن: خلاصه‌های مختصری از یک مجموعه متن، مقالات تحقیقاتی یا گزارش‌ها تولید می‌کند.
    • استخراج داده‌های تصویر: داده‌های بصری را برای ارتباطات متنی استخراج، تفسیر و خلاصه می‌کند.
  • تحقیق و آموزش
    • پردازش زبان طبیعی (NLP) و تحقیقات VLM: به عنوان پایه‌ای برای محققان جهت آزمایش تکنیک‌های VLM و NLP، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل می‌کند.
    • ابزارهای یادگیری زبان: از تجربیات تعاملی یادگیری زبان پشتیبانی می‌کند، به اصلاح دستور زبان کمک می‌کند یا تمرین نوشتاری ارائه می‌دهد.
    • کاوش دانش: با تولید خلاصه‌ها یا پاسخ به سؤالات مربوط به موضوعات خاص، به محققان در کاوش در حجم زیادی از متن کمک می‌کند.

محدودیت‌ها

  • داده‌های آموزشی
    • کیفیت و تنوع داده‌های آموزشی به طور قابل توجهی بر قابلیت‌های مدل تأثیر می‌گذارد. سوگیری‌ها یا شکاف‌های موجود در داده‌های آموزشی می‌تواند منجر به محدودیت‌هایی در پاسخ‌های مدل شود.
    • دامنه مجموعه داده‌های آموزشی، حوزه‌های موضوعی را که مدل می‌تواند به طور مؤثر مدیریت کند، تعیین می‌کند.
  • زمینه و پیچیدگی وظیفه
    • این مدل در وظایفی که می‌توان آنها را با دستورالعمل‌ها و دستورالعمل‌های واضح چارچوب‌بندی کرد، عملکرد خوبی دارد. وظایف با پایان باز یا بسیار پیچیده ممکن است چالش‌برانگیز باشند.
    • عملکرد مدل می‌تواند تحت تأثیر میزان زمینه ارائه شده قرار گیرد (زمینه طولانی‌تر عموماً تا یک نقطه خاص منجر به خروجی‌های بهتری می‌شود).
  • ابهام و ظرافت زبان
    • زبان طبیعی ذاتاً پیچیده است. این مدل ممکن است برای درک نکات ظریف، کنایه یا زبان تمثیلی دچار مشکل شود.
  • دقت واقعی
    • این مدل بر اساس اطلاعاتی که از مجموعه داده‌های آموزشی خود آموخته است، پاسخ‌هایی تولید می‌کند، اما آنها پایگاه دانش نیستند. ممکن است گزاره‌های واقعی نادرست یا قدیمی تولید کند.
  • عقل سلیم
    • این مدل به الگوهای آماری در زبان متکی است. ممکن است در موقعیت‌های خاص، توانایی به‌کارگیری استدلال مبتنی بر عقل سلیم را نداشته باشد.

ملاحظات اخلاقی و خطرات

در ایجاد یک مدل باز و مبتنی بر زبان بینایی، موارد زیر را با دقت در نظر گرفته‌ایم:

  • تعصب و انصاف
    • VLM هایی که بر روی داده‌های متنی و تصویری در مقیاس بزرگ و دنیای واقعی آموزش دیده‌اند، می‌توانند سوگیری‌های اجتماعی-فرهنگی نهفته در مطالب آموزشی را منعکس کنند. DiffusionGemma تحت بررسی دقیق، پیش‌پردازش داده‌های ورودی و ارزیابی‌های پس از آموزش، همانطور که در این کارت گزارش شده است، قرار گرفت تا به کاهش خطر این سوگیری‌ها کمک کند.
  • اطلاعات نادرست و سوءاستفاده
    • می‌توان از VLMها برای تولید متنی نادرست، گمراه‌کننده یا مضر سوءاستفاده کرد.
    • دستورالعمل‌هایی برای استفاده مسئولانه از این مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئولانه مراجعه کنید.
  • شفافیت و پاسخگویی
    • این کارت مدل، جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل را خلاصه می‌کند.
    • یک مدل بازِ توسعه‌یافته با مسئولیت‌پذیری، با در دسترس قرار دادن فناوری VLM برای توسعه‌دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی، فرصتی برای به اشتراک گذاشتن نوآوری ارائه می‌دهد.

ریسک‌های شناسایی شده و راهکارهای کاهش آنها :

  • تولید محتوای مضر: سازوکارها و دستورالعمل‌های ایمنی محتوا ضروری هستند. به توسعه‌دهندگان توصیه می‌شود که احتیاط کنند و بر اساس سیاست‌های خاص محصول و موارد استفاده از برنامه، اقدامات حفاظتی مناسب برای ایمنی محتوا را اجرا کنند.
  • سوءاستفاده برای اهداف مخرب: محدودیت‌های فنی و آموزش توسعه‌دهندگان و کاربران نهایی می‌تواند به کاهش برنامه‌های مخرب VLMها کمک کند. منابع آموزشی و سازوکارهای گزارش‌دهی برای کاربران جهت گزارش سوءاستفاده ارائه شده است.
  • نقض حریم خصوصی: مدل‌ها بر اساس داده‌های فیلتر شده برای حذف اطلاعات شخصی خاص و سایر داده‌های حساس آموزش داده شدند. به توسعه‌دهندگان توصیه می‌شود که با تکنیک‌های حفظ حریم خصوصی، به مقررات حریم خصوصی پایبند باشند.
  • تداوم سوگیری‌ها: توصیه می‌شود نظارت مستمر (با استفاده از معیارهای ارزیابی، بررسی انسانی) و بررسی تکنیک‌های رفع سوگیری در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده انجام شود.

مزایا

در زمان انتشار، این یک مدل زبان بینایی باز با تأخیر کم و عملکرد بالا است که گزینه‌ای جذاب برای توسعه‌دهندگان و علاقه‌مندان به تحقیق در مورد مدل‌های زبان انتشار فراهم می‌کند. این مدل در مقایسه با مدل‌های با اندازه مشابه، از پایه برای توسعه هوش مصنوعی مسئولانه طراحی شده است.