نمای کلی مدل Gemma 4

Gemma خانواده‌ای از مدل‌های هوش مصنوعی مولد است و شما می‌توانید از آنها در طیف گسترده‌ای از وظایف تولید، از جمله پاسخ به سوال، خلاصه‌سازی و استدلال استفاده کنید. مدل‌های Gemma با وزن‌های باز ارائه می‌شوند و امکان استفاده تجاری مسئولانه را فراهم می‌کنند و به شما این امکان را می‌دهند که آنها را در پروژه‌ها و برنامه‌های خود تنظیم و مستقر کنید.

خانواده مدل Gemma 4 شامل چهار معماری مجزا است که برای نیازهای سخت‌افزاری خاص طراحی شده‌اند:

  • اندازه‌های کوچک: مدل‌های پارامتر مؤثر ۲B و ۴B که برای استقرار در دستگاه‌های فوق موبایل، لبه و مرورگر (مثلاً پیکسل، کروم) ساخته شده‌اند.
  • متراکم: یک مدل قدرتمند با پارامتر متراکم ۳۱B که شکاف بین عملکرد در سطح سرور و اجرای محلی را پر می‌کند.
  • ترکیبی از متخصصان: یک مدل MoE بسیار کارآمد 26B که برای استدلال پیشرفته و با توان عملیاتی بالا طراحی شده است.
  • یکپارچه: یک مدل بدون رمزگذار پارامتر ۱۲B برای وظایف چندوجهی، که جایگزین رمزگذارهای بصری و صوتی با تصویرسازی خطی مستقیم از ورودی شده است.

شما می‌توانید مدل‌های Gemma 4 را از Kaggle و Hugging Face دانلود کنید. برای جزئیات فنی بیشتر در مورد Gemma 4، به Model Card مراجعه کنید. نسخه‌های قبلی مدل‌های اصلی Gemma نیز برای دانلود در دسترس هستند. برای اطلاعات بیشتر، به مدل‌های قبلی Gemma مراجعه کنید.

آن را در کاگل (Kaggle) دریافت کنید، آن را در هاگینگ فیس (Hanging Face) دریافت کنید

قابلیت‌ها

  • استدلال: تمام مدل‌های این خانواده به عنوان استدلال‌کنندگان بسیار توانمند، با حالت‌های تفکر قابل تنظیم، طراحی شده‌اند.
  • چندوجهی‌های توسعه‌یافته: متن، تصویر با نسبت ابعاد و پشتیبانی از وضوح متغیر (همه مدل‌ها)، ویدیو و صدا (که به صورت بومی در مدل‌های E2B، E4B و 12B ارائه شده است) را پردازش می‌کند.
  • افزایش پنجره زمینه: مدل‌های کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدل‌های متوسط ​​از ۲۵۶ کیلوبایت پشتیبانی می‌کنند.
  • قابلیت‌های کدنویسی و عامل‌محور بهبود یافته: در کنار پشتیبانی از فراخوانی تابع داخلی، به پیشرفت‌های قابل توجهی در معیارهای کدنویسی دست یافته و عامل‌های خودمختار بسیار توانمندی را تقویت می‌کند.
  • پشتیبانی بومی از اعلان‌های سیستم: Gemma 4 پشتیبانی داخلی برای نقش سیستم ارائه می‌دهد و مکالمات ساختاریافته‌تر و قابل کنترل‌تری را امکان‌پذیر می‌کند.
  • پیش‌بینی چند توکنی : تمام مدل‌های Gemma 4 (E2B، E4B، 12B، 31B و 26B A4B) شامل یک مدل پیش‌نویس اختصاصی برای رمزگشایی حدسی هستند که امکان استنتاج بسیار سریع‌تر و بدون افت کیفیت را فراهم می‌کند.

اندازه پارامترها و کوانتیزاسیون

مدل‌های Gemma 4 در 5 اندازه پارامتر موجود هستند: E2B، E4B، 12B، 31B و 26B A4B. این مدل‌ها را می‌توان با دقت پیش‌فرض خود (16 بیتی) یا با دقت پایین‌تر با استفاده از کوانتیزاسیون استفاده کرد. اندازه‌ها و دقت‌های مختلف، مجموعه‌ای از بده‌بستان‌ها را برای برنامه هوش مصنوعی شما نشان می‌دهند. مدل‌هایی با پارامترها و تعداد بیت‌های بالاتر (دقت بالاتر) عموماً توانمندتر هستند، اما از نظر چرخه‌های پردازش، هزینه حافظه و مصرف برق، اجرای آنها گران‌تر است. مدل‌هایی با پارامترها و تعداد بیت‌های پایین‌تر (دقت پایین‌تر) قابلیت‌های کمتری دارند، اما ممکن است برای کار هوش مصنوعی شما کافی باشند.

الزامات حافظه استنتاج Gemma 4

جدول زیر جزئیات تقریبی نیازهای حافظه GPU یا TPU برای اجرای استنتاج با هر اندازه از نسخه‌های مدل Gemma 4 را نشان می‌دهد.

پارامترها BF16 (16 بیتی) SFP8 (8 بیتی) Q4_0 (چهار بیتی) موبایل موبایل (فقط پیامک)
جما ۴ E2B ۱۱.۴ گیگابایت ۵.۷ گیگابایت ۲.۹ گیگابایت ۱.۱ بیل گیتس ۰.۸۴ گیگابایت
جما ۴ E4B ۱۷.۹ گیگابایت ۸.۹ گیگابایت ۴.۵ گیگابایت ۲.۵ گیگابایت ۲.۲ گیگابایت
جما ۴ ۱۲ب ۲۶.۷ گیگابایت ۱۳.۴ گیگابایت ۶.۷ گیگابایت - -
جما ۴ ۲۶ب A4ب ۵۷.۷ گیگابایت ۲۸.۸ گیگابایت ۱۴.۴ گیگابایت - -
جما ۴ ۳۱ب ۶۹.۹ گیگابایت ۳۴.۹ گیگابایت ۱۷.۵ گیگابایت - -

جدول ۱. حافظه تقریبی GPU یا TPU مورد نیاز برای بارگذاری مدل‌های Gemma 4 بر اساس تعداد پارامترها، سطح کوانتیزاسیون و ۲۰٪ سربار بارگذاری موارد اضافی. نسخه‌های موبایل از LiteRT-LM استفاده می‌کنند.

ملاحظات کلیدی برای برنامه‌ریزی حافظه

  • معماری کارآمد (E2B و E4B): حرف "E" مخفف پارامترهای "موثر" است. مدل‌های کوچک‌تر، جاسازی‌های هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیاده‌سازی‌های روی دستگاه، در خود جای می‌دهند. PLE به جای اضافه کردن لایه‌های بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن می‌دهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده می‌شوند، به همین دلیل است که کل حافظه مورد نیاز برای بارگذاری وزن‌های استاتیک بیشتر از تعداد پارامترهای موثر است.
  • معماری MoE (26B A4B): مدل 26B ترکیبی از متخصصان است. اگرچه در طول تولید، تنها 4 میلیارد پارامتر به ازای هر توکن فعال می‌کند، اما برای حفظ سرعت بالای مسیریابی و استنتاج، باید تمام 26 میلیارد پارامتر در حافظه بارگذاری شوند. به همین دلیل است که نیاز پایه حافظه آن به مدل متراکم 26B بسیار نزدیک‌تر از مدل 4B است.
  • فقط وزن‌های پایه: تخمین‌های جدول قبل فقط حافظه مورد نیاز برای بارگذاری وزن‌های مدل استاتیک را در نظر می‌گیرند. این تخمین‌ها شامل VRAM اضافی مورد نیاز برای پشتیبانی از نرم‌افزار یا پنجره context نمی‌شوند.
  • پنجره زمینه (حافظه نهان KV): مصرف حافظه به صورت پویا بر اساس تعداد کل توکن‌های موجود در اعلان شما و پاسخ تولید شده افزایش می‌یابد. پنجره‌های زمینه بزرگتر علاوه بر وزن‌های مدل پایه، به VRAM قابل توجهی بیشتری نیاز دارند.
  • سربار تنظیم دقیق: الزامات حافظه برای تنظیم دقیق مدل‌های Gemma به طور قابل توجهی بیشتر از استنتاج استاندارد است. میزان دقیق فضای مورد نیاز شما به شدت به چارچوب توسعه، اندازه دسته و اینکه آیا از تنظیم دقیق با دقت کامل در مقابل یک روش تنظیم دقیق با پارامتر کارآمد (PEFT) مانند انطباق با رتبه پایین (LoRA) استفاده می‌کنید، بستگی دارد.

آموزش آگاه از کوانتیزاسیون (QAT)

برای استقرارهایی که نیازمند حداکثر بهره‌وری با حداقل افت کیفیت هستند، Gemma مدل‌های رسمی آموزش آگاه از کمیت (QAT) را ارائه می‌دهد.

برخلاف روش استاندارد کوانتیزاسیون پس از آموزش (PTQ)، که یک مدل کاملاً آموزش‌دیده را فشرده می‌کند و می‌تواند منجر به افت کیفیت شود، QAT شبیه‌سازی کوانتیزاسیون را در خود فرآیند آموزش ادغام می‌کند. این امر به مدل اجازه می‌دهد تا یاد بگیرد که کاهش دقت را جبران کند و در نتیجه مدل‌های کوچک‌تری تولید می‌کند که تقریباً عملکرد یکسانی با خطوط پایه با دقت بالای خود دارند.

جدول مسیریابی سریع

موتور استقرار هدف دانلود پسوند مورد استفاده اصلی
llama.cpp / LM Studio (محلی) {model-name}-qat-q4_0-gguf استقرار محلی بدون نیاز به تنظیمات اولیه روی CPU، Apple Silicon یا GPU های مصرفی.
vLLM / SGLang سرور: {model-name}-qat-w4a16-ct
موبایل: {model-name}-qat-mobile-ct
استنتاج با توان عملیاتی بالا با استفاده از وزن‌های ۴ بیتی با فعال‌سازی‌های ۱۶ بیتی.
رمزگشایی حدسی مدل: {model-name}-qat-q4_0-unquantized
طراح: {model-name}-qat-q4_0-unquantized-assistant
اجرای یک مدل اولیه در کنار مدل پیش‌نویس MTP منطبق با آن برای تسریع چشمگیر تولید توکن. این مدل باید کوانتیزه شود.
قالب‌های دیگر {model-name}-qat-q4_0-unquantized وزن‌های کوانتیزه نشده برای تبدیل به فرمت‌های دیگر (مثلاً MLX)
استقرار سیار (ترانسفورماتورها) {model-name}-qat-mobile-transformers وزن‌های لبه برای موارد استفاده موبایل بهینه شده‌اند. آنها به عنوان مرجع برای سایر قالب‌ها عمل می‌کنند.

مجموعه‌های رسمی QAT در Hugging Face

  • مجموعه‌ها/گوگل/gemma-4-qat-q4-0
    • نقاط کنترل QAT کوانتیزه نشده ( -unquantized / -assistant ): وزن‌های نیمه‌دقتی که مستقیماً از خط لوله QAT استخراج می‌شوند. این موارد برای کامپایل سفارشی پایین‌دستی، تحقیق یا اجرای رمزگشایی گمانه‌زننده با استفاده از مدل‌های دستیار پیش‌نویس ایده‌آل هستند. برای Gemma 4 E2B، E4B، 12B، 26B A4B و 31B موجود است.
    • GGUF ( -gguf ): نقاط بررسی موجود برای سازگاری فوری در سراسر اکوسیستم LLM محلی. برای Gemma 4 E2B، E4B، 12B، 26B A4B و 31B موجود است.
    • تنسورهای فشرده ( -w4a16-ct ): به صورت بومی در استاندارد compressed-tensors سریالی شده تا سرویس ابری بهینه و با همزمانی بالا ارائه شود. برای Gemma 4 E2B، E4B، 12B و 31B موجود است.
  • مجموعه‌ها/گوگل/جمما-۴-قط-موبایل
    • بهینه‌سازی‌شده برای موبایل ( -mobile-transformers / -mobile-ct ): ساخته‌شده بر اساس یک طرح wNa8o8 سفارشی که به‌طور خاص برای محدودیت‌های سخت‌افزار موبایل مهندسی شده است. این طرح از لایه‌های رمزگشایی دو بیتی هدفمند، حافظه‌های نهان KV بهینه‌شده و فعال‌سازی‌های استاتیک برای به حداکثر رساندن صرفه‌جویی در رم دستگاه بدون ایجاد اختلال در پردازنده‌های لبه‌ای استفاده می‌کند. برای Gemma 4 E2B و E4B موجود است.

به همه ایستگاه‌های بازرسی رسمی Gemma 4 QAT نیز می‌توان مستقیماً از Kaggle دسترسی پیدا کرد.

مدل‌های قبلی جما

شما می‌توانید با نسل‌های قبلی مدل‌های Gemma کار کنید که از Kaggle و Hugging Face نیز موجود هستند. برای جزئیات فنی بیشتر در مورد مدل‌های قبلی Gemma، به صفحات کارت مدل زیر مراجعه کنید:

آماده شروع ساخت و ساز هستید؟ با مدل‌های Gemma شروع کنید !