نمای کلی مدل Gemma 4

Gemma خانواده‌ای از مدل‌های هوش مصنوعی مولد است و شما می‌توانید از آنها در طیف گسترده‌ای از وظایف تولید، از جمله پاسخ به سوال، خلاصه‌سازی و استدلال استفاده کنید. مدل‌های Gemma با وزن‌های باز ارائه می‌شوند و امکان استفاده تجاری مسئولانه را فراهم می‌کنند و به شما این امکان را می‌دهند که آنها را در پروژه‌ها و برنامه‌های خود تنظیم و مستقر کنید.

خانواده مدل Gemma 4 شامل سه معماری مجزا است که برای نیازهای سخت‌افزاری خاص طراحی شده‌اند:

  • اندازه‌های کوچک: مدل‌های پارامتر مؤثر ۲B و ۴B که برای استقرار در دستگاه‌های فوق موبایل، لبه و مرورگر (مثلاً پیکسل، کروم) ساخته شده‌اند.
  • متراکم: یک مدل قدرتمند با پارامتر متراکم ۳۱B که شکاف بین عملکرد در سطح سرور و اجرای محلی را پر می‌کند.
  • ترکیبی از متخصصان: یک مدل MoE بسیار کارآمد 26B که برای استدلال پیشرفته و با توان عملیاتی بالا طراحی شده است.

شما می‌توانید مدل‌های Gemma 4 را از Kaggle و Hugging Face دانلود کنید. برای جزئیات فنی بیشتر در مورد Gemma 4، به Model Card مراجعه کنید. نسخه‌های قبلی مدل‌های اصلی Gemma نیز برای دانلود در دسترس هستند. برای اطلاعات بیشتر، به مدل‌های قبلی Gemma مراجعه کنید.

آن را در کاگل (Kaggle) دریافت کنید، آن را در هاگینگ فیس (Hanging Face) دریافت کنید

قابلیت‌ها

  • استدلال: تمام مدل‌های این خانواده به عنوان استدلال‌کنندگان بسیار توانمند، با حالت‌های تفکر قابل تنظیم، طراحی شده‌اند.
  • چندوجهی‌های توسعه‌یافته: متن، تصویر با نسبت ابعاد و پشتیبانی از وضوح متغیر (همه مدل‌ها)، ویدیو و صدا (که به صورت بومی در مدل‌های E2B و E4B ارائه شده است) را پردازش می‌کند.
  • افزایش پنجره زمینه: مدل‌های کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدل‌های متوسط ​​از ۲۵۶ کیلوبایت پشتیبانی می‌کنند.
  • قابلیت‌های کدنویسی و عامل‌محور بهبود یافته: در کنار پشتیبانی از فراخوانی تابع داخلی، به پیشرفت‌های قابل توجهی در معیارهای کدنویسی دست یافته و عامل‌های خودمختار بسیار توانمندی را تقویت می‌کند.
  • پشتیبانی بومی از اعلان‌های سیستم: Gemma 4 پشتیبانی داخلی برای نقش سیستم ارائه می‌دهد و مکالمات ساختاریافته‌تر و قابل کنترل‌تری را امکان‌پذیر می‌کند.

اندازه پارامترها و کوانتیزاسیون

مدل‌های Gemma 4 در 4 اندازه پارامتر موجود هستند: E2B، E4B، 31B و 26B A4B. این مدل‌ها را می‌توان با دقت پیش‌فرض خود (16 بیتی) یا با دقت پایین‌تر با استفاده از کوانتیزاسیون استفاده کرد. اندازه‌ها و دقت‌های مختلف، مجموعه‌ای از بده‌بستان‌ها را برای برنامه هوش مصنوعی شما نشان می‌دهند. مدل‌هایی با پارامترها و تعداد بیت‌های بالاتر (دقت بالاتر) عموماً توانمندتر هستند، اما از نظر چرخه‌های پردازش، هزینه حافظه و مصرف برق، اجرای آنها گران‌تر است. مدل‌هایی با پارامترها و تعداد بیت‌های پایین‌تر (دقت پایین‌تر) قابلیت‌های کمتری دارند، اما ممکن است برای کار هوش مصنوعی شما کافی باشند.

الزامات حافظه استنتاج Gemma 4

جدول زیر جزئیات تقریبی نیازهای حافظه GPU یا TPU برای اجرای استنتاج با هر اندازه از نسخه‌های مدل Gemma 4 را نشان می‌دهد.

پارامترها BF16 (16 بیتی) SFP8 (8 بیتی) Q4_0 (چهار بیتی)
جما ۴ E2B ۹.۶ گیگابایت ۴.۶ گیگابایت ۳.۲ گیگابایت
جما ۴ E4B ۱۵ گیگابایت ۷.۵ گیگابایت ۵ گیگابایت
جما ۴ ۳۱ب ۵۸.۳ گیگابایت ۳۰.۴ گیگابایت ۱۷.۴ گیگابایت
جما ۴ ۲۶ب A4ب ۴۸ گیگابایت ۲۵ گیگابایت ۱۵.۶ گیگابایت

جدول 1. حافظه تقریبی GPU یا TPU مورد نیاز برای بارگذاری مدل‌های Gemma 4 بر اساس تعداد پارامترها و سطح کوانتیزاسیون.

ملاحظات کلیدی برای برنامه‌ریزی حافظه

  • معماری کارآمد (E2B و E4B): حرف "E" مخفف پارامترهای "موثر" است. مدل‌های کوچک‌تر، جاسازی‌های هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیاده‌سازی‌های روی دستگاه، در خود جای می‌دهند. PLE به جای اضافه کردن لایه‌های بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن می‌دهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده می‌شوند، به همین دلیل است که کل حافظه مورد نیاز برای بارگذاری وزن‌های استاتیک بیشتر از تعداد پارامترهای موثر است.
  • معماری MoE (26B A4B): مدل 26B ترکیبی از متخصصان است. اگرچه در طول تولید، تنها 4 میلیارد پارامتر به ازای هر توکن فعال می‌کند، اما برای حفظ سرعت بالای مسیریابی و استنتاج، باید تمام 26 میلیارد پارامتر در حافظه بارگذاری شوند. به همین دلیل است که نیاز پایه حافظه آن به مدل متراکم 26B بسیار نزدیک‌تر از مدل 4B است.
  • فقط وزن‌های پایه: تخمین‌های جدول قبل فقط حافظه مورد نیاز برای بارگذاری وزن‌های مدل استاتیک را در نظر می‌گیرند. این تخمین‌ها شامل VRAM اضافی مورد نیاز برای پشتیبانی از نرم‌افزار یا پنجره context نمی‌شوند.
  • پنجره زمینه (حافظه نهان KV): مصرف حافظه به صورت پویا بر اساس تعداد کل توکن‌های موجود در اعلان شما و پاسخ تولید شده افزایش می‌یابد. پنجره‌های زمینه بزرگتر علاوه بر وزن‌های مدل پایه، به VRAM قابل توجهی بیشتری نیاز دارند.
  • سربار تنظیم دقیق: الزامات حافظه برای تنظیم دقیق مدل‌های Gemma به طور قابل توجهی بیشتر از استنتاج استاندارد است. میزان دقیق فضای مورد نیاز شما به شدت به چارچوب توسعه، اندازه دسته و اینکه آیا از تنظیم دقیق با دقت کامل در مقابل یک روش تنظیم دقیق با پارامتر کارآمد (PEFT) مانند انطباق با رتبه پایین (LoRA) استفاده می‌کنید، بستگی دارد.

مدل‌های قبلی جما

شما می‌توانید با نسل‌های قبلی مدل‌های Gemma کار کنید که از Kaggle و Hugging Face نیز موجود هستند. برای جزئیات فنی بیشتر در مورد مدل‌های قبلی Gemma، به صفحات کارت مدل زیر مراجعه کنید:

آماده شروع ساخت و ساز هستید؟ با مدل‌های Gemma شروع کنید !