Gemma خانوادهای از مدلهای هوش مصنوعی مولد است و شما میتوانید از آنها در طیف گستردهای از وظایف تولید، از جمله پاسخ به سوال، خلاصهسازی و استدلال استفاده کنید. مدلهای Gemma با وزنهای باز ارائه میشوند و امکان استفاده تجاری مسئولانه را فراهم میکنند و به شما این امکان را میدهند که آنها را در پروژهها و برنامههای خود تنظیم و مستقر کنید.
خانواده مدل Gemma 4 شامل سه معماری مجزا است که برای نیازهای سختافزاری خاص طراحی شدهاند:
- اندازههای کوچک: مدلهای پارامتر مؤثر ۲B و ۴B که برای استقرار در دستگاههای فوق موبایل، لبه و مرورگر (مثلاً پیکسل، کروم) ساخته شدهاند.
- متراکم: یک مدل قدرتمند با پارامتر متراکم ۳۱B که شکاف بین عملکرد در سطح سرور و اجرای محلی را پر میکند.
- ترکیبی از متخصصان: یک مدل MoE بسیار کارآمد 26B که برای استدلال پیشرفته و با توان عملیاتی بالا طراحی شده است.
شما میتوانید مدلهای Gemma 4 را از Kaggle و Hugging Face دانلود کنید. برای جزئیات فنی بیشتر در مورد Gemma 4، به Model Card مراجعه کنید. نسخههای قبلی مدلهای اصلی Gemma نیز برای دانلود در دسترس هستند. برای اطلاعات بیشتر، به مدلهای قبلی Gemma مراجعه کنید.
آن را در کاگل (Kaggle) دریافت کنید، آن را در هاگینگ فیس (Hanging Face) دریافت کنید
قابلیتها
- استدلال: تمام مدلهای این خانواده به عنوان استدلالکنندگان بسیار توانمند، با حالتهای تفکر قابل تنظیم، طراحی شدهاند.
- چندوجهیهای توسعهیافته: متن، تصویر با نسبت ابعاد و پشتیبانی از وضوح متغیر (همه مدلها)، ویدیو و صدا (که به صورت بومی در مدلهای E2B و E4B ارائه شده است) را پردازش میکند.
- افزایش پنجره زمینه: مدلهای کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدلهای متوسط از ۲۵۶ کیلوبایت پشتیبانی میکنند.
- قابلیتهای کدنویسی و عاملمحور بهبود یافته: در کنار پشتیبانی از فراخوانی تابع داخلی، به پیشرفتهای قابل توجهی در معیارهای کدنویسی دست یافته و عاملهای خودمختار بسیار توانمندی را تقویت میکند.
- پشتیبانی بومی از اعلانهای سیستم: Gemma 4 پشتیبانی داخلی برای نقش سیستم ارائه میدهد و مکالمات ساختاریافتهتر و قابل کنترلتری را امکانپذیر میکند.
اندازه پارامترها و کوانتیزاسیون
مدلهای Gemma 4 در 4 اندازه پارامتر موجود هستند: E2B، E4B، 31B و 26B A4B. این مدلها را میتوان با دقت پیشفرض خود (16 بیتی) یا با دقت پایینتر با استفاده از کوانتیزاسیون استفاده کرد. اندازهها و دقتهای مختلف، مجموعهای از بدهبستانها را برای برنامه هوش مصنوعی شما نشان میدهند. مدلهایی با پارامترها و تعداد بیتهای بالاتر (دقت بالاتر) عموماً توانمندتر هستند، اما از نظر چرخههای پردازش، هزینه حافظه و مصرف برق، اجرای آنها گرانتر است. مدلهایی با پارامترها و تعداد بیتهای پایینتر (دقت پایینتر) قابلیتهای کمتری دارند، اما ممکن است برای کار هوش مصنوعی شما کافی باشند.
الزامات حافظه استنتاج Gemma 4
جدول زیر جزئیات تقریبی نیازهای حافظه GPU یا TPU برای اجرای استنتاج با هر اندازه از نسخههای مدل Gemma 4 را نشان میدهد.
| پارامترها | BF16 (16 بیتی) | SFP8 (8 بیتی) | Q4_0 (چهار بیتی) |
|---|---|---|---|
| جما ۴ E2B | ۹.۶ گیگابایت | ۴.۶ گیگابایت | ۳.۲ گیگابایت |
| جما ۴ E4B | ۱۵ گیگابایت | ۷.۵ گیگابایت | ۵ گیگابایت |
| جما ۴ ۳۱ب | ۵۸.۳ گیگابایت | ۳۰.۴ گیگابایت | ۱۷.۴ گیگابایت |
| جما ۴ ۲۶ب A4ب | ۴۸ گیگابایت | ۲۵ گیگابایت | ۱۵.۶ گیگابایت |
جدول 1. حافظه تقریبی GPU یا TPU مورد نیاز برای بارگذاری مدلهای Gemma 4 بر اساس تعداد پارامترها و سطح کوانتیزاسیون.
ملاحظات کلیدی برای برنامهریزی حافظه
- معماری کارآمد (E2B و E4B): حرف "E" مخفف پارامترهای "موثر" است. مدلهای کوچکتر، جاسازیهای هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیادهسازیهای روی دستگاه، در خود جای میدهند. PLE به جای اضافه کردن لایههای بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن میدهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده میشوند، به همین دلیل است که کل حافظه مورد نیاز برای بارگذاری وزنهای استاتیک بیشتر از تعداد پارامترهای موثر است.
- معماری MoE (26B A4B): مدل 26B ترکیبی از متخصصان است. اگرچه در طول تولید، تنها 4 میلیارد پارامتر به ازای هر توکن فعال میکند، اما برای حفظ سرعت بالای مسیریابی و استنتاج، باید تمام 26 میلیارد پارامتر در حافظه بارگذاری شوند. به همین دلیل است که نیاز پایه حافظه آن به مدل متراکم 26B بسیار نزدیکتر از مدل 4B است.
- فقط وزنهای پایه: تخمینهای جدول قبل فقط حافظه مورد نیاز برای بارگذاری وزنهای مدل استاتیک را در نظر میگیرند. این تخمینها شامل VRAM اضافی مورد نیاز برای پشتیبانی از نرمافزار یا پنجره context نمیشوند.
- پنجره زمینه (حافظه نهان KV): مصرف حافظه به صورت پویا بر اساس تعداد کل توکنهای موجود در اعلان شما و پاسخ تولید شده افزایش مییابد. پنجرههای زمینه بزرگتر علاوه بر وزنهای مدل پایه، به VRAM قابل توجهی بیشتری نیاز دارند.
- سربار تنظیم دقیق: الزامات حافظه برای تنظیم دقیق مدلهای Gemma به طور قابل توجهی بیشتر از استنتاج استاندارد است. میزان دقیق فضای مورد نیاز شما به شدت به چارچوب توسعه، اندازه دسته و اینکه آیا از تنظیم دقیق با دقت کامل در مقابل یک روش تنظیم دقیق با پارامتر کارآمد (PEFT) مانند انطباق با رتبه پایین (LoRA) استفاده میکنید، بستگی دارد.
مدلهای قبلی جما
شما میتوانید با نسلهای قبلی مدلهای Gemma کار کنید که از Kaggle و Hugging Face نیز موجود هستند. برای جزئیات فنی بیشتر در مورد مدلهای قبلی Gemma، به صفحات کارت مدل زیر مراجعه کنید:
آماده شروع ساخت و ساز هستید؟ با مدلهای Gemma شروع کنید !