Gemma خانوادهای از مدلهای هوش مصنوعی مولد است و شما میتوانید از آنها در طیف گستردهای از وظایف تولید، از جمله پاسخ به سوال، خلاصهسازی و استدلال استفاده کنید. مدلهای Gemma با وزنهای باز ارائه میشوند و امکان استفاده تجاری مسئولانه را فراهم میکنند و به شما این امکان را میدهند که آنها را در پروژهها و برنامههای خود تنظیم و مستقر کنید.
خانواده مدل Gemma 4 شامل چهار معماری مجزا است که برای نیازهای سختافزاری خاص طراحی شدهاند:
- اندازههای کوچک: مدلهای پارامتر مؤثر ۲B و ۴B که برای استقرار در دستگاههای فوق موبایل، لبه و مرورگر (مثلاً پیکسل، کروم) ساخته شدهاند.
- متراکم: یک مدل قدرتمند با پارامتر متراکم ۳۱B که شکاف بین عملکرد در سطح سرور و اجرای محلی را پر میکند.
- ترکیبی از متخصصان: یک مدل MoE بسیار کارآمد 26B که برای استدلال پیشرفته و با توان عملیاتی بالا طراحی شده است.
- یکپارچه: یک مدل بدون رمزگذار پارامتر ۱۲B برای وظایف چندوجهی، که جایگزین رمزگذارهای بصری و صوتی با تصویرسازی خطی مستقیم از ورودی شده است.
شما میتوانید مدلهای Gemma 4 را از Kaggle و Hugging Face دانلود کنید. برای جزئیات فنی بیشتر در مورد Gemma 4، به Model Card مراجعه کنید. نسخههای قبلی مدلهای اصلی Gemma نیز برای دانلود در دسترس هستند. برای اطلاعات بیشتر، به مدلهای قبلی Gemma مراجعه کنید.
آن را در کاگل (Kaggle) دریافت کنید، آن را در هاگینگ فیس (Hanging Face) دریافت کنید
قابلیتها
- استدلال: تمام مدلهای این خانواده به عنوان استدلالکنندگان بسیار توانمند، با حالتهای تفکر قابل تنظیم، طراحی شدهاند.
- چندوجهیهای توسعهیافته: متن، تصویر با نسبت ابعاد و پشتیبانی از وضوح متغیر (همه مدلها)، ویدیو و صدا (که به صورت بومی در مدلهای E2B، E4B و 12B ارائه شده است) را پردازش میکند.
- افزایش پنجره زمینه: مدلهای کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدلهای متوسط از ۲۵۶ کیلوبایت پشتیبانی میکنند.
- قابلیتهای کدنویسی و عاملمحور بهبود یافته: در کنار پشتیبانی از فراخوانی تابع داخلی، به پیشرفتهای قابل توجهی در معیارهای کدنویسی دست یافته و عاملهای خودمختار بسیار توانمندی را تقویت میکند.
- پشتیبانی بومی از اعلانهای سیستم: Gemma 4 پشتیبانی داخلی برای نقش سیستم ارائه میدهد و مکالمات ساختاریافتهتر و قابل کنترلتری را امکانپذیر میکند.
- پیشبینی چند توکنی : تمام مدلهای Gemma 4 (E2B، E4B، 12B، 31B و 26B A4B) شامل یک مدل پیشنویس اختصاصی برای رمزگشایی حدسی هستند که امکان استنتاج بسیار سریعتر و بدون افت کیفیت را فراهم میکند.
اندازه پارامترها و کوانتیزاسیون
مدلهای Gemma 4 در 5 اندازه پارامتر موجود هستند: E2B، E4B، 12B، 31B و 26B A4B. این مدلها را میتوان با دقت پیشفرض خود (16 بیتی) یا با دقت پایینتر با استفاده از کوانتیزاسیون استفاده کرد. اندازهها و دقتهای مختلف، مجموعهای از بدهبستانها را برای برنامه هوش مصنوعی شما نشان میدهند. مدلهایی با پارامترها و تعداد بیتهای بالاتر (دقت بالاتر) عموماً توانمندتر هستند، اما از نظر چرخههای پردازش، هزینه حافظه و مصرف برق، اجرای آنها گرانتر است. مدلهایی با پارامترها و تعداد بیتهای پایینتر (دقت پایینتر) قابلیتهای کمتری دارند، اما ممکن است برای کار هوش مصنوعی شما کافی باشند.
الزامات حافظه استنتاج Gemma 4
جدول زیر جزئیات تقریبی نیازهای حافظه GPU یا TPU برای اجرای استنتاج با هر اندازه از نسخههای مدل Gemma 4 را نشان میدهد.
| پارامترها | BF16 (16 بیتی) | SFP8 (8 بیتی) | Q4_0 (چهار بیتی) | موبایل | موبایل (فقط پیامک) |
|---|---|---|---|---|---|
| جما ۴ E2B | ۱۱.۴ گیگابایت | ۵.۷ گیگابایت | ۲.۹ گیگابایت | ۱.۱ بیل گیتس | ۰.۸۴ گیگابایت |
| جما ۴ E4B | ۱۷.۹ گیگابایت | ۸.۹ گیگابایت | ۴.۵ گیگابایت | ۲.۵ گیگابایت | ۲.۲ گیگابایت |
| جما ۴ ۱۲ب | ۲۶.۷ گیگابایت | ۱۳.۴ گیگابایت | ۶.۷ گیگابایت | - | - |
| جما ۴ ۲۶ب A4ب | ۵۷.۷ گیگابایت | ۲۸.۸ گیگابایت | ۱۴.۴ گیگابایت | - | - |
| جما ۴ ۳۱ب | ۶۹.۹ گیگابایت | ۳۴.۹ گیگابایت | ۱۷.۵ گیگابایت | - | - |
جدول ۱. حافظه تقریبی GPU یا TPU مورد نیاز برای بارگذاری مدلهای Gemma 4 بر اساس تعداد پارامترها، سطح کوانتیزاسیون و ۲۰٪ سربار بارگذاری موارد اضافی. نسخههای موبایل از LiteRT-LM استفاده میکنند.
ملاحظات کلیدی برای برنامهریزی حافظه
- معماری کارآمد (E2B و E4B): حرف "E" مخفف پارامترهای "موثر" است. مدلهای کوچکتر، جاسازیهای هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیادهسازیهای روی دستگاه، در خود جای میدهند. PLE به جای اضافه کردن لایههای بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن میدهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده میشوند، به همین دلیل است که کل حافظه مورد نیاز برای بارگذاری وزنهای استاتیک بیشتر از تعداد پارامترهای موثر است.
- معماری MoE (26B A4B): مدل 26B ترکیبی از متخصصان است. اگرچه در طول تولید، تنها 4 میلیارد پارامتر به ازای هر توکن فعال میکند، اما برای حفظ سرعت بالای مسیریابی و استنتاج، باید تمام 26 میلیارد پارامتر در حافظه بارگذاری شوند. به همین دلیل است که نیاز پایه حافظه آن به مدل متراکم 26B بسیار نزدیکتر از مدل 4B است.
- فقط وزنهای پایه: تخمینهای جدول قبل فقط حافظه مورد نیاز برای بارگذاری وزنهای مدل استاتیک را در نظر میگیرند. این تخمینها شامل VRAM اضافی مورد نیاز برای پشتیبانی از نرمافزار یا پنجره context نمیشوند.
- پنجره زمینه (حافظه نهان KV): مصرف حافظه به صورت پویا بر اساس تعداد کل توکنهای موجود در اعلان شما و پاسخ تولید شده افزایش مییابد. پنجرههای زمینه بزرگتر علاوه بر وزنهای مدل پایه، به VRAM قابل توجهی بیشتری نیاز دارند.
- سربار تنظیم دقیق: الزامات حافظه برای تنظیم دقیق مدلهای Gemma به طور قابل توجهی بیشتر از استنتاج استاندارد است. میزان دقیق فضای مورد نیاز شما به شدت به چارچوب توسعه، اندازه دسته و اینکه آیا از تنظیم دقیق با دقت کامل در مقابل یک روش تنظیم دقیق با پارامتر کارآمد (PEFT) مانند انطباق با رتبه پایین (LoRA) استفاده میکنید، بستگی دارد.
آموزش آگاه از کوانتیزاسیون (QAT)
برای استقرارهایی که نیازمند حداکثر بهرهوری با حداقل افت کیفیت هستند، Gemma مدلهای رسمی آموزش آگاه از کمیت (QAT) را ارائه میدهد.
برخلاف روش استاندارد کوانتیزاسیون پس از آموزش (PTQ)، که یک مدل کاملاً آموزشدیده را فشرده میکند و میتواند منجر به افت کیفیت شود، QAT شبیهسازی کوانتیزاسیون را در خود فرآیند آموزش ادغام میکند. این امر به مدل اجازه میدهد تا یاد بگیرد که کاهش دقت را جبران کند و در نتیجه مدلهای کوچکتری تولید میکند که تقریباً عملکرد یکسانی با خطوط پایه با دقت بالای خود دارند.
جدول مسیریابی سریع
| موتور استقرار هدف | دانلود پسوند | مورد استفاده اصلی |
|---|---|---|
| llama.cpp / LM Studio (محلی) | {model-name}-qat-q4_0-gguf | استقرار محلی بدون نیاز به تنظیمات اولیه روی CPU، Apple Silicon یا GPU های مصرفی. |
| vLLM / SGLang | سرور: {model-name}-qat-w4a16-ctموبایل: {model-name}-qat-mobile-ct | استنتاج با توان عملیاتی بالا با استفاده از وزنهای ۴ بیتی با فعالسازیهای ۱۶ بیتی. |
| رمزگشایی حدسی | مدل: {model-name}-qat-q4_0-unquantizedطراح: {model-name}-qat-q4_0-unquantized-assistant | اجرای یک مدل اولیه در کنار مدل پیشنویس MTP منطبق با آن برای تسریع چشمگیر تولید توکن. این مدل باید کوانتیزه شود. |
| قالبهای دیگر | {model-name}-qat-q4_0-unquantized | وزنهای کوانتیزه نشده برای تبدیل به فرمتهای دیگر (مثلاً MLX) |
| استقرار سیار (ترانسفورماتورها) | {model-name}-qat-mobile-transformers | وزنهای لبه برای موارد استفاده موبایل بهینه شدهاند. آنها به عنوان مرجع برای سایر قالبها عمل میکنند. |
مجموعههای رسمی QAT در Hugging Face
- مجموعهها/گوگل/gemma-4-qat-q4-0
- نقاط کنترل QAT کوانتیزه نشده (
-unquantized/-assistant): وزنهای نیمهدقتی که مستقیماً از خط لوله QAT استخراج میشوند. این موارد برای کامپایل سفارشی پاییندستی، تحقیق یا اجرای رمزگشایی گمانهزننده با استفاده از مدلهای دستیار پیشنویس ایدهآل هستند. برای Gemma 4 E2B، E4B، 12B، 26B A4B و 31B موجود است. - GGUF (
-gguf): نقاط بررسی موجود برای سازگاری فوری در سراسر اکوسیستم LLM محلی. برای Gemma 4 E2B، E4B، 12B، 26B A4B و 31B موجود است. - تنسورهای فشرده (
-w4a16-ct): به صورت بومی در استانداردcompressed-tensorsسریالی شده تا سرویس ابری بهینه و با همزمانی بالا ارائه شود. برای Gemma 4 E2B، E4B، 12B و 31B موجود است.
- نقاط کنترل QAT کوانتیزه نشده (
- مجموعهها/گوگل/جمما-۴-قط-موبایل
- بهینهسازیشده برای موبایل (
-mobile-transformers/-mobile-ct): ساختهشده بر اساس یک طرحwNa8o8سفارشی که بهطور خاص برای محدودیتهای سختافزار موبایل مهندسی شده است. این طرح از لایههای رمزگشایی دو بیتی هدفمند، حافظههای نهان KV بهینهشده و فعالسازیهای استاتیک برای به حداکثر رساندن صرفهجویی در رم دستگاه بدون ایجاد اختلال در پردازندههای لبهای استفاده میکند. برای Gemma 4 E2B و E4B موجود است.
- بهینهسازیشده برای موبایل (
به همه ایستگاههای بازرسی رسمی Gemma 4 QAT نیز میتوان مستقیماً از Kaggle دسترسی پیدا کرد.
مدلهای قبلی جما
شما میتوانید با نسلهای قبلی مدلهای Gemma کار کنید که از Kaggle و Hugging Face نیز موجود هستند. برای جزئیات فنی بیشتر در مورد مدلهای قبلی Gemma، به صفحات کارت مدل زیر مراجعه کنید:
آماده شروع ساخت و ساز هستید؟ با مدلهای Gemma شروع کنید !