جما ۴

مدل‌های Gemma 4 برای ارائه عملکرد سطح بالا در هر اندازه طراحی شده‌اند و سناریوهای استقرار را از دستگاه‌های تلفن همراه و لبه (E2B، E4B) گرفته تا پردازنده‌های گرافیکی و ایستگاه‌های کاری مصرفی (26B A4B، 31B) هدف قرار می‌دهند. آن‌ها برای استدلال، گردش‌های کاری عاملی، کدنویسی و درک چندوجهی بسیار مناسب هستند.

Gemma 4 تحت مجوز Apache-2.0 منتشر شده است. برای جزئیات بیشتر، به کارت مدل Gemma 4 مراجعه کنید.

🔴 چه خبر: پیش‌بینی چند توکنی

پیش‌بینی چند توکنی (MTP) یک بهینه‌سازی عملکرد جدید است که سرعت رمزگشایی را در سراسر CPU و GPU با افت کیفیت صفر به طور قابل توجهی افزایش می‌دهد.

دستاوردهای عملکرد:
- پردازنده گرافیکی: شتاب فوق‌العاده، که تا ۲.۲ برابر سرعت رمزگشایی را در پردازنده‌های گرافیکی موبایل ارائه می‌دهد.
- پردازنده: عملکرد در پردازنده‌های موبایل تا ۱.۵ برابر افزایش می‌یابد و در سخت‌افزارهای مخصوص صنایع کوچک و متوسط (مثل مک‌بوک‌های M4) شتاب قابل توجهی می‌گیرد.
توصیه‌ها: MTP به طور جهانی برای همه وظایف در بک‌اندهای GPU و برای مدل Gemma4-E4B در CPU توصیه می‌شود. برای مدل Gemma4-E2B در CPU، برای وظایف بازنویسی، خلاصه‌سازی و کدنویسی بسیار ارزشمند است، اما باید به صورت انتخابی فعال شود زیرا ممکن است باعث کندی جزئی در هنگام درخواست فرم آزاد یا وظایف مولد شود.

برای امتحان کردن آن، به راهنماهای مخصوص هر پلتفرم مراجعه کنید:

شروع کنید

گفتگو با Gemma4-E2B، میزبانی شده در انجمن Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

استقرار از Safetensors

برای استقرار Gemma 4 با شروع از safetensor های سفارشی خود (به عنوان مثال، پس از تنظیم دقیق مدل برای مورد استفاده خود)، این مراحل را دنبال کنید:

تبدیل به فرمت .litertlm :

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=google/gemma-4-E2B-it \
  --output_dir=/tmp/gemma4_2b \
  --externalize_embedder \
  --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm

با استفاده از APIهای چند پلتفرمی LiteRT-LM مستقر شوید:

litert-lm run  \
  /tmp/gemma4_2b/model.litertlm \
  --prompt="What is the capital of France?"

خلاصه عملکرد

جما-۴-ای۲بی

حجم مدل: ۲.۵۸ گیگابایت

Additional technical details are in the HuggingFace model card

پلتفرم (دستگاه)	بک‌اند	پیش پر کردن (tk/s)	رمزگشایی (tk/s)	زمان تا اولین توکن (ثانیه)	حداکثر حافظه پردازنده (مگابایت)
اندروید (S26 اولترا)	پردازنده	۵۵۷	۴۷	۱.۸	۱۷۳۳
اندروید (S26 اولترا)	پردازنده گرافیکی	۳۸۰۸	۵۲	۰.۳	۶۷۶ عدد
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده	۵۳۲	۲۵	۱.۹	۶۰۷
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده گرافیکی	۲۸۷۸	۵۶	۰.۳	۱۴۵۰
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جی‌فورس RTX ۴۰۹۰)	پردازنده	۲۶۰	۳۵	۴	۱۶۲۸
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جی‌فورس RTX ۴۰۹۰)	پردازنده گرافیکی	۱۱۲۳۴	۱۴۳	۰.۱	۹۱۳
مک‌او‌اس (مک‌بوک پرو M4)	پردازنده	۹۰۱	۴۲	۱.۱	۷۳۶ عدد
مک‌او‌اس (مک‌بوک پرو M4)	پردازنده گرافیکی	7835	۱۶۰	۰.۱	۱۶۲۳
اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت)	پردازنده	۱۳۳	۸	۷.۸	۱۵۴۶

جما-۴-ای۴بی

حجم مدل: ۳.۶۵ گیگابایت

جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.

پلتفرم (دستگاه)	بک‌اند	پیش پر کردن (tk/s)	رمزگشایی (tk/s)	زمان تا اولین توکن (ثانیه)	حداکثر حافظه پردازنده (مگابایت)
اندروید (S26 اولترا)	پردازنده	۱۹۵	۱۸	۵.۳	۳۲۸۳ عدد
اندروید (S26 اولترا)	پردازنده گرافیکی	۱۲۹۳	۲۲	۰.۸	۷۱۰
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده	۱۵۹	۱۰	۶.۵	۹۶۱
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده گرافیکی	۱۱۸۹	۲۵	۰.۹	۳۳۸۰ عدد
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز / RTX 4090)	پردازنده	۸۲	۱۸	۱۲.۶	۳۱۳۹
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز / RTX 4090)	پردازنده گرافیکی	7260	۹۱	۰.۲	۱۱۱۹
مک‌او‌اس (مک‌بوک پرو ام۴ مکس)	پردازنده	۲۷۷	۲۷	۳.۷	۸۹۰
مک‌او‌اس (مک‌بوک پرو ام۴ مکس)	پردازنده گرافیکی	۲۵۶۰ عدد	۱۰۱	۰.۴	۳۲۱۷ عدد
اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت)	پردازنده	۵۱	۳	۲۰.۵	3069