مدلهای Gemma 4 برای ارائه عملکرد سطح بالا در هر اندازه طراحی شدهاند و سناریوهای استقرار را از دستگاههای تلفن همراه و لبه (E2B، E4B) گرفته تا پردازندههای گرافیکی و ایستگاههای کاری مصرفی (26B A4B، 31B) هدف قرار میدهند. آنها برای استدلال، گردشهای کاری عاملی، کدنویسی و درک چندوجهی بسیار مناسب هستند.
Gemma 4 تحت مجوز Apache-2.0 منتشر شده است. برای جزئیات بیشتر، به کارت مدل Gemma 4 مراجعه کنید.
🔴 چه خبر: پیشبینی چند توکنی
پیشبینی چند توکنی (MTP) یک بهینهسازی عملکرد جدید است که سرعت رمزگشایی را در سراسر CPU و GPU با افت کیفیت صفر به طور قابل توجهی افزایش میدهد.
- دستاوردهای عملکرد:
- پردازنده گرافیکی: شتاب فوقالعاده، که تا ۲.۲ برابر سرعت رمزگشایی را در پردازندههای گرافیکی موبایل ارائه میدهد.
- پردازنده: عملکرد در پردازندههای موبایل تا ۱.۵ برابر افزایش مییابد و در سختافزارهای مخصوص صنایع کوچک و متوسط (مثل مکبوکهای M4) شتاب قابل توجهی میگیرد.
- توصیهها: MTP به طور جهانی برای همه وظایف در بکاندهای GPU و برای مدل Gemma4-E4B در CPU توصیه میشود. برای مدل Gemma4-E2B در CPU، برای وظایف بازنویسی، خلاصهسازی و کدنویسی بسیار ارزشمند است، اما باید به صورت انتخابی فعال شود زیرا ممکن است باعث کندی جزئی در هنگام درخواست فرم آزاد یا وظایف مولد شود.
برای امتحان کردن آن، به راهنماهای مخصوص هر پلتفرم مراجعه کنید:
- رابط خط فرمان LiteRT-LM
- راهنمای API پایتون
- راهنمای اندروید (کاتلین)
- راهنمای iOS (سوئیفت)
- راهنمای API سی پلاس پلاس
شروع کنید
گفتگو با Gemma4-E2B، میزبانی شده در انجمن Hugging Face LiteRT.
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
استقرار از Safetensors
برای استقرار Gemma 4 با شروع از safetensor های سفارشی خود (به عنوان مثال، پس از تنظیم دقیق مدل برای مورد استفاده خود)، این مراحل را دنبال کنید:
تبدیل به فرمت
.litertlm:uv tool install litert-torch-nightly litert-torch export_hf \ --model=google/gemma-4-E2B-it \ --output_dir=/tmp/gemma4_2b \ --externalize_embedder \ --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lmبا استفاده از APIهای چند پلتفرمی LiteRT-LM مستقر شوید:
litert-lm run \ /tmp/gemma4_2b/model.litertlm \ --prompt="What is the capital of France?"
خلاصه عملکرد
جما-۴-ای۲بی
- حجم مدل: ۲.۵۸ گیگابایت
جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.
پلتفرم (دستگاه) بکاند پیش پر کردن (tk/s) رمزگشایی (tk/s) زمان تا اولین توکن (ثانیه) حداکثر حافظه پردازنده (مگابایت) اندروید (S26 اولترا) پردازنده ۵۵۷ ۴۷ ۱.۸ ۱۷۳۳ پردازنده گرافیکی ۳۸۰۸ ۵۲ ۰.۳ ۶۷۶ عدد آیاواس (آیفون ۱۷ پرو) پردازنده ۵۳۲ ۲۵ ۱.۹ ۶۰۷ پردازنده گرافیکی ۲۸۷۸ ۵۶ ۰.۳ ۱۴۵۰ لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جیفورس RTX ۴۰۹۰) پردازنده ۲۶۰ ۳۵ ۴ ۱۶۲۸ پردازنده گرافیکی ۱۱۲۳۴ ۱۴۳ ۰.۱ ۹۱۳ مکاواس (مکبوک پرو M4) پردازنده ۹۰۱ ۴۲ ۱.۱ ۷۳۶ عدد پردازنده گرافیکی 7835 ۱۶۰ ۰.۱ ۱۶۲۳ ویندوز (اینتل لونار لیک) پردازنده ۴۳۵ ۳۰ ۲.۴ ۳۵۰۵ پردازنده گرافیکی ۳۷۵۱ ۴۸ ۰.۳ ۳۵۴۰ اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت) پردازنده ۱۳۳ ۸ ۷.۸ ۱۵۴۶
جما-۴-ای۴بی
- حجم مدل: ۳.۶۵ گیگابایت
جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.
پلتفرم (دستگاه) بکاند پیش پر کردن (tk/s) رمزگشایی (tk/s) زمان تا اولین توکن (ثانیه) حداکثر حافظه پردازنده (مگابایت) اندروید (S26 اولترا) پردازنده ۱۹۵ ۱۸ ۵.۳ ۳۲۸۳ عدد پردازنده گرافیکی ۱۲۹۳ ۲۲ ۰.۸ ۷۱۰ آیاواس (آیفون ۱۷ پرو) پردازنده ۱۵۹ ۱۰ ۶.۵ ۹۶۱ پردازنده گرافیکی ۱۱۸۹ ۲۵ ۰.۹ ۳۳۸۰ عدد لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز / RTX 4090) پردازنده ۸۲ ۱۸ ۱۲.۶ ۳۱۳۹ پردازنده گرافیکی 7260 ۹۱ ۰.۲ ۱۱۱۹ مکاواس (مکبوک پرو ام۴ مکس) پردازنده ۲۷۷ ۲۷ ۳.۷ ۸۹۰ پردازنده گرافیکی ۲۵۶۰ عدد ۱۰۱ ۰.۴ ۳۲۱۷ عدد ویندوز (اینتل لونار لیک) پردازنده ۱۷۳ ۱۷ ۶.۰ ۹۳۷۲ عدد پردازنده گرافیکی ۱۲۰۲ ۲۵ ۰.۹ ۷۱۴۷ عدد اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت) پردازنده ۵۱ ۳ ۲۰.۵ 3069