نقدّم لك Google AI Edge Portal: أداة لقياس أداء الذكاء الاصطناعي على الأجهزة الطرفية على نطاق واسع. الاشتراك لطلب الوصول أثناء فترة المعاينة الخاصة

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4

تم تصميم نماذج Gemma 4 لتقديم أداء متطوّر في كل حجم، مع استهداف سيناريوهات النشر من الأجهزة الجوّالة وأجهزة الحافة (E2B وE4B) إلى وحدات معالجة الرسومات وأجهزة الكمبيوتر المكتبي للمستهلكين (26B A4B و31B). وهي مناسبة تمامًا للاستدلال، ومهام سير العمل بالذكاء الاصطناعي الوكيل، والترميز، وفهم المحتوى المتعدد الوسائط.

إنّ Gemma 4 مرخَّصة بموجب ترخيص Apache-2.0. لمزيد من التفاصيل، يُرجى الاطّلاع على بطاقة نموذج Gemma 4.

🔴 الميزة الجديدة: توقّع رموز متعددة

‫Multi-Token Prediction (MTP) هي عملية تحسين جديدة للأداء تؤدي إلى تسريع عمليات فك الترميز بشكل كبير على مستوى الخلفيات التي تستخدم وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) بدون أي تدهور في الجودة.

تحسينات الأداء:
- وحدة معالجة الرسومات: تسريع كبير، ما يتيح زيادة سرعة فك الترميز بمقدار 2.2 مرة على وحدات معالجة الرسومات للأجهزة الجوّالة
- وحدة المعالجة المركزية (CPU): تحسين الأداء بنسبة تصل إلى 1.5 مرة على وحدات المعالجة المركزية للأجهزة الجوّالة وتسريع كبير على الأجهزة المتوافقة مع SME (مثل أجهزة MacBook المزودة بشريحة M4)
الاقتراحات: يُنصح باستخدام MTP بشكل عام لجميع المهام على الخلفيات التي تستخدم وحدة معالجة الرسومات (GPU) ولنموذج Gemma4-E4B على وحدة المعالجة المركزية (CPU). بالنسبة إلى نموذج Gemma4-E2B على وحدة المعالجة المركزية، يُعدّ هذا النموذج مفيدًا جدًا في مهام إعادة الكتابة والتلخيص والترميز، ولكن يجب تفعيله بشكل انتقائي لأنّه قد يؤدي إلى تباطؤ طفيف أثناء تقديم الطلبات الحرة أو تنفيذ المهام التوليدية.

لتجربة هذه الميزة، يُرجى الاطّلاع على الأدلة الخاصة بكل نظام أساسي:

البدء

يمكنك الدردشة مع Gemma4-E2B المستضافة على منتدى Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

النشر من Safetensors

اتّبِع الخطوات التالية لنشر Gemma 4 بدءًا من ملفات safetensors المخصّصة (على سبيل المثال، بعد ضبط النموذج بدقة لحالة الاستخدام الخاصة بك):

التحويل إلى تنسيق .litertlm:

uv tool install litert-torch-nightly

litert-torch export_hf \
  --model=google/gemma-4-E2B-it \
  --output_dir=/tmp/gemma4_2b \
  --externalize_embedder \
  --jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm

النشر باستخدام واجهات برمجة التطبيقات المتوافقة مع منصات متعددة في LiteRT-LM:
```
litert-lm run  \
  /tmp/gemma4_2b/model.litertlm \
  --prompt="What is the capital of France?"
```

ملخص الأداء

Gemma-4-E2B

حجم النموذج: 2.58 غيغابايت

تتوفّر تفاصيل فنية إضافية في بطاقة نموذج HuggingFace.

النظام الأساسي (الجهاز)	الخلفية	الملء المُسبَق (لكل ثانية)	فك الترميز (ألف وحدة/ثانية)	الوقت اللازم لظهور أول رمز مميز (بالثواني)	الحد الأقصى لذاكرة وحدة المعالجة المركزية (ميغابايت)
‫Android (S26 Ultra)	وحدة معالجة مركزية (CPU)	557	47	1.8	1733
‫Android (S26 Ultra)	وحدة معالجة الرسومات	3808	52	0.3	676
iOS (iPhone 17 Pro)	وحدة معالجة مركزية (CPU)	532	25	1.9	607
iOS (iPhone 17 Pro)	وحدة معالجة الرسومات	2878	56	0.3	1450
‫Linux (معالج Arm بتردد 2.3 و2.8 غيغاهرتز، بطاقة رسومات NVIDIA GeForce RTX 4090)	وحدة معالجة مركزية (CPU)	260	35	4	1628
	وحدة معالجة الرسومات	11234	143	0.1	913
‫macOS (MacBook Pro M4)	وحدة معالجة مركزية (CPU)	901	42	1.1	736
‫macOS (MacBook Pro M4)	وحدة معالجة الرسومات	7835	160	0.1	1623
إنترنت الأشياء (Raspberry Pi 5 16GB)	وحدة معالجة مركزية (CPU)	133	8	7.8	1546

Gemma-4-E4B

حجم النموذج: 3.65 غيغابايت

تتوفّر تفاصيل فنية إضافية في بطاقة نموذج HuggingFace.

النظام الأساسي (الجهاز)	الخلفية	الملء المُسبَق (لكل ثانية)	فك الترميز (ألف وحدة/ثانية)	الوقت اللازم لظهور أول رمز مميز (بالثواني)	الحد الأقصى لذاكرة وحدة المعالجة المركزية (ميغابايت)
‫Android (S26 Ultra)	وحدة معالجة مركزية (CPU)	195	18	5.3	3283
‫Android (S26 Ultra)	وحدة معالجة الرسومات	1293	22	0.8	710
iOS (iPhone 17 Pro)	وحدة معالجة مركزية (CPU)	159	10	6.5	961
iOS (iPhone 17 Pro)	وحدة معالجة الرسومات	1189	25	0.9	3380
‫Linux (معالج Arm بسرعة 2.3 و2.8 غيغاهرتز / بطاقة رسومات RTX 4090)	وحدة معالجة مركزية (CPU)	82	18	12.6	3139
	وحدة معالجة الرسومات	7260	91	0.2	1119
‫macOS (MacBook Pro M4 Max)	وحدة معالجة مركزية (CPU)	277	27	3.7	890
‫macOS (MacBook Pro M4 Max)	وحدة معالجة الرسومات	2560	101	0.4	3217
إنترنت الأشياء (Raspberry Pi 5 16GB)	وحدة معالجة مركزية (CPU)	51	3	20.5	3069