Gemma 4

تم تصميم نماذج Gemma 4 لتقديم أداء متطوّر في كل حجم، مع استهداف سيناريوهات النشر من الأجهزة الجوّالة وأجهزة الحافة (E2B وE4B) إلى وحدات معالجة الرسومات وأجهزة الكمبيوتر المكتبي للمستهلكين (26B A4B و31B). وهي مناسبة تمامًا للاستدلال، ومهام سير العمل بالذكاء الاصطناعي الوكيل، والترميز، وفهم المحتوى المتعدد الوسائط.

إنّ Gemma 4 مرخَّصة بموجب ترخيص Apache-2.0. لمزيد من التفاصيل، يُرجى الاطّلاع على بطاقة نموذج Gemma 4.

🔴 الميزة الجديدة: توقّع رموز متعددة

‫Multi-Token Prediction (MTP) هي عملية تحسين جديدة للأداء تؤدي إلى تسريع عمليات فك الترميز بشكل كبير على مستوى الخلفيات التي تستخدم وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) بدون أي تدهور في الجودة.

  • تحسينات الأداء:
    • وحدة معالجة الرسومات: تسريع كبير، ما يتيح زيادة سرعة فك الترميز بمقدار 2.2 مرة على وحدات معالجة الرسومات للأجهزة الجوّالة
    • وحدة المعالجة المركزية (CPU): تحسين الأداء بنسبة تصل إلى 1.5 مرة على وحدات المعالجة المركزية للأجهزة الجوّالة وتسريع كبير على الأجهزة المتوافقة مع SME (مثل أجهزة MacBook المزودة بشريحة M4)
  • الاقتراحات: يُنصح باستخدام MTP بشكل عام لجميع المهام على الخلفيات التي تستخدم وحدة معالجة الرسومات (GPU) ولنموذج Gemma4-E4B على وحدة المعالجة المركزية (CPU). بالنسبة إلى نموذج Gemma4-E2B على وحدة المعالجة المركزية، يُعدّ هذا النموذج مفيدًا جدًا في مهام إعادة الكتابة والتلخيص والترميز، ولكن يجب تفعيله بشكل انتقائي لأنّه قد يؤدي إلى تباطؤ طفيف أثناء تقديم الطلبات الحرة أو تنفيذ المهام التوليدية.

لتجربة هذه الميزة، يُرجى الاطّلاع على الأدلة الخاصة بكل نظام أساسي:

البدء

يمكنك الدردشة مع Gemma4-E2B المستضافة على منتدى Hugging Face LiteRT.

uv tool install litert-lm

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

النشر من Safetensors

اتّبِع الخطوات التالية لنشر Gemma 4 بدءًا من ملفات safetensors المخصّصة (على سبيل المثال، بعد ضبط النموذج بدقة لحالة الاستخدام الخاصة بك):

ملخص الأداء

Gemma-4-E2B

  • حجم النموذج: 2.58 غيغابايت
  • تتوفّر تفاصيل فنية إضافية في بطاقة نموذج HuggingFace.

    النظام الأساسي (الجهاز) الخلفية الملء المُسبَق (لكل ثانية) فك الترميز (ألف وحدة/ثانية) الوقت اللازم لظهور أول رمز مميز (بالثواني) الحد الأقصى لذاكرة وحدة المعالجة المركزية (ميغابايت)
    ‫Android (S26 Ultra) وحدة معالجة مركزية (CPU) 557 47 1.8 1733
    وحدة معالجة الرسومات 3808 52 0.3 676
    iOS (iPhone 17 Pro) وحدة معالجة مركزية (CPU) 532 25 1.9 607
    وحدة معالجة الرسومات 2878 56 0.3 1450
    ‫Linux (معالج Arm بتردد 2.3 و2.8 غيغاهرتز، بطاقة رسومات NVIDIA GeForce RTX 4090) وحدة معالجة مركزية (CPU) 260 35 4 1628
    وحدة معالجة الرسومات 11234 143 0.1 913
    ‫macOS (MacBook Pro M4) وحدة معالجة مركزية (CPU) 901 42 1.1 736
    وحدة معالجة الرسومات 7835 160 0.1 1623
    إنترنت الأشياء (Raspberry Pi 5 16GB) وحدة معالجة مركزية (CPU) 133 8 7.8 1546

Gemma-4-E4B

  • حجم النموذج: 3.65 غيغابايت
  • تتوفّر تفاصيل فنية إضافية في بطاقة نموذج HuggingFace.

    النظام الأساسي (الجهاز) الخلفية الملء المُسبَق (لكل ثانية) فك الترميز (ألف وحدة/ثانية) الوقت اللازم لظهور أول رمز مميز (بالثواني) الحد الأقصى لذاكرة وحدة المعالجة المركزية (ميغابايت)
    ‫Android (S26 Ultra) وحدة معالجة مركزية (CPU) 195 18 5.3 3283
    وحدة معالجة الرسومات 1293 22 0.8 710
    iOS (iPhone 17 Pro) وحدة معالجة مركزية (CPU) 159 10 6.5 961
    وحدة معالجة الرسومات 1189 25 0.9 3380
    ‫Linux (معالج Arm بسرعة 2.3 و2.8 غيغاهرتز / بطاقة رسومات RTX 4090) وحدة معالجة مركزية (CPU) 82 18 12.6 3139
    وحدة معالجة الرسومات 7260 91 0.2 1119
    ‫macOS (MacBook Pro M4 Max) وحدة معالجة مركزية (CPU) 277 27 3.7 890
    وحدة معالجة الرسومات 2560 101 0.4 3217
    إنترنت الأشياء (Raspberry Pi 5 16GB) وحدة معالجة مركزية (CPU) 51 3 20.5 3069