هناك قراران رئيسيان يجب اتخاذهما عند الرغبة في تشغيل نموذج Gemma: 1) تحديد نوع نموذج Gemma الذي تريد تشغيله، و2) تحديد إطار عمل تنفيذ الذكاء الاصطناعي الذي ستستخدمه لتشغيله. تتعلّق مشكلة رئيسية في اتخاذ هذين القرارين بالأجهزة التي تتوفّر لك وللمستخدمين لتشغيل النموذج.
تساعدك هذه النظرة العامة في اتخاذ هذه القرارات والبدء في استخدام نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:
اختيار إطار عمل
تتوافق نماذج Gemma مع مجموعة كبيرة من أدوات النظام الإيكولوجي. يعتمد اختيار الأداة المناسبة على الأجهزة المتاحة (وحدات معالجة الرسومات في السحابة الإلكترونية مقابل الكمبيوتر المحمول المحلي) وعلى واجهة المستخدم المفضّلة (رمز Python مقابل تطبيق الكمبيوتر المكتبي).
استخدِم الجدول التالي لتحديد أفضل أداة بسرعة لتلبية احتياجاتك:
| إذا كنت ترغب في... | إطار العمل المقترَح | متوافق مع: |
|---|---|---|
| التشغيل محليًا باستخدام واجهة مستخدم Chat | - LM Studio - Ollama |
المبتدئون أو المستخدمون الذين يريدون تجربة "مشابهة لتجربة Gemini" على الكمبيوتر المحمول |
| التشغيل بكفاءة على الأجهزة الطرفية | - LiteRT-LM - llama.cpp - MLX |
الاستنتاج المحلي عالي الأداء باستخدام الحد الأدنى من الموارد |
| الإنشاء/التدريب في Python | - Tunix (Tune-in-JAX) - Hugging Face Transformers - Keras - Unsloth |
الباحثون والمطوّرون الذين ينشئون تطبيقات مخصّصة أو يحسّنون النماذج |
| النشر في بيئة الإنتاج / المؤسسة | - Google Cloud Kubernetes Engine (GKE) - Gemini Enterprise Agent Platform - vLLM - SGLang |
النشر السحابي المُدار والقابل للتوسّع مع أمان المؤسسة ودعم MLOps |
تفاصيل إطار العمل
في ما يلي أدلة لتشغيل نماذج Gemma مصنّفة حسب بيئة النشر.
1. الكمبيوتر المكتبي والاستنتاج المحلي (بكفاءة عالية)
تتيح لك هذه الأدوات تشغيل Gemma على أجهزة المستهلكين (أجهزة الكمبيوتر المحمولة والمكتبية) باستخدام تنسيقات محسّنة (مثل GGUF) أو مسرّعات أجهزة محدّدة.
- LM Studio: هو تطبيق كمبيوتر مكتبي يتيح لك تنزيل نماذج Gemma والدردشة معها في واجهة سهلة الاستخدام. ولا حاجة إلى استخدام أي ترميز.
- llama.cpp: هو إصدار شائع مفتوح المصدر من Llama (و Gemma) مكتوب بلغة C++، ويعمل بسرعة فائقة على وحدات المعالجة المركزية وApple Silicon.
- LiteRT-LM: يوفّر واجهة سطر أوامر
(CLI) لتشغيل نماذج Gemma المحسّنة على الكمبيوتر المكتبي
(Windows وLinux وmacOS)، ويستند إلى LiteRT (المعروف سابقًا باسم TFLite).
.litertlm - MLX: هو إطار عمل مصمّم خصيصًا لتعلُّم الآلة على Apple Silicon، وهو مثالي لمستخدمي أجهزة Mac الذين يريدون أداءً مدمجًا.
- Ollama: هي أداة لتشغيل النماذج اللغوية الكبيرة المفتوحة المصدر محليًا، وغالبًا ما تُستخدَم لتشغيل تطبيقات أخرى.
2. التطوير باستخدام Python (البحث والتحسين)
أطر العمل العادية لمطوّري الذكاء الاصطناعي الذين ينشئون تطبيقات أو مسارات أو نماذج تدريب
- Hugging Face Transformers: هو المعيار المتّبع في المجال للوصول السريع إلى النماذج والمسارات.
- Unsloth: هي مكتبة محسّنة لتحسين النماذج اللغوية الكبيرة. تتيح لك تدريب نماذج Gemma أسرع من 2 إلى 5 مرات باستخدام ذاكرة أقل بكثير، ما يتيح إمكانية التحسين على وحدات معالجة الرسومات الخاصة بالمستهلكين (مثل مستويات Google Colab المجانية).
- Keras / Tunix (Tune-in-JAX): هما مكتبتان أساسيتان لأبحاث التعلُّم العميق وتنفيذ البُنى المخصّصة.
3. النشر على الأجهزة الجوّالة والأجهزة الطرفية (على الجهاز)
أطر العمل المصمّمة لتشغيل النماذج اللغوية الكبيرة مباشرةً على أجهزة المستخدمين (Android وiOS والويب) بدون الاتصال بالإنترنت، وغالبًا ما تستخدم وحدات المعالجة العصبية (NPUs)
- LiteRT-LM: هو إطار العمل المفتوح المصدر بالكامل لتطوير النماذج اللغوية الكبيرة على الجهاز، ويوفّر أقصى أداء وتحكّمًا دقيقًا، مع دعم مباشر لتسريع وحدة المعالجة المركزية ووحدة معالجة الرسومات ووحدة المعالجة العصبية على Android وiOS.
4. النشر في السحابة الإلكترونية وبيئة الإنتاج
الخدمات المُدارة لتوسيع نطاق تطبيقك ليشمل آلاف المستخدمين أو الوصول إلى قدرة حوسبة هائلة
- Gemini Enterprise Agent Platform: هي منصة الذكاء الاصطناعي المُدارة بالكامل من Google Cloud. وهي الأفضل لتطبيقات المؤسسات التي تتطلّب اتفاقيات مستوى الخدمة والتوسّع.
- Google Cloud Kubernetes Engine (GKE): لتنسيق مجموعات العرض الخاصة بك
- vLLM
- SGLang
تأكَّد من أنّ تنسيق نموذج Gemma الذي تريد نشره، مثل التنسيق المضمّن في Keras أو Safetensors أو GGUF، متوافق مع إطار العمل الذي اخترته.
اختيار نوع نموذج Gemma
تتوفّر نماذج Gemma بعدة أنواع وأحجام، بما في ذلك النماذج الأساسية أو الرئيسية من Gemma، وأنواع النماذج الأكثر تخصّصًا مثل PaliGemma و DataGemma، والعديد من الأنواع التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل Kaggle و Hugging Face. إذا لم تكن متأكدًا من النوع الذي يجب أن تبدأ به، اختَر أحدث نموذج Gemma أساسي محسّن بالتعليمات (IT) يحتوي على أقل عدد من المَعلمات. يتطلّب هذا النوع من نماذج Gemma قدرة حوسبة منخفضة ويمكنه الردّ على مجموعة كبيرة من الطلبات بدون الحاجة إلى تطوير إضافي.
ضَع العوامل التالية في الاعتبار عند اختيار نوع نموذج Gemma:
- Gemma الأساسي وأنواع النماذج الأخرى مثل PaliGemma وCodeGemma: ننصح باستخدام Gemma (الأساسي). تتّبع أنواع نماذج Gemma التي تتجاوز الإصدار الأساسي البنية نفسها التي يتّبعها النموذج الأساسي، ويتم تدريبها على أداء المهام المحدّدة بشكل أفضل. إذا لم يكن تطبيقك أو أهدافك متوافقة مع تخصّص نوع نموذج Gemma محدّد، من الأفضل البدء بنموذج Gemma أساسي أو نموذج قاعدة.
- محسّن بالتعليمات (IT) أو مدرَّب مسبقًا (PT) أو محسّن (FT) أو مختلط
(mix): ننصح باستخدام النوع المحسّن بالتعليمات (IT).
- أنواع نماذج Gemma المحسّنة بالتعليمات (IT) هي نماذج تم تدريبها على الردّ على مجموعة متنوّعة من التعليمات أو الطلبات باللغة البشرية. تُعدّ هذه الأنواع من النماذج أفضل مكان للبدء لأنّها يمكنها الردّ على الطلبات بدون تدريب النموذج بشكل إضافي.
- أنواع نماذج Gemma المدرَّبة مسبقًا (PT) هي نماذج تم تدريبها على إجراء استنتاجات حول اللغة أو البيانات الأخرى، ولكن لم يتم تدريبها على اتّباع التعليمات البشرية. تتطلّب هذه النماذج تدريبًا أو تحسينًا إضافيًا لتتمكّن من أداء المهام بفعالية، وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة إمكانات النموذج وبنيته أو تطويرهما.
- يمكن اعتبار أنواع نماذج Gemma المحسّنة (FT) أنواعًا محسّنة بالتعليمات (IT)، ولكن يتم تدريبها عادةً على أداء مهمة محدّدة أو تحقيق أداء جيد في معيار محدّد للذكاء الاصطناعي التوليدي. تتضمّن عائلة أنواع نماذج PaliGemma عددًا من الأنواع المحسّنة (FT).
- أنواع نماذج Gemma المختلطة (mix) هي إصدارات من نماذج PaliGemma تم تحسينها بالتعليمات باستخدام مجموعة متنوّعة من التعليمات وهي مناسبة للاستخدام العام.
- المَعلمات: ننصح باستخدام أقل عدد متاح. بوجهٍ عام، كلما زاد عدد المَعلمات في النموذج، زادت إمكاناته. ومع ذلك، يتطلّب تشغيل النماذج الأكبر حجمًا موارد حوسبة أكبر وأكثر تعقيدًا، ويؤدي عمومًا إلى إبطاء عملية تطوير تطبيق الذكاء الاصطناعي. إذا لم تكن قد حدّدت بعد أنّ نموذج Gemma أصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يحتوي على عدد قليل من المَعلمات.
- مستويات التكميم: ننصح باستخدام نصف الدقة (16 بت)، باستثناء التحسين. التكميم هو موضوع معقّد يتلخّص في حجم البيانات ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب النموذج باستخدام بيانات عالية الدقة، وهي عادةً بيانات النقطة العائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات أقل دقة مثل الأحجام 16 أو 8 أو 4 بت. لا يزال بإمكان نماذج Gemma المُكمَّمة هذه تحقيق أداء جيد، حسب مدى تعقيد المهام، مع استخدام موارد حوسبة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات تحسين النماذج المُكمَّمة محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب تحسين نموذج مثل Gemma بدقة كاملة، ثم تكميم النموذج الناتج.
للاطّلاع على قائمة بنماذج Gemma الرئيسية التي نشرتها Google، يُرجى الاطّلاع على مقالة بدء استخدام نماذج Gemma وقائمة نماذج Gemma.
تنفيذ طلبات الإنشاء والاستنتاج
بعد اختيار إطار عمل تنفيذ الذكاء الاصطناعي ونوع نموذج Gemma، يمكنك البدء في تشغيل النموذج وطلب إنشاء محتوى أو إكمال مهام. لمزيد من المعلومات حول كيفية تشغيل Gemma باستخدام إطار عمل محدّد، يُرجى الاطّلاع على الـ أدلة المرتبطة في قسم اختيار إطار عمل.
تنسيق الطلب
تتطلّب جميع أنواع نماذج Gemma المحسّنة بالتعليمات تنسيقًا محدّدًا للطلبات. يتولّى إطار العمل الذي تستخدمه لتشغيل نماذج Gemma معالجة بعض متطلبات التنسيق هذه تلقائيًا، ولكن عند إرسال بيانات الطلب مباشرةً إلى أداة تقسيم الكلمات، يجب إضافة علامات محدّدة، ويمكن أن تتغيّر متطلبات وضع العلامات حسب نوع نموذج Gemma الذي تستخدمه. يُرجى الاطّلاع على الأدلة التالية للحصول على معلومات حول تنسيق طلبات نوع نموذج Gemma وتعليمات النظام: