عندما تريد تشغيل نموذج Gemma، عليك اتّخاذ قرارَين رئيسيَّين: 1) تحديد نوع Gemma الذي تريد تشغيله، و2) تحديد إطار عمل تنفيذ الذكاء الاصطناعي الذي ستستخدمه لتشغيله. تتعلّق إحدى المشاكل الرئيسية في اتّخاذ هذين القرارين بالأجهزة التي تتوفّر لك وللمستخدمين لتشغيل النموذج.
تساعدك هذه النظرة العامة في اتّخاذ هذه القرارات والبدء في استخدام نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:
اختيار إطار عمل
تتوافق نماذج Gemma مع مجموعة كبيرة من أدوات المنظومة المتكاملة. يعتمد اختيار الأداة المناسبة على الأجهزة المتاحة لديك (وحدات معالجة الرسومات على السحابة الإلكترونية مقابل أجهزة الكمبيوتر المحمولة المحلية) وعلى واجهة المستخدم المفضّلة لديك (رمز Python مقابل تطبيق سطح المكتب).
استخدِم الجدول التالي لتحديد الأداة الأنسب لاحتياجاتك بسرعة:
| إذا كنت ترغب في... | إطار العمل المُقترَح | متوافق مع: |
|---|---|---|
| التشغيل على الجهاز باستخدام واجهة مستخدم Chat | - LM Studio - Ollama |
المبتدئون أو المستخدمون الذين يريدون تجربة مشابهة لتجربة Gemini على الكمبيوتر المحمول |
| التشغيل بكفاءة على Edge | - LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX |
استنتاج محلي عالي الأداء باستخدام الحد الأدنى من الموارد |
| إنشاء/تدريب النموذج في Python | - مكتبة Gemma لـ JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth |
الباحثون والمطوّرون الذين ينشئون تطبيقات مخصّصة أو يضبطون النماذج بدقة |
| النشر في قناة الإصدار العلني / Enterprise | - Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
عمليات نشر قابلة للتوسيع ومُدارة على السحابة الإلكترونية مع توفير أمان المؤسسة ودعم MLOps |
تفاصيل إطار العمل
في ما يلي أدلة لتشغيل نماذج Gemma مصنّفة حسب بيئة النشر.
1. الاستدلال على الكمبيوتر والأجهزة المحلية (كفاءة عالية)
تتيح لك هذه الأدوات تشغيل Gemma على أجهزة المستهلكين (أجهزة الكمبيوتر المحمول والمكتبي) من خلال استخدام تنسيقات محسّنة (مثل GGUF) أو أدوات تسريع أجهزة معيّنة.
- LM Studio: هو تطبيق مخصّص لأجهزة الكمبيوتر يتيح لك تنزيل نماذج Gemma والتحدّث معها من خلال واجهة سهلة الاستخدام. ولا حاجة إلى استخدام أي ترميز.
- llama.cpp: هي نسخة مفتوحة المصدر ومكتوبة بلغة C++ من Llama (وGemma) وتعمل بسرعة فائقة على وحدات المعالجة المركزية وApple Silicon.
- LiteRT-LM: توفّر واجهة سطر أوامر
(CLI) لتشغيل نماذج
.litertlmGemma المحسّنة على أجهزة الكمبيوتر (Windows وLinux وmacOS)، وذلك باستخدام LiteRT (المعروفة سابقًا باسم TFLite). MLX: إطار عمل مصمّم خصيصًا لتعلُّم الآلة على أجهزة Apple Silicon، وهو مثالي لمستخدمي أجهزة Mac الذين يريدون أداءً مدمجًا.
Ollama: أداة لتشغيل نماذج لغوية كبيرة مفتوحة المصدر على الجهاز، ويتم استخدامها غالبًا لتشغيل تطبيقات أخرى.
2. تطوير Python (البحث والضبط الدقيق)
أُطر عمل عادية لمطوّري الذكاء الاصطناعي الذين ينشئون تطبيقات أو خطوط إنتاج أو نماذج تدريب
- Hugging Face Transformers: المعيار المتّبع في المجال للوصول السريع إلى النماذج وسير العمل.
- Unsloth: مكتبة محسّنة لضبط النماذج اللغوية الكبيرة بدقة تتيح لك هذه الأداة تدريب نماذج Gemma بشكل أسرع بمقدار 2 إلى 5 مرات مع استخدام ذاكرة أقل بكثير، ما يتيح إجراء عملية الضبط الدقيق على وحدات معالجة الرسومات المخصّصة للمستهلكين (مثل مستويات Google Colab المجانية).
- Keras / JAX / PyTorch: مكتبات أساسية لأبحاث التعلّم العميق وتنفيذ البنية المخصّصة
3- التفعيل على الأجهزة الجوّالة والأجهزة الطرفية (على الجهاز)
أُطر عمل مصمَّمة لتشغيل نماذج اللغات الكبيرة مباشرةً على أجهزة المستخدمين (Android وiOS والويب) بدون اتصال بالإنترنت، وغالبًا ما تستخدم وحدات معالجة عصبية (NPU).
- LiteRT-LM: إطار عمل مفتوح المصدر بالكامل لتطوير نماذج لغوية كبيرة (LLM) على الأجهزة فقط، يوفّر أقصى أداء وتحكّمًا دقيقًا، مع إمكانية الاستفادة مباشرةً من تسريع وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على أجهزة Android وiOS.
- واجهة برمجة التطبيقات MediaPipe LLM Inference API: هي أسهل طريقة لدمج Gemma في التطبيقات المتوافقة مع عدّة منصات. وتوفّر واجهة برمجة تطبيقات عالية المستوى تعمل على أجهزة Android وiOS والويب.
4. التفعيل في السحابة الإلكترونية وفي بيئة الإنتاج
خدمات مُدارة لتوسيع نطاق تطبيقك ليشمل آلاف المستخدمين أو الوصول إلى قدرة حوسبة هائلة
- Vertex AI: هي منصة ذكاء اصطناعي مُدارة بالكامل من Google Cloud. الخيار الأفضل لتطبيقات المؤسسات التي تتطلّب اتفاقيات مستوى الخدمة والتوسيع.
- Google Cloud Kubernetes Engine (GKE): لتنسيق مجموعات الخوادم الخاصة بك.
- vLLM: محرك استنتاج وتقديم عالي الإنتاجية وفعّال من حيث استخدام الذاكرة، ويُستخدم غالبًا في عمليات النشر على السحابة الإلكترونية.
تأكَّد من أنّ تنسيق نموذج Gemma الذي تريد نشره، مثل التنسيق المضمّن في Keras أو Safetensors أو GGUF، متوافق مع إطار العمل الذي اخترته.
اختيار أحد إصدارات Gemma
تتوفّر نماذج Gemma بعدة أشكال وأحجام، بما في ذلك نماذج Gemma الأساسية أو الرئيسية، وأشكال أكثر تخصصًا مثل PaliGemma وDataGemma، والعديد من الأشكال التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل Kaggle وHugging Face. إذا لم تكن متأكدًا من الصيغة التي يجب أن تبدأ بها، اختَر أحدث نموذج أساسي من Gemma تم ضبطه باستخدام التعليمات (IT) ويتضمّن أقل عدد من المَعلمات. يتطلّب هذا النوع من نماذج Gemma قدرة حوسبة منخفضة، ويمكنه الاستجابة لمجموعة متنوعة من الطلبات بدون الحاجة إلى تطوير إضافي.
يجب مراعاة العوامل التالية عند اختيار أحد أنواع Gemma:
- Gemma الأساسي وعائلات النماذج الأخرى، مثل PaliGemma وCodeGemma: ننصح باستخدام Gemma (الأساسي). تتشارك إصدارات Gemma الأخرى البنية الأساسية مع الإصدار الأساسي، وهي مدرَّبة على تحقيق أداء أفضل في مهام محددة. ما لم يتوافق تطبيقك أو أهدافك مع التخصّص في أحد أنواع Gemma، من الأفضل البدء بنموذج Gemma الأساسي.
- النماذج المضبوطة حسب التعليمات (IT) والمدربة مسبقًا (PT) والمضبوطة بدقة (FT) والمختلطة (mix): ننصح باستخدام النماذج المضبوطة حسب التعليمات.
- إنّ إصدارات Gemma المعدَّلة حسب التعليمات (IT) هي نماذج تم تدريبها للاستجابة لمجموعة متنوعة من التعليمات أو الطلبات باللغة البشرية. تُعدّ هذه الأنواع من النماذج أفضل مكان للبدء لأنّها يمكنها الاستجابة للطلبات بدون الحاجة إلى تدريب النموذج.
- إنّ إصدارات Gemma المدرَّبة مسبقًا (PT) هي نماذج تم تدريبها على استنتاج معلومات حول اللغة أو البيانات الأخرى، ولكن لم يتم تدريبها على اتّباع التعليمات البشرية. تتطلّب هذه النماذج تدريبًا أو تعديلاً إضافيًا لتتمكّن من تنفيذ المهام بفعالية، وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة قدرات النموذج وبنيته أو تطويرها.
- يمكن اعتبار إصدارات Gemma المعدَّلة بدقة (FT) إصدارات تكنولوجيا المعلومات، ولكن يتم تدريبها عادةً لتنفيذ مهمة محدّدة أو تحقيق أداء جيد في مقياس أداء محدّد للذكاء الاصطناعي التوليدي. تتضمّن مجموعة متغيرات PaliGemma عددًا من متغيرات FT.
- إنّ متغيرات المزيج (mix) من Gemma هي إصدارات من نماذج PaliGemma تم تحسينها بالتعليمات باستخدام مجموعة متنوعة من التعليمات، وهي مناسبة للاستخدام العام.
- المَعلمات: Recommend smallest number available بشكل عام، كلما زاد عدد المَعلمات في النموذج، زادت قدراته، ولكن تشغيل النماذج الأكبر يتطلّب موارد حوسبة أكبر وأكثر تعقيدًا، ويؤدي عادةً إلى إبطاء عملية تطوير تطبيقات الذكاء الاصطناعي. ما لم تكن قد حدّدت مسبقًا أنّ نموذج Gemma أصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يتضمّن عددًا قليلاً من المَعلمات.
- مستويات التكميم: يُنصح باستخدام نصف الدقة (16 بت)، باستثناء الضبط. التكميم موضوع معقّد يمكن تلخيصه في حجم البيانات ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب نموذج باستخدام بيانات عالية الدقة، تكون عادةً بيانات نقطة عائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات أقل دقة، مثل أحجام 16 أو 8 أو 4 بت. تظل نماذج Gemma المكمَّمة هذه قادرة على تحقيق أداء جيد، اعتمادًا على مدى تعقيد المهام، مع استخدام موارد حوسبة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات ضبط النماذج الكمية محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب ضبط نموذج مثل Gemma بدقة كاملة، ثم تحديد كمية النموذج الناتج.
للاطّلاع على قائمة بنماذج Gemma الرئيسية التي نشرتها Google، يُرجى الرجوع إلى بدء استخدام نماذج Gemma، قائمة نماذج Gemma.
تنفيذ طلبات الإنشاء والاستنتاج
بعد اختيار إطار عمل لتنفيذ الذكاء الاصطناعي وإحدى صيغ Gemma، يمكنك بدء تشغيل النموذج وتوجيه طلبات إليه لإنشاء محتوى أو إكمال مهام. لمزيد من المعلومات حول كيفية تشغيل Gemma باستخدام إطار عمل معيّن، راجِع الأدلة المرتبطة في قسم اختيار إطار عمل.
تنسيق الطلب
تتطلّب جميع متغيرات Gemma التي تم ضبطها وفقًا للتعليمات تنسيقًا محدّدًا للمطالبات. تتعامل بعض متطلبات التنسيق هذه تلقائيًا مع إطار العمل الذي تستخدمه لتشغيل نماذج Gemma، ولكن عند إرسال بيانات الطلب مباشرةً إلى أداة الترميز، يجب إضافة علامات معيّنة، ويمكن أن تتغيّر متطلبات وضع العلامات حسب نوع Gemma الذي تستخدمه. راجِع الأدلة التالية للحصول على معلومات حول تنسيق الطلبات لخيارات Gemma وتعليمات النظام: