تشغيل ميزة إنشاء المحتوى والاستنتاجات في Gemma

عندما تريد تشغيل نموذج Gemma، عليك اتّخاذ قرارَين رئيسيَّين: 1) تحديد نوع Gemma الذي تريد تشغيله، و2) تحديد إطار عمل تنفيذ الذكاء الاصطناعي الذي ستستخدمه لتشغيله. تتعلّق إحدى المشاكل الرئيسية في اتّخاذ هذين القرارين بالأجهزة التي تتوفّر لك وللمستخدمين لتشغيل النموذج.

تساعدك هذه النظرة العامة في اتّخاذ هذه القرارات والبدء في استخدام نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:

اختيار إطار عمل

تتوافق نماذج Gemma مع مجموعة كبيرة من أدوات المنظومة المتكاملة. يعتمد اختيار الأداة المناسبة على الأجهزة المتاحة لديك (وحدات معالجة الرسومات على السحابة الإلكترونية مقابل أجهزة الكمبيوتر المحمولة المحلية) وعلى واجهة المستخدم المفضّلة لديك (رمز Python مقابل تطبيق سطح المكتب).

استخدِم الجدول التالي لتحديد الأداة الأنسب لاحتياجاتك بسرعة:

إذا كنت ترغب في... إطار الموافقة المُقترَح متوافق مع:
التشغيل على الجهاز باستخدام واجهة مستخدم Chat - LM Studio
- Ollama
المبتدئون أو المستخدمون الذين يريدون تجربة مشابهة لتجربة Gemini على الكمبيوتر المحمول
التشغيل بكفاءة على Edge ‫- Gemma.cpp
- LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
استنتاج محلي عالي الأداء باستخدام الحد الأدنى من الموارد
إنشاء/تدريب النموذج في Python - مكتبة Gemma لـ JAX
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
الباحثون والمطوّرون الذين ينشئون تطبيقات مخصّصة أو يضبطون النماذج بدقة
النشر في قناة الإصدار العلني / Enterprise ‫- Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
عمليات نشر قابلة للتوسيع ومُدارة على السحابة الإلكترونية مع توفير أمان على مستوى المؤسسة ودعم لعمليات تعلُّم الآلة (MLOps).

تفاصيل إطار العمل

في ما يلي أدلة لتشغيل نماذج Gemma مصنّفة حسب بيئة النشر.

1. الاستدلال على الكمبيوتر والأجهزة المحلية (كفاءة عالية)

تتيح لك هذه الأدوات تشغيل Gemma على أجهزة المستهلكين (أجهزة الكمبيوتر المحمول والمكتبي) من خلال استخدام تنسيقات محسّنة (مثل GGUF) أو أدوات تسريع أجهزة معيّنة.

  • ‫LM Studio: تطبيق مخصّص لأجهزة الكمبيوتر المكتبي يتيح لك تنزيل نماذج Gemma والتحدّث معها من خلال واجهة سهلة الاستخدام. ولا حاجة إلى استخدام أي ترميز.
  • llama.cpp: هي نسخة مفتوحة المصدر من Llama (وGemma) بلغة C++‎، وتعمل بسرعة فائقة على وحدات المعالجة المركزية وApple Silicon.
  • LiteRT-LM: توفّر واجهة سطر أوامر (CLI) لتشغيل نماذج .litertlm Gemma المحسّنة على أجهزة الكمبيوتر (Windows وLinux وmacOS)، وذلك باستخدام LiteRT (المعروفة سابقًا باسم TFLite).
  • MLX: إطار عمل مصمَّم خصيصًا لتعلُّم الآلة على أجهزة Apple Silicon، وهو مثالي لمستخدمي أجهزة Mac الذين يريدون أداءً مدمجًا.
  • Gemma.cpp: محرّك استنتاج خفيف الوزن ومستقل مكتوب بلغة C++ من Google تحديدًا.
  • Ollama: أداة لتشغيل نماذج لغوية كبيرة مفتوحة المصدر على الجهاز، ويتم استخدامها غالبًا لتشغيل تطبيقات أخرى.

2. تطوير Python (البحث والضبط الدقيق)

أُطر عمل عادية لمطوّري الذكاء الاصطناعي الذين ينشئون تطبيقات أو خطوط إنتاج أو نماذج تدريب

  • Hugging Face Transformers: المعيار المتّبع في المجال للوصول السريع إلى النماذج وسير العمل.
  • Unsloth: مكتبة محسّنة لضبط النماذج اللغوية الكبيرة بدقة تتيح لك هذه الأداة تدريب نماذج Gemma بشكل أسرع بمقدار 2 إلى 5 مرات مع استخدام ذاكرة أقل بكثير، ما يتيح إجراء عملية الضبط الدقيق على وحدات معالجة الرسومات المخصّصة للمستهلكين (مثل مستويات Google Colab المجانية).
  • Keras / JAX / PyTorch: مكتبات أساسية لأبحاث التعلّم العميق وتنفيذ البنية المخصّصة

3- التفعيل على الأجهزة الجوّالة والأجهزة الطرفية (على الجهاز)

أُطر مصمَّمة لتشغيل نماذج اللغات الكبيرة مباشرةً على أجهزة المستخدمين (Android وiOS والويب) بدون اتصال بالإنترنت، وغالبًا ما تستخدم وحدات معالجة عصبية (NPU).

  • LiteRT-LM: إطار عمل مفتوح المصدر بالكامل لتطوير نماذج لغوية كبيرة (LLM) على الأجهزة فقط، يوفّر أقصى أداء وتحكّمًا دقيقًا، مع إمكانية الاستفادة مباشرةً من تسريع وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على أجهزة Android وiOS.
  • واجهة برمجة التطبيقات MediaPipe LLM Inference API: هي أسهل طريقة لدمج Gemma في التطبيقات المتوافقة مع عدة أنظمة أساسية. وتوفّر واجهة برمجة تطبيقات عالية المستوى تعمل على أجهزة Android وiOS والويب.

4. التفعيل في السحابة الإلكترونية وفي بيئة الإنتاج

خدمات مُدارة لتوسيع نطاق تطبيقك ليشمل آلاف المستخدمين أو الوصول إلى قدرة حوسبة هائلة

  • ‫Vertex AI: هي منصة ذكاء اصطناعي مُدارة بالكامل من Google Cloud. الخيار الأفضل لتطبيقات المؤسسات التي تتطلّب اتفاقيات مستوى الخدمة والتوسيع.
  • ‫Google Cloud Kubernetes Engine (GKE): لتنظيم مجموعات الخوادم الخاصة بك.
  • vLLM: محرك استنتاج وتقديم عالي الإنتاجية وفعّال من حيث استخدام الذاكرة، ويُستخدم غالبًا في عمليات النشر على السحابة الإلكترونية.

تأكَّد من أنّ تنسيق نموذج Gemma الذي تريد نشره، مثل التنسيق المضمّن في Keras أو Safetensors أو GGUF، متوافق مع إطار العمل الذي اخترته.

اختيار أحد إصدارات Gemma

تتوفّر نماذج Gemma بعدة أشكال وأحجام، بما في ذلك نماذج Gemma الأساسية أو الرئيسية، وأشكال أكثر تخصصًا مثل PaliGemma وDataGemma، والعديد من الأشكال التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل Kaggle وHugging Face. إذا لم تكن متأكدًا من الصيغة التي يجب أن تبدأ بها، اختَر أحدث نموذج أساسي من Gemma تم ضبطه باستخدام التعليمات (IT) ويتضمّن أقل عدد من المَعلمات. يتطلّب هذا النوع من نماذج Gemma قدرة حوسبة منخفضة، ويمكنه الاستجابة لمجموعة متنوعة من الطلبات بدون الحاجة إلى تطوير إضافي.

يجب مراعاة العوامل التالية عند اختيار أحد أنواع Gemma:

  • Gemma الأساسي وعائلات النماذج الأخرى، مثل PaliGemma وCodeGemma: ننصح باستخدام Gemma (الأساسي). تتشارك إصدارات Gemma الأخرى البنية الأساسية مع الإصدار الأساسي، ويتم تدريبها لتحسين أدائها في مهام محددة. ما لم يتوافق تطبيقك أو أهدافك مع التخصّص في أحد أنواع Gemma، من الأفضل البدء بنموذج Gemma الأساسي.
  • النماذج المضبوطة حسب التعليمات (IT) والمدربة مسبقًا (PT) والمضبوطة بدقة (FT) والمختلطة (mix): ننصح باستخدام النماذج المضبوطة حسب التعليمات.
    • إنّ نماذج Gemma المحسَّنة بالتعليمات (IT) هي نماذج تم تدريبها للاستجابة لمجموعة متنوعة من التعليمات أو الطلبات باللغة البشرية. تُعدّ هذه الأنواع من النماذج أفضل مكان للبدء لأنّها تستطيع الاستجابة للطلبات بدون الحاجة إلى تدريب إضافي.
    • إنّ إصدارات Gemma المدرَّبة مسبقًا (PT) هي نماذج تم تدريبها على استنتاج معلومات حول اللغة أو البيانات الأخرى، ولكن لم يتم تدريبها على اتّباع التعليمات البشرية. تتطلّب هذه النماذج تدريبًا أو تعديلاً إضافيًا لتتمكّن من تنفيذ المهام بفعالية، وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة إمكانات النموذج وبنيته أو تطويرها.
    • يمكن اعتبار إصدارات الضبط الدقيق (FT) من Gemma إصدارات خاصة بتكنولوجيا المعلومات، ولكن يتم تدريبها عادةً لتنفيذ مهمة معيّنة أو تحقيق أداء جيد في مقياس أداء معيّن للذكاء الاصطناعي التوليدي. تتضمّن مجموعة متغيرات PaliGemma عددًا من متغيرات FT.
    • إنّ متغيرات المزيج (mix) من Gemma هي إصدارات من نماذج PaliGemma تم تحسينها بالتعليمات باستخدام مجموعة متنوعة من التعليمات، وهي مناسبة للاستخدام العام.
  • المَعلمات: اقتراح أصغر رقم متاح بشكل عام، كلما زاد عدد المَعلمات في النموذج، زادت قدراته، ولكن تشغيل النماذج الأكبر يتطلّب موارد حوسبة أكبر وأكثر تعقيدًا، ويؤدي عادةً إلى إبطاء عملية تطوير تطبيقات الذكاء الاصطناعي. ما لم تكن قد حدّدت مسبقًا أنّ نموذج Gemma أصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يتضمّن عددًا قليلاً من المَعلمات.
  • مستويات التكميم: يُنصح باستخدام نصف الدقة (16 بت)، باستثناء الضبط. التكميم موضوع معقّد يمكن تلخيصه في حجم البيانات ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب نموذج باستخدام بيانات عالية الدقة، تكون عادةً بيانات نقطة عائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات أقل دقة، مثل أحجام 16 أو 8 أو 4 بت. تظل نماذج Gemma المكمَّمة هذه قادرة على تحقيق أداء جيد، اعتمادًا على مدى تعقيد المهام، مع استخدام موارد حوسبة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات ضبط النماذج الكمية محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب ضبط نموذج مثل Gemma بدقة كاملة، ثم تحديد كمية النموذج الناتج.

للاطّلاع على قائمة بنماذج Gemma الرئيسية التي نشرتها Google، يُرجى الرجوع إلى بدء استخدام نماذج Gemma، قائمة نماذج Gemma.

تنفيذ طلبات الإنشاء والاستنتاج

بعد اختيار إطار تنفيذ الذكاء الاصطناعي وإحدى صيغ Gemma، يمكنك بدء تشغيل النموذج وتقديم طلبات إليه لإنشاء محتوى أو إكمال مهام. لمزيد من المعلومات حول كيفية تشغيل Gemma باستخدام إطار عمل معيّن، راجِع الأدلة المرتبطة في قسم اختيار إطار عمل.

تنسيق الطلب

تتطلّب جميع متغيرات Gemma التي تم ضبطها وفقًا للتعليمات تنسيقًا محدّدًا للمطالبات. تتعامل بعض متطلبات التنسيق هذه تلقائيًا مع إطار العمل الذي تستخدمه لتشغيل نماذج Gemma، ولكن عند إرسال بيانات الطلب مباشرةً إلى أداة تقسيم الرموز، يجب إضافة علامات معيّنة، ويمكن أن تتغير متطلبات وضع العلامات حسب نوع Gemma الذي تستخدمه. راجِع الأدلة التالية للحصول على معلومات حول تنسيق الطلبات لخيارات Gemma وتعليمات النظام: