تشغيل ميزة إنشاء المحتوى والاستنتاجات في Gemma

عندما تريد تشغيل نموذج Gemma، عليك اتّخاذ قرارَين رئيسيَّين: 1) تحديد نوع Gemma الذي تريد تشغيله، و2) تحديد إطار تنفيذ الذكاء الاصطناعي الذي ستستخدمه لتشغيله. تتعلّق إحدى المشاكل الرئيسية في اتّخاذ هذين القرارين بالأجهزة التي تتوفّر لك وللمستخدمين لتشغيل النموذج.

تساعدك هذه النظرة العامة في اتّخاذ هذه القرارات والبدء في استخدام نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:

اختيار إطار عمل

تتوافق نماذج Gemma مع مجموعة كبيرة من أدوات المنظومة المتكاملة. يعتمد اختيار الأداة المناسبة على الأجهزة المتاحة لديك (وحدات معالجة الرسومات على السحابة الإلكترونية مقابل أجهزة الكمبيوتر المحمولة المحلية) وعلى واجهة المستخدم المفضّلة لديك (رمز Python مقابل تطبيق سطح المكتب).

استخدِم الجدول التالي لتحديد الأداة الأنسب لاحتياجاتك بسرعة:

إذا كنت ترغب في... إطار الموافقة المُقترَح متوافق مع:
التشغيل على الجهاز باستخدام واجهة مستخدم Chat ‫- LM Studio
- Ollama
المبتدئون أو المستخدمون الذين يريدون تجربة مشابهة لتجربة Gemini على الكمبيوتر المحمول
التشغيل بكفاءة على Edge ‫- Gemma.cpp
- LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
استنتاج محلي عالي الأداء باستخدام الحد الأدنى من الموارد
إنشاء/تدريب النموذج في Python - مكتبة Gemma لـ JAX
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
الباحثون والمطوّرون الذين ينشئون تطبيقات مخصّصة أو يضبطون النماذج
النشر في قناة الإصدار العلني / Enterprise ‫- Google Cloud Kubernetes Engine ‏ (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
عمليات نشر قابلة للتوسيع ومُدارة على السحابة الإلكترونية مع توفير أمان المؤسسة ودعم MLOps

تفاصيل إطار العمل

في ما يلي أدلة لتشغيل نماذج Gemma مصنّفة حسب بيئة النشر.

1. الاستدلال على الكمبيوتر والأجهزة المحلية (كفاءة عالية)

تتيح لك هذه الأدوات تشغيل Gemma على أجهزة المستهلكين (أجهزة الكمبيوتر المحمول والمكتبي) من خلال استخدام تنسيقات محسّنة (مثل GGUF) أو أدوات تسريع أجهزة معيّنة.

  • ‫LM Studio: هو تطبيق متاح على أجهزة الكمبيوتر المكتبي يتيح لك تنزيل نماذج Gemma والتحدّث معها من خلال واجهة سهلة الاستخدام. ولا حاجة إلى استخدام أي ترميز.
  • llama.cpp: هي نسخة C++‎ مفتوحة المصدر من Llama (وGemma) تعمل بسرعة فائقة على وحدات المعالجة المركزية وApple Silicon.
  • ‫LiteRT-LM: توفّر واجهة سطر أوامر (CLI) لتشغيل نماذج .litertlm Gemma المحسّنة على أجهزة الكمبيوتر المكتبي (Windows وLinux وmacOS)، وذلك باستخدام LiteRT (المعروفة سابقًا باسم TFLite).
  • MLX: إطار عمل مصمَّم خصيصًا لتعلُّم الآلة على أجهزة Apple Silicon، وهو مثالي لمستخدمي أجهزة Mac الذين يريدون أداءً مدمجًا.
  • Gemma.cpp: محرّك استنتاج خفيف الوزن ومستقل مكتوب بلغة C++ من Google تحديدًا.
  • Ollama: أداة لتشغيل نماذج لغوية كبيرة مفتوحة المصدر على الجهاز، ويتم استخدامها غالبًا لتشغيل تطبيقات أخرى.

2. تطوير Python (البحث والضبط الدقيق)

أُطر عمل عادية للمطوّرين الذين يستخدمون الذكاء الاصطناعي في إنشاء التطبيقات أو خطوط المعالجة أو نماذج التدريب

  • Hugging Face Transformers: المعيار المتّبع في المجال للوصول السريع إلى النماذج وسير العمل.
  • Unsloth: مكتبة محسّنة لضبط النماذج اللغوية الكبيرة بدقة تتيح لك هذه الأداة تدريب نماذج Gemma بشكل أسرع بمقدار 2 إلى 5 مرات مع استخدام ذاكرة أقل بكثير، ما يتيح إجراء عملية الضبط الدقيق على وحدات معالجة الرسومات المخصّصة للمستهلكين (مثل مستويات Google Colab المجانية).
  • Keras / JAX / PyTorch: مكتبات أساسية لأبحاث التعلّم العميق وتنفيذ البنية المخصّصة

3- التفعيل على الأجهزة الجوّالة والأجهزة الطرفية (على الجهاز)

أُطر عمل مصمَّمة لتشغيل نماذج اللغات الكبيرة مباشرةً على أجهزة المستخدمين (Android وiOS والويب) بدون اتصال بالإنترنت، وغالبًا ما تستخدم وحدات معالجة عصبية (NPU).

  • ‫LiteRT-LM: إطار عمل مفتوح المصدر بالكامل لتطوير نماذج لغوية كبيرة (LLM) على الأجهزة فقط، يوفّر أقصى أداء وتحكّمًا دقيقًا، ويتوافق مباشرةً مع تسريع وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على أجهزة Android وiOS.
  • واجهة برمجة التطبيقات MediaPipe LLM Inference API: هي أسهل طريقة لدمج Gemma في التطبيقات المتوافقة مع عدة أنظمة أساسية. وتوفّر واجهة برمجة تطبيقات عالية المستوى تعمل على أجهزة Android وiOS والويب.

4. النشر في السحابة الإلكترونية وفي بيئة الإنتاج

خدمات مُدارة لتوسيع نطاق تطبيقك ليشمل آلاف المستخدمين أو الوصول إلى قدرة حوسبة هائلة

  • ‫Vertex AI: هي منصة ذكاء اصطناعي مُدارة بالكامل من Google Cloud. الخيار الأفضل لتطبيقات المؤسسات التي تتطلّب اتفاقيات مستوى الخدمة والتوسيع
  • ‫Google Cloud Kubernetes Engine (GKE): لتنظيم مجموعات الخوادم الخاصة بك.
  • vLLM: محرك استنتاج وتقديم عالي الإنتاجية وفعّال من حيث استخدام الذاكرة، ويُستخدم غالبًا في عمليات النشر على السحابة الإلكترونية.

تأكَّد من أنّ إطار العمل الذي اخترته يتوافق مع تنسيق نموذج Gemma الذي تريد نشره، مثل التنسيق المضمّن في Keras أو Safetensors أو GGUF.

اختيار أحد إصدارات Gemma

تتوفّر نماذج Gemma بعدة أشكال وأحجام، بما في ذلك نماذج Gemma الأساسية أو الرئيسية، وأشكال أكثر تخصصًا مثل PaliGemma وDataGemma، والعديد من الأشكال التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل Kaggle وHugging Face. إذا لم تكن متأكدًا من الصيغة التي يجب أن تبدأ بها، اختَر أحدث نموذج أساسي من Gemma تم ضبطه وفقًا للتعليمات (IT) ويتضمّن أقل عدد من المَعلمات. يتطلّب هذا النوع من نماذج Gemma قدرة حوسبة منخفضة، ويمكنه الاستجابة لمجموعة متنوعة من الطلبات بدون الحاجة إلى تطوير إضافي.

يجب مراعاة العوامل التالية عند اختيار أحد أنواع Gemma:

  • Gemma الأساسي وعائلات النماذج الأخرى، مثل PaliGemma وCodeGemma: ننصح باستخدام Gemma (الأساسي). تتضمّن إصدارات Gemma الأخرى البنية الأساسية نفسها للنموذج الأساسي، ويتم تدريبها لتحقيق أداء أفضل في مهام محدّدة. ما لم يتوافق تطبيقك أو أهدافك مع التخصّص الذي يوفّره أحد أنواع Gemma، من الأفضل البدء بنموذج Gemma الأساسي.
  • النماذج المضبوطة حسب التعليمات (IT) والمدربة مسبقًا (PT) والمضبوطة بدقة (FT) والمختلطة (mix): ننصح باستخدام النماذج المضبوطة حسب التعليمات.
    • إنّ نماذج Gemma المحسَّنة بالتعليمات (IT) هي نماذج تم تدريبها للاستجابة لمجموعة متنوعة من التعليمات أو الطلبات باللغة البشرية. تُعدّ هذه الأنواع من النماذج أفضل مكان للبدء، لأنّها تستطيع الاستجابة للطلبات بدون الحاجة إلى تدريب إضافي.
    • إنّ إصدارات Gemma المدرَّبة مسبقًا (PT) هي نماذج تم تدريبها على استنتاج معلومات حول اللغة أو البيانات الأخرى، ولكن لم يتم تدريبها على اتّباع التعليمات البشرية. تتطلّب هذه النماذج تدريبًا أو تعديلاً إضافيًا لتتمكّن من تنفيذ المهام بفعالية، وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة إمكانات النموذج وبنيته أو تطويرها.
    • يمكن اعتبار إصدارات Gemma المعدَّلة بدقة (FT) إصدارات تابعة لفئة تكنولوجيا المعلومات، ولكن يتم تدريبها عادةً لتنفيذ مهمة محدّدة أو تحقيق أداء جيد في مقياس أداء محدّد للذكاء الاصطناعي التوليدي. تتضمّن مجموعة متغيرات PaliGemma عددًا من متغيرات FT.
    • إنّ متغيرات المزيج (mix) من Gemma هي إصدارات من نماذج PaliGemma تم تحسينها بالتعليمات باستخدام مجموعة متنوعة من التعليمات، وهي مناسبة للاستخدام العام.
  • المَعلمات: Recommend smallest number available بشكل عام، كلما زاد عدد المَعلمات في النموذج، زادت قدراته، ولكن تشغيل النماذج الأكبر يتطلّب موارد حوسبة أكبر وأكثر تعقيدًا، ويؤدي عادةً إلى إبطاء عملية تطوير تطبيقات الذكاء الاصطناعي. ما لم تكن قد حدّدت مسبقًا أنّ أحد نماذج Gemma الأصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يتضمّن عددًا قليلاً من المَعلمات.
  • مستويات التكميم: يُنصح باستخدام نصف الدقة (16 بت)، باستثناء الضبط. التكميم موضوع معقّد يمكن تلخيصه في حجم البيانات ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب نموذج باستخدام بيانات عالية الدقة، تكون عادةً بيانات نقطة عائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات أقل دقة، مثل أحجام 16 أو 8 أو 4 بت. تظل نماذج Gemma المكمَّمة هذه قادرة على تحقيق أداء جيد، حسب مدى تعقيد المهام، مع استخدام موارد حوسبة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات ضبط النماذج الكمية محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب إجراء تعديل دقيق على نموذج مثل Gemma بدقة كاملة، ثم تحديد كمية النموذج الناتج.

للاطّلاع على قائمة بنماذج Gemma الرئيسية التي نشرتها Google، يُرجى الرجوع إلى بدء استخدام نماذج Gemma، قائمة نماذج Gemma.

تنفيذ طلبات الإنشاء والاستنتاج

بعد اختيار إطار تنفيذ للذكاء الاصطناعي وإصدار من Gemma، يمكنك بدء تشغيل النموذج وتقديم طلبات إليه لإنشاء محتوى أو إكمال مهام. لمزيد من المعلومات حول كيفية تشغيل Gemma باستخدام إطار عمل معيّن، راجِع الأدلة المرتبطة في قسم اختيار إطار عمل.

تنسيق الطلبات

تتطلّب جميع متغيرات Gemma التي تم ضبطها وفقًا للتعليمات تنسيقًا محدّدًا للمطالبات. تتعامل بعض متطلبات التنسيق هذه تلقائيًا مع إطار العمل الذي تستخدمه لتشغيل نماذج Gemma، ولكن عند إرسال بيانات الطلبات مباشرةً إلى أداة الترميز، يجب إضافة علامات معيّنة، ويمكن أن تتغير متطلبات وضع العلامات حسب نوع Gemma الذي تستخدمه. راجِع الأدلة التالية للحصول على معلومات حول تنسيق الطلبات لخيارات Gemma وتعليمات النظام: