تم إطلاق Gemma 4 مع إمكانية إدخال النصوص والصوت والصور، بالإضافة إلى قدرة استيعاب طويلة تصل إلى 256 ألف رمز مميّز. مزيد من المعلومات

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

تشغيل ميزة إنشاء المحتوى والاستنتاجات في Gemma

عندما تريد تشغيل نموذج Gemma، عليك اتّخاذ قرارَين رئيسيَّين: 1) تحديد نوع Gemma الذي تريد تشغيله، و2) تحديد إطار عمل تنفيذ الذكاء الاصطناعي الذي ستستخدمه لتشغيله. تتعلّق إحدى المشاكل الرئيسية في اتّخاذ هذين القرارين بالأجهزة التي تتوفّر لك وللمستخدمين لتشغيل النموذج.

تساعدك هذه النظرة العامة في اتّخاذ هذه القرارات والبدء في استخدام نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:

اختيار إطار عمل لتنفيذ
اختيار أحد إصدارات Gemma
تنفيذ طلبات الإنشاء والاستدلال

اختيار إطار عمل

تتوافق نماذج Gemma مع مجموعة كبيرة من أدوات المنظومة المتكاملة. يعتمد اختيار الأداة المناسبة على الأجهزة المتاحة لديك (وحدات معالجة الرسومات على السحابة الإلكترونية مقابل أجهزة الكمبيوتر المحمولة المحلية) وعلى واجهة المستخدم المفضّلة لديك (رمز Python مقابل تطبيق سطح المكتب).

استخدِم الجدول التالي لتحديد الأداة الأنسب لاحتياجاتك بسرعة:

إذا كنت ترغب في...	إطار العمل المُقترَح	متوافق مع:
التشغيل على الجهاز باستخدام واجهة مستخدم Chat	- LM Studio - Ollama	المبتدئون أو المستخدمون الذين يريدون تجربة مشابهة لتجربة Gemini على الكمبيوتر المحمول
التشغيل بكفاءة على Edge	‫- LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX	استنتاج محلي عالي الأداء باستخدام الحد الأدنى من الموارد
إنشاء/تدريب النموذج في Python	‫- مكتبة Gemma لـ JAX - Hugging Face Transformers - Keras - Unsloth	الباحثون والمطوّرون الذين ينشئون تطبيقات مخصّصة أو يضبطون النماذج بدقة
النشر في قناة الإصدار العلني / Enterprise	‫- Google Cloud Kubernetes Engine ‏ (GKE) - Google Cloud Run - Vertex AI - vLLM	عمليات نشر قابلة للتوسيع ومُدارة على السحابة الإلكترونية مع توفير أمان على مستوى المؤسسة ودعم لعمليات تعلُّم الآلة (MLOps).

تفاصيل إطار العمل

في ما يلي أدلة لتشغيل نماذج Gemma مصنّفة حسب بيئة النشر.

1. الاستدلال على الكمبيوتر والأجهزة المحلية (كفاءة عالية)

تتيح لك هذه الأدوات تشغيل Gemma على أجهزة المستهلكين (أجهزة الكمبيوتر المحمول والمكتبي) من خلال استخدام تنسيقات محسّنة (مثل GGUF) أو أدوات تسريع أجهزة معيّنة.

‫LM Studio: هو تطبيق مخصّص لأجهزة الكمبيوتر يتيح لك تنزيل نماذج Gemma والتحدّث معها من خلال واجهة سهلة الاستخدام. ولا حاجة إلى استخدام أي ترميز.
llama.cpp: هي نسخة مفتوحة المصدر ومكتوبة بلغة C++‎ من Llama (وGemma) وتعمل بسرعة فائقة على وحدات المعالجة المركزية وApple Silicon.
LiteRT-LM: توفّر واجهة سطر أوامر (CLI) لتشغيل نماذج .litertlm Gemma المحسّنة على أجهزة الكمبيوتر (Windows وLinux وmacOS)، وذلك باستخدام LiteRT (المعروفة سابقًا باسم TFLite).
MLX: إطار عمل مصمَّم خصيصًا لتعلُّم الآلة على أجهزة Apple Silicon، وهو مثالي لمستخدمي أجهزة Mac الذين يريدون أداءً مدمجًا.
Ollama: أداة لتشغيل نماذج لغوية كبيرة مفتوحة المصدر محليًا، ويتم استخدامها غالبًا لتشغيل تطبيقات أخرى.

2. تطوير Python (البحث والضبط الدقيق)

أُطر عمل عادية لمطوّري الذكاء الاصطناعي الذين ينشئون تطبيقات أو خطوط إنتاج أو نماذج تدريب

Hugging Face Transformers: المعيار المتّبع في المجال للوصول السريع إلى النماذج وسير العمل.
Unsloth: مكتبة محسّنة لضبط النماذج اللغوية الكبيرة بدقة تتيح لك هذه الأداة تدريب نماذج Gemma بشكل أسرع بمقدار 2 إلى 5 مرات مع استخدام ذاكرة أقل بكثير، ما يتيح إجراء عملية الضبط الدقيق على وحدات معالجة الرسومات المخصّصة للمستهلكين (مثل مستويات Google Colab المجانية).
Keras / JAX: مكتبات أساسية لأبحاث التعلّم العميق وتنفيذ البنية المخصّصة.

3- التفعيل على الأجهزة الجوّالة والأجهزة الطرفية (على الجهاز)

أُطر مصمَّمة لتشغيل نماذج اللغات الكبيرة مباشرةً على أجهزة المستخدمين (Android وiOS والويب) بدون اتصال بالإنترنت، وغالبًا ما تستخدم وحدات معالجة عصبية (NPU).

LiteRT-LM: إطار عمل مفتوح المصدر بالكامل لتطوير نماذج لغوية كبيرة (LLM) على الأجهزة فقط، يوفّر أقصى أداء وتحكّمًا دقيقًا، ويتوافق مباشرةً مع تسريع وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على أجهزة Android وiOS.
واجهة برمجة التطبيقات MediaPipe LLM Inference API: هي أسهل طريقة لدمج Gemma في التطبيقات المتوافقة مع عدّة منصات. وتوفّر واجهة برمجة تطبيقات عالية المستوى تعمل على أجهزة Android وiOS والويب.

4. التفعيل في السحابة الإلكترونية وفي بيئة الإنتاج

خدمات مُدارة لتوسيع نطاق تطبيقك ليشمل آلاف المستخدمين أو الوصول إلى قدرة حوسبة هائلة

‫Vertex AI: هي منصة ذكاء اصطناعي مُدارة بالكامل من Google Cloud. الخيار الأفضل لتطبيقات المؤسسات التي تتطلّب اتفاقيات مستوى الخدمة والتوسيع.
‫Google Cloud Kubernetes Engine (GKE): لتنسيق مجموعات الخوادم الخاصة بك.
vLLM: محرك استنتاج وتقديم عالي الإنتاجية وفعّال من حيث استخدام الذاكرة، ويُستخدم غالبًا في عمليات النشر على السحابة الإلكترونية.

تأكَّد من أنّ تنسيق نموذج Gemma الذي تريد نشره، مثل التنسيق المضمّن في Keras أو Safetensors أو GGUF، متوافق مع إطار العمل الذي اخترته.

اختيار أحد إصدارات Gemma

تتوفّر نماذج Gemma بعدة أشكال وأحجام، بما في ذلك نماذج Gemma الأساسية أو الرئيسية، وأشكال أكثر تخصصًا مثل PaliGemma وDataGemma، والعديد من الأشكال التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل Kaggle وHugging Face. إذا لم تكن متأكدًا من الصيغة التي يجب أن تبدأ بها، اختَر أحدث نموذج أساسي من Gemma تم ضبطه باستخدام التعليمات (IT) ويتضمّن أقل عدد من المَعلمات. يتطلّب هذا النوع من نماذج Gemma قدرة حوسبة منخفضة، ويمكنه الاستجابة لمجموعة متنوعة من الطلبات بدون الحاجة إلى تطوير إضافي.

ضَع العوامل التالية في الاعتبار عند اختيار أحد أنواع Gemma:

Gemma الأساسي وعائلات النماذج الأخرى، مثل PaliGemma وCodeGemma: ننصح باستخدام Gemma (الأساسي). تتشارك إصدارات Gemma الأخرى البنية الأساسية مع الإصدار الأساسي، وهي مدرَّبة على تحقيق أداء أفضل في مهام محددة. ما لم يتوافق تطبيقك أو أهدافك مع تخصص أحد أنواع Gemma، من الأفضل البدء بنموذج Gemma الأساسي.
النماذج المضبوطة حسب التعليمات (IT) والمدربة مسبقًا (PT) والمضبوطة بدقة (FT) والمختلطة (mix): ننصح باستخدام النماذج المضبوطة حسب التعليمات.
- إنّ نماذج Gemma المحسَّنة بالتعليمات (IT) هي نماذج تم تدريبها للاستجابة لمجموعة متنوعة من التعليمات أو الطلبات باللغة البشرية. تُعدّ هذه الأنواع من النماذج أفضل مكان للبدء لأنّها يمكنها الاستجابة للطلبات بدون الحاجة إلى تدريب النموذج.
- إنّ إصدارات Gemma المدرَّبة مسبقًا (PT) هي نماذج تم تدريبها على استنتاج معلومات حول اللغة أو البيانات الأخرى، ولكن لم يتم تدريبها على اتّباع التعليمات البشرية. تتطلّب هذه النماذج تدريبًا أو تعديلاً إضافيًا لتتمكّن من تنفيذ المهام بفعالية، وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة قدرات النموذج وبنيته أو تطويرها.
- يمكن اعتبار إصدارات Gemma المعدَّلة بدقة (FT) إصدارات خاصة بتكنولوجيا المعلومات، ولكن يتم عادةً تدريبها على تنفيذ مهمة محدّدة أو تحقيق أداء جيد في مقياس أداء محدّد للذكاء الاصطناعي التوليدي. تتضمّن مجموعة متغيرات PaliGemma عددًا من متغيرات FT.
- إنّ متغيرات المزيج (mix) من Gemma هي إصدارات من نماذج PaliGemma تم تحسينها بالتعليمات باستخدام مجموعة متنوعة من التعليمات، وهي مناسبة للاستخدام العام.
المَعلمات: Recommend smallest number available بشكل عام، كلما زاد عدد المَعلمات في النموذج، زادت قدراته، ولكن تشغيل النماذج الأكبر يتطلّب موارد حوسبة أكبر وأكثر تعقيدًا، ويؤدي عادةً إلى إبطاء عملية تطوير تطبيقات الذكاء الاصطناعي. ما لم تكن قد حدّدت مسبقًا أنّ نموذج Gemma أصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يتضمّن عددًا قليلاً من المَعلمات.
مستويات التكميم: يُنصح باستخدام نصف الدقة (16 بت)، باستثناء الضبط. التكميم موضوع معقّد يمكن تلخيصه في حجم البيانات ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب نموذج باستخدام بيانات عالية الدقة، تكون عادةً بيانات نقطة عائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات أقل دقة، مثل أحجام 16 أو 8 أو 4 بت. تظل نماذج Gemma المكمَّمة هذه قادرة على تحقيق أداء جيد، اعتمادًا على مدى تعقيد المهام، مع استخدام موارد حوسبة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات ضبط النماذج الكمية محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب ضبط نموذج مثل Gemma بدقة كاملة، ثم تحديد كمية النموذج الناتج.

للاطّلاع على قائمة بنماذج Gemma الرئيسية التي نشرتها Google، يُرجى الرجوع إلى بدء استخدام نماذج Gemma، قائمة نماذج Gemma.

تنفيذ طلبات الإنشاء والاستنتاج

بعد اختيار إطار عمل لتنفيذ الذكاء الاصطناعي وأحد متغيرات Gemma، يمكنك بدء تشغيل النموذج وتوجيه طلبات إليه لإنشاء محتوى أو إكمال مهام. لمزيد من المعلومات حول كيفية تشغيل Gemma باستخدام إطار عمل معيّن، راجِع الأدلة المرتبطة في قسم اختيار إطار عمل.

تنسيق الطلب

تتطلّب جميع متغيرات Gemma التي تم ضبطها وفقًا للتعليمات تنسيقًا محدّدًا للمطالبات. تتعامل بعض متطلبات التنسيق هذه تلقائيًا مع إطار العمل الذي تستخدمه لتشغيل نماذج Gemma، ولكن عند إرسال بيانات الطلب مباشرةً إلى أداة الترميز، يجب إضافة علامات معيّنة، ويمكن أن تتغيّر متطلبات وضع العلامات حسب نوع Gemma الذي تستخدمه. راجِع الأدلة التالية للحصول على معلومات حول تنسيق الطلبات لخيارات Gemma وتعليمات النظام: