هناك قراران رئيسيان يجب اتخاذهما عند تشغيل نموذج Gemma:
1) نوع Gemma الذي تريد تشغيله، و2) إطار عمل تنفيذ الذكاء الاصطناعي الذي
ستستخدمه لتشغيله. إنّ إحدى القضايا الرئيسية في اتّخاذ هذين القرارَين تتعلّق
بالأجهزة المتوفّرة لك وللمستخدمين لتشغيل النموذج.
تساعدك هذه النظرة العامة في اتخاذ هذه القرارات والبدء في العمل مع نماذج Gemma. في ما يلي الخطوات العامة لتشغيل نموذج Gemma:
تتوافق نماذج Gemma مع مجموعة متنوعة من منصّات تنفيذ الذكاء الاصطناعي التوليدي. إنّ أحد العوامل الرئيسية لاتخاذ القرار في تشغيل نموذج Gemma هو معرفة موارد الحوسبة المتاحة لك (أو التي ستتوفّر لك) لتشغيل النموذج. تتطلّب معظم إطارات عمل الذكاء الاصطناعي المتوافقة أجهزة مخصّصة، مثل وحدات GPU
أو TPU، لتشغيل نموذج Gemma بفعالية. يمكن أن توفّر أدوات مثل
Google Colab موارد الحوسبة المتخصصة هذه على أساس محدود. تتيح لك بعض أُطر تنفيذ الذكاء الاصطناعي، مثل
Ollama و
Gemma.cpp، تشغيل Gemma على وحدات المعالجة المركزية الأكثر شيوعًا
باستخدام معماريات متوافقة مع x86 أو ARM.
في ما يلي أدلة لتشغيل نماذج Gemma باستخدام أطر عمل مختلفة لوقت تشغيل الذكاء الاصطناعي:
تأكَّد من أنّ إطار العمل الذي اخترته متوافق مع تنسيق نموذج Gemma المخصّص للنشر، مثل تنسيق Keras الأصلي
أو Safetensors أو GGUF.
اختيار نوع Gemma
تتوفّر نماذج Gemma بعدة أشكال وأحجام، بما في ذلك نماذج Gemma
الأساسية أو الأساسية، ونماذج
أكثر تخصصًا، مثل
PaliGemma و
DataGemma، والعديد من النماذج
التي أنشأها مجتمع مطوّري الذكاء الاصطناعي على مواقع إلكترونية مثل
Kaggle و
Hugging Face. إذا لم تكن متأكّدًا من
الصيغة التي يجب البدء بها، اختَر أحدث نموذج تعليمات مُعدّ (IT) لـ Gemma
الأساسية مع
أدنى عدد من المَعلمات. يتطلب هذا النوع من نماذج Gemma متطلبات حوسبة قليلة، ويمكنه الردّ على مجموعة كبيرة من الطلبات بدون
الحاجة إلى تطوير إضافي.
ضَع العوامل التالية في الاعتبار عند اختيار أحد أنواع Gemma:
نماذج Gemma الأساسية وعائلات النماذج المتغيرة الأخرى، مثل PaliGemma وCodeGemma:
ننصح باستخدام Gemma (الأساسية). تشترك صيغ Gemma في بنية الإصدار الأساسي، وهي مُدرَّبة لتحقيق أداء أفضل في مهام معيّنة. ما لم يكن تطبيقك أو أهدافك متوافقة مع
التخصص في أحد أنواع Gemma، من الأفضل البدء بطراز Gemma
أساسي أو أساسي.
نماذج Gemma المحسَّنة بالتعليمات (IT) هي نماذج تم
تدريبها للردّ على مجموعة متنوعة من التعليمات أو الطلبات باللغة
البشرية. تشكّل صيغ النماذج هذه أفضل مكان للبدء،
لأنّها يمكنها الردّ على الطلبات بدون تدريب إضافي على النموذج.
نُسخ Gemma المدرَّبة مسبقًا هي نماذج تم
تدريبها لإجراء استنتاجات حول اللغة أو البيانات الأخرى، ولكن لم يتم
تدريبها على اتّباع تعليمات المستخدمين. تتطلّب هذه النماذج
تدريبًا إضافيًا أو تعديلًا لتتمكّن من تنفيذ المهام بفعالية،
وهي مخصّصة للباحثين أو المطوّرين الذين يريدون دراسة قدرات النموذج أو
تطويرها وهندسته.
يمكن اعتبار صيغ Gemma المحسّنة (FT) صِيَغًا لتكنولوجيا المعلومات،
ولكن يتم تدريبها عادةً لتنفيذ مهمة معيّنة أو تحقيق أداء جيد
في اختبار أداء محدّد للذكاء الاصطناعي التوليدي. تتضمّن عائلة عائلة PaliGemma
عددًا من الصيغ FT.
نُسخ Gemma المختلطة (mix) هي إصدارات من نماذج PaliGemma
التي تم تحسينها باستخدام مجموعة متنوعة من التعليمات وهي
مناسبة للاستخدام العام.
المَعلمات: اقتراح أصغر عدد متاح بشكل عام، كلما زاد عدد المَعلمات في النموذج، زادت كفاءته. ومع ذلك، فإنّ تشغيل نماذج أكبر يتطلّب موارد حسابية أكبر وأكثر تعقيدًا، ويبطئ بشكل عام تطوير تطبيق الذكاء الاصطناعي. ما لم تكن قد اتّخذت قرارًا بأنّ نموذج Gemma الأصغر حجمًا لا يمكنه تلبية احتياجاتك، اختَر نموذجًا يتضمّن عددًا قليلاً من المَعلمات.
مستويات الترميز:ننصح باستخدام الدقة النصف (16 بت)، باستثناء
التحسين. التخزين الكمي هو موضوع معقّد يتلخّص في حجم البيانات
ودقتها، وبالتالي مقدار الذاكرة التي يستخدمها نموذج الذكاء الاصطناعي التوليدي
لإجراء العمليات الحسابية وإنشاء الردود. بعد تدريب نموذج باستخدام بيانات عالية الدقة، والتي تكون عادةً بيانات بنقطة عائمة 32 بت، يمكن تعديل نماذج مثل Gemma لاستخدام بيانات بدقة أقل، مثل أحجام 16 أو 8 أو 4 بت. يمكن أن تحقّق نماذج Gemma المقيَّدة هذه أداءً جيدًا،
استنادًا إلى تعقيد المهام، مع استخدام موارد معالجة وذاكرة أقل بكثير. ومع ذلك، فإنّ أدوات ضبط النماذج المحوَّلة إلى أرقام ثنائية محدودة وقد لا تكون متاحة ضمن إطار عمل تطوير الذكاء الاصطناعي الذي اخترته. عادةً، يجب تحسين نموذج مثل "جيما" بدقة كاملة، ثم تحويل النموذج الناتج إلى عدد صحيح.
للحصول على قائمة بالنماذج الرئيسية التي نشرتها Google من Gemma، يُرجى الاطّلاع على مقالة بدء استخدام نماذج Gemma،
قائمة نماذج Gemma.
تنفيذ طلبات إنشاء النماذج واستنتاج النتائج
بعد اختيار إطار عمل تنفيذ الذكاء الاصطناعي ونسخة من Gemma، يمكنك
بدء تشغيل النموذج وطلب إنشاء محتوى أو إكمال المهام.
لمزيد من المعلومات عن كيفية تشغيل Gemma باستخدام إطار عمل معيّن، اطّلِع على
الأدلة المرتبطة في قسم اختيار إطار عمل.
تنسيق الطلب
تفرض جميع صيغ Gemma المخصّصة للتعليمات متطلبات محدّدة لتنسيق الطلبات. يعالج الإطار الذي تستخدمه لتشغيل نماذج Gemma تلقائيًا بعض متطلبات التنسيق هذه، ولكن عند إرسال بيانات الطلب مباشرةً إلى أداة تقسيم الكلمات، عليك إضافة علامات محدّدة، ويمكن أن تتغيّر متطلبات وضع العلامات استنادًا إلى نوع Gemma الذي تستخدمه. اطّلِع على الادّلّة التالية للحصول على معلومات عن تنسيق طلبات Gemma المتعدّدة وتعليمات النظام:
تاريخ التعديل الأخير: 2025-06-11 (حسب التوقيت العالمي المتفَّق عليه)
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],["تاريخ التعديل الأخير: 2025-06-11 (حسب التوقيت العالمي المتفَّق عليه)"],[],[],null,["# Run Gemma content generation and inferences\n\nThere are two key decisions to make when you want to run a Gemma model:\n1) what Gemma variant you want to run, and 2) what AI execution framework you\nare going to use to run it? A key issue in making both these decisions has to do\nwith what are hardware you and your users have available to run the model.\n\nThis overview helps you navigate these decisions and start working with Gemma\nmodels. The general steps for running a Gemma model are as follows:\n\n- [Choose a framework for running](#choose-a-framework)\n- [Select a Gemma variant](#select-a-variant)\n- [Run generation and inference requests](#run-generation)\n\nChoose a framework\n------------------\n\nGemma models are compatible with a variety of generative AI execution\nframeworks. One of the key decision making factors in running a Gemma model is\nwhat computing resources you have (or will have) available to you to run the\nmodel. Most compatible AI frameworks require specialized hardware, such as GPUs\nor TPUs, to run a Gemma model effectively. Tools such as\n[Google Colab](https://colab.research.google.com/) can provide these specialized\ncompute resources on a limited basis. Some AI execution frameworks, such as\n[Ollama](/gemma/docs/integrations/ollama) and\n[Gemma.cpp](/gemma/docs/gemma_cpp), allow you to run Gemma on more common CPUs\nusing x86-compatible or ARM architectures.\n\nHere are guides for running Gemma models with various AI runtime frameworks:\n\n- [Ollama](/gemma/docs/integrations/ollama)\n- [Hugging Face Transformers](https://huggingface.co/docs/transformers/en/model_doc/gemma2)\n- [Gemma library for JAX](https://gemma-llm.readthedocs.io)\n- [Keras](/gemma/docs/keras_inference)\n- [PyTorch](/gemma/docs/pytorch_gemma)\n- [MediaPipe LLM Inference API](/edge/mediapipe/solutions/genai/llm_inference)\n- [Hugging Face Transformers](https://huggingface.co/docs/transformers/en/model_doc/gemma2)\n- [Gemma.cpp](/gemma/docs/gemma_cpp)\n- [vLLM](https://github.com/google-gemini/gemma-cookbook/blob/main/Gemma/%5BGemma_2%5DDeploy_with_vLLM.ipynb)\n- Google Cloud [Vertex AI](https://cloud.google.com/vertex-ai/generative-ai/docs/open-models/use-gemma)\n- [Google Cloud Kubernetes Engine (GKE)](/gemma/docs/code/gke)\n- [Google Cloud Run](/gemma/docs/core/deploy_to_cloud_run_from_ai_studio)\n\n| **Note:** The JAX inference run guide has been replaced by the [Gemma library sampling](https://gemma-llm.readthedocs.io/en/latest/colab_sampling.html) guide.\n\nMake sure your intended deployment Gemma model format, such as Keras native\nformat, Safetensors, or GGUF, is supported by your chosen framework.\n\nSelect a Gemma variant\n----------------------\n\nGemma models are available in several variants and sizes, including the\nfoundation or [core](/gemma/docs/core) Gemma models, and more\nspecialized model variants such as\n[PaliGemma](/gemma/docs/paligemma) and\n[DataGemma](/gemma/docs/datagemma), and many variants\ncreated by the AI developer community on sites such as\n[Kaggle](https://www.kaggle.com/models?query=gemma) and\n[Hugging Face](https://huggingface.co/models?search=gemma). If you are unsure\nabout what variant you should start with, select the latest Gemma\n[core](/gemma/docs/core) instruction-tuned (IT) model with\nthe lowest number of parameters. This type of Gemma model has low compute\nrequirements and be able to respond to a wide variety of prompts without\nrequiring additional development.\n\nConsider the following factors when choosing a Gemma variant:\n\n- **Gemma core, and other variant families such as PaliGemma, CodeGemma** : *Recommend Gemma (core).* Gemma variants beyond the core version have the same architecture as the core model, and are trained to perform better at specific tasks. Unless your application or goals align with the specialization of a specific Gemma variant, it is best to start with a Gemma core, or base, model.\n- **Instruction-tuned (IT), pre-trained (PT), fine-tuned (FT), mixed\n (mix)** : *Recommend IT.*\n - *Instruction-tuned* (IT) Gemma variants are models that have been trained to respond to a variety of instructions or requests in human language. These model variants are the best place to start because they can respond to prompts without further model training.\n - *Pre-trained* (PT) Gemma variants are models that have been trained to make inferences about language or other data, but have not been trained to follow human instructions. These models require additional training or tuning to be able to perform tasks effectively, and are meant for researchers or developers who want to study or develop the capabilities of the model and its architecture.\n - *Fine-tuned* (FT) Gemma variants can be considered IT variants, but are typically trained to perform a specific task, or perform well on a specific generative AI benchmark. The PaliGemma variant family includes a number of FT variants.\n - *Mixed* (mix) Gemma variants are versions of PaliGemma models that have been instruction tuned with a variety of instructions and are suitable for general use.\n- **Parameters** : *Recommend smallest number available*. In general, the more parameters a model has, the more capable it is. However, running larger models requires larger and more complex compute resources, and generally slows down development of an AI application. Unless you have already determined that a smaller Gemma model cannot meet your needs, choose a one with a small number of parameters.\n- **Quantization levels:** *Recommend half precision (16-bit), except for\n tuning*. Quantization is a complex topic that boils down to what size and precision of data, and consequently how much memory a generative AI model uses for calculations and generating responses. After a model is trained with high-precision data, which is typically 32-bit floating point data, models like Gemma can be modified to use lower precision data such as 16, 8 or 4-bit sizes. These quantized Gemma models can still perform well, depending on the complexity of the tasks, while using significantly less compute and memory resources. However, tools for tuning quantized models are limited and may not be available within your chosen AI development framework. Typically, you must fine-tune a model like Gemma at full precision, then quantize the resulting model.\n\nFor a list of key, Google-published Gemma models, see the\n[Getting started with Gemma models](/gemma/docs/get_started#models-list),\nGemma model list.\n\nRun generation and inference requests\n-------------------------------------\n\nAfter you have selected an AI execution framework and a Gemma variant, you can\nstart running the model, and prompting it to generate content or complete tasks.\nFor more information on how to run Gemma with a specific framework, see the\nguides linked in the [Choose a framework](#choose-a-framework) section.\n\n### Prompt formatting\n\nAll instruction-tuned Gemma variants have specific prompt formatting\nrequirements. Some of these formatting requirements are handled automatically by\nthe framework you use to run Gemma models, but when you are sending prompt data\ndirectly to a tokenizer, you must add specific tags, and the tagging\nrequirements can change depending on the Gemma variant you are using. See the\nfollowing guides for information on Gemma variant prompt formatting and system\ninstructions:\n\n- [Gemma prompt and system instructions](/gemma/docs/core/prompt-structure)\n- [PaliGemma prompt and system instructions](/gemma/docs/paligemma/prompt-system-instructions)\n- [CodeGemma prompt and system instructions](/gemma/docs/codegemma/prompt-structure)"]]