توفّر منصة Google Cloud العديد من الخدمات لنشر نماذج Gemma المفتوحة وعرضها، بما في ذلك ما يلي:
Vertex AI
Vertex AI هي منصة Google Cloud ل إنشاء مشاريع تعلُّم الآلة وتوسيع نطاقها بسرعة بدون الحاجة إلى خبرة داخلية في عمليات MLOps. توفّر Vertex AI وحدة تحكّم يمكنك من خلالها العمل مع مجموعة كبيرة من النماذج، كما توفّر إمكانات MLOps من البداية إلى النهاية و تجربة بدون خادم لتسهيل عملية التطوير.
يمكنك استخدام Vertex AI كتطبيق لاحق يعرض Gemma، وهو متاح في Model Garden، وهي مجموعة من النماذج المنظَّمة. على سبيل المثال، يمكنك نقل الأوزان من عملية تنفيذ Gemma واستخدام Vertex AI لعرض هذا الإصدار من Gemma للحصول على توقّعات.
لمزيد من المعلومات، يُرجى الرجوع إلى الصفحات التالية:
- مقدّمة عن Vertex AI: يمكنك البدء باستخدام Vertex AI.
- Gemma مع Vertex AI: يمكنك استخدام نماذج Gemma المفتوحة مع Vertex AI.
- تحسين Gemma باستخدام KerasNLP ونشرها على Vertex AI: دفتر ملاحظات شامل لتحسين Gemma باستخدام Keras
Cloud Run
Cloud Run هي منصة مُدارة بالكامل لتشغيل الرمز البرمجي أو الدالة أو الحاوية على بنية Google الأساسية القابلة للتوسّع بشكل كبير.
توفّر خدمة Cloud Run وحدات معالجة رسومات (GPU) عند الطلب، وبدء سريع، وإمكانية التوسّع إلى 0، والدفع مقابل الاستخدام، مما يتيح لك عرض نماذج مفتوحة مثل Gemma.
لمزيد من المعلومات عن تشغيل Gemma على Cloud Run، يُرجى الرجوع إلى الصفحات التالية:
- أفضل الممارسات لاستخدام وحدات GPU على Cloud Run
- تنفيذ الاستنتاج في Gemma على وحدات معالجة الرسومات في Cloud Run باستخدام Ollama
- تنفيذ الاستنتاج في Gemma على وحدات GPU في Cloud Run باستخدام vLLM
- تنفيذ الاستنتاج في Gemma على وحدات معالجة الرسومات في Cloud Run باستخدام Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) هي خدمة Kubernetes مُدارة من Google Cloud يمكنك استخدامها لنشر التطبيقات المُنشأة في حاويات وتشغيلها على نطاق واسع باستخدام بنية Google الأساسية. يمكنك عرض Gemma باستخدام وحدات معالجة Tensor Cloud (TPU) ووحدات معالجة الرسومات (GPU) على GKE باستخدام إطارات عمل عرض الذكاء الاصطناعي اللغوي (LLM) التالية:
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE مع vLLM
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE مع TGI
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE مع Triton وTensorRT-LLM
- عرض Gemma باستخدام وحدات TPU على GKE مع JetStream
- عرض Gemma باستخدام وحدات TPU على GKE مع Saxml
من خلال عرض Gemma على GKE، يمكنك تنفيذ حلّ فعّال لعرض الاستنتاجات ومتوافق مع مرحلة الإنتاج مع جميع مزايا Kubernetes المُدارة، بما في ذلك قابلية التوسّع الفعّالة ومدى التوفّر الأعلى.
لمزيد من المعلومات، يُرجى الرجوع إلى الصفحات التالية:
- نظرة عامة على GKE: البدء باستخدام Google Kubernetes Engine (GKE)
- تنسيق الذكاء الاصطناعي/تعلُّم الآلة على GKE: تشغيل أعباء الذكاء الاصطناعي/تعلُّم الآلة المحسّنة باستخدام GKE
تعلُّم الآلة في Dataflow
Dataflow ML هو منصة Google Cloud لنشر سير العمل الكاملة المتعلّقة بتعلُّم الآلة وإدارتها. باستخدام ميزة "تعلُّم الآلة" في Dataflow، يمكنك إعداد بياناتك لتدريب النماذج باستخدام أدوات معالجة البيانات، ثم استخدام نماذج مثل Gemma لإجراء عمليات معالجة محلية ومتغيّرة باستخدام مسارات المعالجة المجمّعة والبث.
يمكنك استخدام ميزة "تعلُّم الآلة" في Dataflow لدمج Gemma بسلاسة في مسارات استنتاج Apache Beam باستخدام بضعة أسطر من الرموز البرمجية، ما يتيح لك نقل البيانات، والتحقّق منها وتحويلها، وإدخال مدخلات نصية في Gemma، وإنشاء ناتج نصي.
لمزيد من المعلومات، يُرجى الرجوع إلى الصفحات التالية:
- استخدام نماذج Gemma المتاحة للجميع مع Dataflow: يمكنك بدء استخدام Gemma في Dataflow.
- تنفيذ الاستنتاج باستخدام ملف برمجي مفتوح لنموذج Gemma: دليل تعليمي يستخدم Gemma في مسار استنتاج Apache Beam