إنّ Google Kubernetes Engine (GKE) هو وهي خدمة Kubernetes مُدارة من Google Cloud يمكنك استخدامها لنشر التطبيقات المركزية وتشغيلها على نطاق واسع باستخدام بنية Google الأساسية. يمكنك عرض Gemma باستخدام وحدات المعالجة في Cloud Tensor. وحدات معالجة الرسومات (TPU) ووحدات معالجة الرسومات على GKE مع عرض النماذج اللغوية الكبيرة هذه الأطر:
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE من خلال vLLM
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE من خلال TGI
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE مع Triton وTensorRT-LLM
- عرض Gemma باستخدام وحدات معالجة الموتّرات على GKE من خلال JetStream
- عرض Gemma باستخدام وحدات معالجة الموتّرات على GKE من خلال Saxml
من خلال عرض Gemma على GKE، يمكنك تنفيذ استنتاج فعّال وجاهز للإنتاج تقديم حل يتضمّن جميع مزايا نظام Kubernetes المُدار، بما في ذلك وقابلية التوسع ذات الكفاءة والتوافر الأعلى.
لمزيد من المعلومات، يمكنك الاطّلاع على الصفحات التالية:
- GKE نظرة عامة: بدء استخدام Google Kubernetes Engine (GKE)
- تنسيق الذكاء الاصطناعي/تعلُّم الآلة على GKE: تنفيذ مهام عمل محسّنة للذكاء الاصطناعي (AI)/تعلُّم الآلة باستخدام GKE