Google Kubernetes Engine (GKE) هي خدمة من Kubernetes مُدارة من Google Cloud يمكنك استخدامها لنشر وتشغيل تطبيقات مضمَّنة في حاويات على نطاق واسع باستخدام بنية Google الأساسية. يمكنك عرض Gemma باستخدام وحدات معالجة Cloud Tensor (وحدات معالجة الموتّرات) ووحدات المعالجة الرسومية (GPU) على GKE من خلال أطر العرض اللغوية الكبيرة هذه:
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE من خلال vLLM
- تقديم خدمة Gemma باستخدام وحدات معالجة الرسومات على GKE من خلال TGI
- عرض Gemma باستخدام وحدات معالجة الرسومات على GKE من خلال Triton وTensorRT-LLM
- تقديم خدمة Gemma باستخدام وحدات معالجة الموتّرات على GKE من خلال JetStream
- تقديم Gemma باستخدام وحدات معالجة الموتّرات على GKE من خلال Saxml
من خلال تقديم خدمة Gemma على GKE، يمكنك تنفيذ حلّ قوي وجاهز لعرض البيانات والاستفادة من جميع مزايا Kubernetes المُدارة، بما في ذلك قابلية التوسّع وزيادة مدى التوفّر.
لمزيد من المعلومات، راجع الصفحات التالية:
- نظرة عامة على GKE: بدء استخدام Google Kubernetes Engine (GKE)
- تنسيق الذكاء الاصطناعي/تعلُّم الآلة على GKE: تنفيذ أعباء عمل محسَّنة للذكاء الاصطناعي/تعلُّم الآلة باستخدام GKE