Google Kubernetes Engine (GKE) ऐसा है Google Cloud की मैनेज की जा रही Kubernetes सेवा को कंटेनर वाले ऐप्लिकेशन को बड़े पैमाने पर डिप्लॉय और ऑपरेट करने के लिए, और Google का इंफ़्रास्ट्रक्चर. Cloud Tensor की प्रोसेसिंग यूनिट का इस्तेमाल करके, जेमा को सेवा दी जा सकती है GKE (जीकेई) पर ग्राफ़िकल प्रोसेसिंग यूनिट (जीपीयू) और इन एलएलएम सेवाओं के साथ फ़्रेमवर्क:
- GKE (जीकेई) पर vLLM वाले जीपीयू का इस्तेमाल करके, Gemma की सेवा पाएं
- TGI के साथ GKE (जीकेई) पर जीपीयू का इस्तेमाल करके, Gemma की सेवा करना
- ट्राईटन और TensorRT-LLM वाले GKE (जीकेई) पर जीपीयू का इस्तेमाल करके, Gemma की सेवा करें
- JétStream के साथ GKE (जीकेई) पर TPU का इस्तेमाल करके, Gemma की सेवा करना
- Saxml की मदद से, GKE (जीकेई) पर TPU का इस्तेमाल करके Gemma की सेवा करना
GKE (जीकेई) पर Gemma की सेवा इस्तेमाल करके, बेहतर और प्रोडक्शन के लिए तैयार एक अनुमान लागू किया जा सकता है प्रबंधित Kubernetes के सभी फ़ायदों के साथ समाधान उपलब्ध कराना. इसमें ये शामिल हैं बड़े स्तर पर इस्तेमाल किया जा सकता है और ज़्यादा उपलब्धता देखी जा सकती है.
इस बारे में ज़्यादा जानने के लिए, इन पेजों को देखें:
- GKE खास जानकारी: Google Kubernetes Engine (GKE) का इस्तेमाल शुरू करना
- एआई/एमएल ऑर्केस्ट्रा की सुविधा चालू है GKE (जीकेई): GKE (जीकेई) की मदद से, ऑप्टिमाइज़ किए गए एआई/एमएल वर्कलोड चलाएं