Google Kubernetes Engine (GKE), Google Cloud की मैनेज की जा रही Kubernetes सेवा है. इसका इस्तेमाल Google के इन्फ़्रास्ट्रक्चर का इस्तेमाल करके, बड़े पैमाने पर कंटेनर वाले ऐप्लिकेशन को डिप्लॉय और ऑपरेट करने के लिए किया जा सकता है. GKE (जीकेई) पर Cloud Tensor प्रोसेसिंग यूनिट (TPU) और ग्राफ़िकल प्रोसेसिंग यूनिट (GPU) का इस्तेमाल करके, जेमा उपलब्ध कराया जा सकता है. इसके लिए, इन एलएलएम इस्तेमाल करने वाले फ़्रेमवर्क का इस्तेमाल किया जा सकता है:
- GKE (जीकेई) पर जीपीयू का इस्तेमाल करके, vLLM फ़ॉर्मैट में Gemma की सेवाएं लें
- TGI की मदद से, GKE (जीकेई) पर जीपीयू का इस्तेमाल करके जेमा की सेवाएं देना
- TensorRT-LLM और GKE (जीकेई) पर जीपीयू का इस्तेमाल करके, Gemma की सेवाएं लें
- JetStream के साथ GKE (जीकेई) पर TPU का इस्तेमाल करके Gemma की सेवा लें
- GKE (GKE) पर TPU का इस्तेमाल करके Saxml की मदद से Gemma की सेवा लेना
GKE (जीकेई) पर Gemma सेवा देकर, आप प्रोडक्शन के लिए तैयार एक बेहतरीन सेवा इस्तेमाल कर सकते हैं. इसमें मैनेज किए गए Kubernetes के सभी फ़ायदे बताए जा सकते हैं. इसमें बढ़ाए जा सकने की योग्यता और उपलब्धता, दोनों शामिल हैं.
ज़्यादा जानने के लिए, नीचे दिए गए पेज देखें:
- GKE (जीकेई) की खास जानकारी: Google Kubernetes Engine (GKE) का इस्तेमाल शुरू करना
- GKE पर AI/ML ऑर्केस्ट्रेशन: GKE (जीकेई) की मदद से ऑप्टिमाइज़ किए गए AI/ML वर्कलोड चलाएं