Google Cloud Platform, Gemma के ओपन मॉडल को डिप्लॉय और इस्तेमाल करने के लिए कई सेवाएं उपलब्ध कराता है. इनमें ये सेवाएं भी शामिल हैं:
Vertex AI
Vertex AI, Google Cloud का एक प्लैटफ़ॉर्म है. इसकी मदद से, मशीन लर्निंग प्रोजेक्ट को तेज़ी से बनाया और बढ़ाया जा सकता है. इसके लिए, आपको अपने संगठन में MLOps की विशेषज्ञता की ज़रूरत नहीं पड़ती. Vertex AI एक ऐसा कंसोल उपलब्ध कराता है जहां कई तरह के मॉडल इस्तेमाल किए जा सकते हैं. साथ ही, यह एंड-टू-एंड MLOps की सुविधाएं और डेवलपमेंट को आसान बनाने के लिए, सर्वरलेस अनुभव भी देता है.
Vertex AI का इस्तेमाल, Gemma को सेवा देने वाले डाउनस्ट्रीम ऐप्लिकेशन के तौर पर किया जा सकता है. यह ऐप्लिकेशन, Model Garden में उपलब्ध है. यह मॉडल का एक कलेक्शन है. उदाहरण के लिए, Gemma के किसी वर्शन से वज़न को पोर्ट किया जा सकता है. साथ ही, अनुमान पाने के लिए, Gemma के उस वर्शन को दिखाने के लिए Vertex AI का इस्तेमाल किया जा सकता है.
ज़्यादा जानने के लिए, इन पेजों पर जाएं:
- Vertex AI के बारे में जानकारी: Vertex AI का इस्तेमाल शुरू करें.
- Vertex AI के साथ Gemma: Vertex AI के साथ Gemma के ओपन मॉडल का इस्तेमाल करें.
- KerasNLP का इस्तेमाल करके Gemma को बेहतर बनाना और Vertex AI पर डिप्लॉय करना: Keras का इस्तेमाल करके Gemma को बेहतर बनाने के लिए, एंड-टू-एंड नोटबुक.
Cloud Run
Cloud Run, पूरी तरह से मैनेज किया जाने वाला प्लैटफ़ॉर्म है. इसका इस्तेमाल करके, Google के बड़े पैमाने पर स्केल किए जा सकने वाले इंफ़्रास्ट्रक्चर पर अपना कोड, फ़ंक्शन या कंटेनर चलाया जा सकता है.
Cloud Run, मांग पर, तेज़ी से शुरू होने वाले, शून्य तक स्केल करने वाले, और इस्तेमाल के हिसाब से पैसे चुकाने वाले जीपीयू की सुविधा देता है. इससे, आपको Gemma जैसे ओपन मॉडल इस्तेमाल करने में मदद मिलती है.
Cloud Run पर Gemma को चलाने के बारे में ज़्यादा जानने के लिए, इन पेजों पर जाएं:
- Cloud Run पर जीपीयू इस्तेमाल करने के सबसे सही तरीके
- Ollama की मदद से, Cloud Run के जीपीयू पर Gemma का अनुमान लगाने वाला मॉडल चलाना
- vLLM की मदद से, Cloud Run के जीपीयू पर Gemma का अनुमान लगाने वाला मॉडल चलाना
- Transformers.js की मदद से, Cloud Run के जीपीयू पर Gemma का अनुमान लगाना
Google Kubernetes Engine (जीकेई)
Google Kubernetes Engine (GKE), Google Cloud की मैनेज की जाने वाली Kubernetes सेवा है. इसका इस्तेमाल, Google के इंफ़्रास्ट्रक्चर का इस्तेमाल करके, बड़े पैमाने पर कंटेनर वाले ऐप्लिकेशन को डिप्लॉय और ऑपरेट करने के लिए किया जा सकता है. GKE पर क्लाउड टेंसर प्रोसेसिंग यूनिट (टीपीयू) और ग्राफ़िकल प्रोसेसिंग यूनिट (जीपीयू) का इस्तेमाल करके, Gemma को इन एलएलएम सर्विंग फ़्रेमवर्क के साथ दिखाया जा सकता है:
- vLLM की मदद से, GKE पर जीपीयू का इस्तेमाल करके Gemma को चलाना
- TGI की मदद से, GKE पर जीपीयू का इस्तेमाल करके Gemma को होस्ट करना
- Triton और TensorRT-LLM की मदद से, GKE पर GPU का इस्तेमाल करके Gemma को चलाना
- JetStream की मदद से, GKE पर TPU का इस्तेमाल करके Gemma को चलाना
- Saxml की मदद से, GKE पर टीपीयू का इस्तेमाल करके Gemma को चलाना
GKE पर Gemma का इस्तेमाल करके, प्रोडक्शन के लिए तैयार, बेहतरीन अनुमान लगाने वाला समाधान लागू किया जा सकता है. इसमें, मैनेज किए जा रहे Kubernetes के सभी फ़ायदे मिलते हैं. जैसे, बेहतर तरीके से स्केल करना और ज़्यादा उपलब्धता.
ज़्यादा जानने के लिए, इन पेजों पर जाएं:
- GKE के बारे में खास जानकारी: Google Kubernetes Engine (GKE) का इस्तेमाल शुरू करना
- GKE पर एआई/एमएल ऑर्केस्ट्रेशन: GKE की मदद से, ऑप्टिमाइज़ किए गए एआई/एमएल वर्कलोड चलाना
Dataflow ML
Dataflow ML, Google Cloud का एक प्लैटफ़ॉर्म है. इसका इस्तेमाल, मशीन लर्निंग के पूरे वर्कफ़्लो को डिप्लॉय और मैनेज करने के लिए किया जाता है. Dataflow ML की मदद से, डेटा प्रोसेसिंग टूल का इस्तेमाल करके, मॉडल को ट्रेनिंग देने के लिए डेटा तैयार किया जा सकता है. इसके बाद, बैच और स्ट्रीमिंग पाइपलाइन की मदद से, स्थानीय और रिमोट अनुमानों के लिए Gemma जैसे मॉडल का इस्तेमाल किया जा सकता है.
Dataflow ML का इस्तेमाल करके, कुछ लाइनों के कोड की मदद से, Gemma को Apache Beam की अनुमान लगाने वाली पाइपलाइन में आसानी से इंटिग्रेट किया जा सकता है. इससे, डेटा डालने, उसकी पुष्टि करने, और उसे बदलने के साथ-साथ, Gemma में टेक्स्ट इनपुट डालने और टेक्स्ट आउटपुट जनरेट करने में मदद मिलती है.
ज़्यादा जानने के लिए, इन पेजों पर जाएं:
- Dataflow के साथ Gemma के ओपन मॉडल का इस्तेमाल करना: Dataflow में Gemma का इस्तेमाल शुरू करें.
- Gemma के ओपन मॉडल की मदद से अनुमान लगाना: Apache Beam की अनुमान लगाने वाली पाइपलाइन में Gemma का इस्तेमाल करने वाला ट्यूटोरियल.