Google Kubernetes Engine (GKE) হল Google ক্লাউডের একটি পরিচালিত Kubernetes পরিষেবা যা আপনি Google-এর পরিকাঠামো ব্যবহার করে স্কেলে কনটেইনারাইজড অ্যাপ্লিকেশন স্থাপন ও পরিচালনা করতে ব্যবহার করতে পারেন। আপনি GKE-তে ক্লাউড টেনসর প্রসেসিং ইউনিট (TPUs) এবং গ্রাফিকাল প্রসেসিং ইউনিট (GPUs) ব্যবহার করে এই LLM পরিবেশন কাঠামোর সাহায্যে জেমা পরিবেশন করতে পারেন:
- VLLM-এর সাথে GKE-তে GPU ব্যবহার করে Gemma পরিবেশন করুন
- TGI-এর সাথে GKE-তে GPU ব্যবহার করে Gemma পরিবেশন করুন
- Triton এবং TensorRT-LLM-এর সাথে GKE-তে GPU ব্যবহার করে Gemma পরিবেশন করুন
- JetStream-এর সাথে GKE-তে TPUs ব্যবহার করে Gemma পরিবেশন করুন
- Saxml-এর সাথে GKE-তে TPUs ব্যবহার করে Gemma পরিবেশন করুন
GKE-তে Gemma পরিবেশন করে, আপনি দক্ষ মাপযোগ্যতা এবং উচ্চতর প্রাপ্যতা সহ পরিচালিত Kubernetes-এর সমস্ত সুবিধা সহ একটি শক্তিশালী, উত্পাদন-প্রস্তুত অনুমান পরিবেশন সমাধান বাস্তবায়ন করতে পারেন।
আরও জানতে, নিম্নলিখিত পৃষ্ঠাগুলি পড়ুন:
- GKE ওভারভিউ : Google Kubernetes Engine (GKE) দিয়ে শুরু করুন
- GKE-তে AI/ML অর্কেস্ট্রেশন : GKE-এর সাথে অপ্টিমাইজ করা AI/ML ওয়ার্কলোড চালান