Google ক্লাউড কুবারনেটস ইঞ্জিন পছন্দের ডেভেলপমেন্ট ফ্রেমওয়ার্ক ব্যবহার করে উচ্চ কর্মক্ষমতা এবং কম লেটেন্সি সহ জেমা মডেল চালানোর জন্য বিস্তৃত স্থাপনার বিকল্প সরবরাহ করে। Hugging Face, vLLM, GPU তে TensorRT-LLM, এবং JetStream, প্লাস অ্যাপ্লিকেশন, এবং টিউনিং গাইডের সাথে TPU সম্পাদনের জন্য নিম্নলিখিত স্থাপনার নির্দেশিকাগুলি দেখুন:
স্থাপন এবং পরিবেশন
হাগিং ফেস TGI সহ GPU-তে জেমা পরিবেশন করুন : GPUs এবং Hugging Face Text Generation Inference (TGI) ফ্রেমওয়ার্ক ব্যবহার করে GKE-তে জেমা মডেলগুলি স্থাপন করুন৷
VLLM-এর সাথে GPU-তে Gemma পরিবেশন করুন : সুবিধাজনক মডেল লোড ম্যানেজমেন্ট এবং উচ্চ-থ্রুপুটের জন্য vLLM-এর সাথে Gemma স্থাপন করুন।
TensorRT-LLM-এর সাথে GPU-তে জেমা পরিবেশন করুন : মডেল অপারেশন দক্ষতাকে সর্বাধিক করতে NVIDIA TensorRT-LLM-এর সাথে জেমা স্থাপন করুন।
JetStream-এর সাথে TPU-তে জেমা পরিবেশন করুন : উচ্চ-পারফরম্যান্স এবং কম লেটেন্সির জন্য TPU প্রসেসরগুলিতে JetStream-এর সাথে জেমা স্থাপন করুন।
তথ্য বিশ্লেষণ করুন
- BigQuery, ক্লাউড রান, এবং জেমা ব্যবহার করে GKE-তে ডেটা বিশ্লেষণ করুন : BigQuery এবং Gemma-এর সাথে একটি ডেটা বিশ্লেষণ পাইপলাইন তৈরি করুন।
ফাইন-টিউন
- একাধিক GPU ব্যবহার করে জেমা ওপেন মডেলগুলিকে ফাইন-টিউন করুন : আপনার নিজস্ব ডেটাসেটের উপর ভিত্তি করে জেমার আচরণ কাস্টমাইজ করুন।