Gemma 3n অডিও ইনপুট সহ প্রকাশিত হয়েছে এবং দৈনন্দিন ডিভাইসে ব্যবহারের জন্য অপ্টিমাইজ করা হয়েছে! আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

কুবারনেটস ইঞ্জিন দিয়ে জেমা চালান

Google ক্লাউড কুবারনেটস ইঞ্জিন পছন্দের ডেভেলপমেন্ট ফ্রেমওয়ার্ক ব্যবহার করে উচ্চ কর্মক্ষমতা এবং কম লেটেন্সি সহ জেমা মডেল চালানোর জন্য বিস্তৃত স্থাপনার বিকল্প সরবরাহ করে। Hugging Face, vLLM, GPU তে TensorRT-LLM, এবং JetStream, প্লাস অ্যাপ্লিকেশন, এবং টিউনিং গাইডের সাথে TPU সম্পাদনের জন্য নিম্নলিখিত স্থাপনার নির্দেশিকাগুলি দেখুন:

স্থাপন এবং পরিবেশন

হাগিং ফেস TGI সহ GPU-তে জেমা পরিবেশন করুন : GPUs এবং Hugging Face Text Generation Inference (TGI) ফ্রেমওয়ার্ক ব্যবহার করে GKE-তে জেমা মডেলগুলি স্থাপন করুন৷
VLLM-এর সাথে GPU-তে Gemma পরিবেশন করুন : সুবিধাজনক মডেল লোড ম্যানেজমেন্ট এবং উচ্চ-থ্রুপুটের জন্য vLLM-এর সাথে Gemma স্থাপন করুন।
TensorRT-LLM-এর সাথে GPU-তে জেমা পরিবেশন করুন : মডেল অপারেশন দক্ষতাকে সর্বাধিক করতে NVIDIA TensorRT-LLM-এর সাথে জেমা স্থাপন করুন।
JetStream-এর সাথে TPU-তে জেমা পরিবেশন করুন : উচ্চ-পারফরম্যান্স এবং কম লেটেন্সির জন্য TPU প্রসেসরগুলিতে JetStream-এর সাথে জেমা স্থাপন করুন।

তথ্য বিশ্লেষণ করুন

BigQuery, ক্লাউড রান, এবং জেমা ব্যবহার করে GKE-তে ডেটা বিশ্লেষণ করুন : BigQuery এবং Gemma-এর সাথে একটি ডেটা বিশ্লেষণ পাইপলাইন তৈরি করুন।

ফাইন-টিউন

একাধিক GPU ব্যবহার করে জেমা ওপেন মডেলগুলিকে ফাইন-টিউন করুন : আপনার নিজস্ব ডেটাসেটের উপর ভিত্তি করে জেমার আচরণ কাস্টমাইজ করুন।