Google Kubernetes Engine (GKE) یک سرویس Kubernetes مدیریت شده از Google Cloud است که میتوانید از آن برای استقرار و اجرای برنامههای کانتینری در مقیاس با استفاده از زیرساخت Google استفاده کنید. میتوانید Gemma را با استفاده از واحدهای پردازش Cloud Tensor (TPU) و واحدهای پردازش گرافیکی (GPU) در GKE با این چارچوبهای سرویس LLM ارائه دهید:
- Gemma را با استفاده از GPU در GKE با vLLM سرو کنید
- Gemma را با استفاده از GPU در GKE با TGI سرو کنید
- Gemma را با استفاده از GPU در GKE با Triton و TensorRT-LLM سرو کنید
- Gemma را با استفاده از TPU در GKE با JetStream سرو کنید
- Gemma را با استفاده از TPU ها در GKE با Saxml سرو کنید
با ارائه Gemma در GKE، میتوانید یک راهحل ارائه استنتاج قوی و آماده برای تولید با تمام مزایای Kubernetes مدیریتشده، از جمله مقیاسپذیری کارآمد و در دسترس بودن بالاتر، پیادهسازی کنید.
برای کسب اطلاعات بیشتر به صفحات زیر مراجعه کنید:
- نمای کلی GKE : با Google Kubernetes Engine (GKE) شروع کنید
- ارکستراسیون AI/ML در GKE : بارهای کاری بهینه سازی شده AI/ML را با GKE اجرا کنید