پلتفرم Google Cloud خدمات بسیاری را برای استقرار و ارائه مدلهای باز Gemma ارائه میکند، از جمله موارد زیر:
Vertex AI
Vertex AI یک پلتفرم Google Cloud برای ساخت سریع و مقیاسبندی پروژههای یادگیری ماشینی بدون نیاز به تخصص MLOps داخلی است. Vertex AI کنسولی را ارائه میکند که در آن میتوانید با مجموعهای از مدلها کار کنید و قابلیتهای MLOps سرتاسر و تجربهای بدون سرور را برای توسعه ساده ارائه میدهد.
میتوانید از Vertex AI بهعنوان برنامه پاییندستی که Gemma را ارائه میکند، استفاده کنید، که در Model Garden ، مجموعهای از مدلها، موجود است. برای مثال، میتوانید وزنها را از پیادهسازی Gemma پورت کنید و از Vertex AI برای ارائه نسخه Gemma برای دریافت پیشبینیها استفاده کنید.
برای کسب اطلاعات بیشتر به صفحات زیر مراجعه کنید:
- مقدمه ای بر Vertex AI : با Vertex AI شروع کنید.
- Gemma با Vertex AI : از مدل های باز Gemma با Vertex AI استفاده کنید.
- تنظیم دقیق Gemma با استفاده از KerasNLP و استقرار در Vertex AI : نوت بوک انتها به انتها برای تنظیم دقیق Gemma با استفاده از Keras.
Cloud Run
Cloud Run یک پلت فرم کاملاً مدیریت شده برای اجرای کد، عملکرد یا کانتینر شما در بالای زیرساخت بسیار مقیاس پذیر Google است.
Cloud Run پردازنده های گرافیکی درخواستی، شروع سریع، مقیاس صفر و پرداخت به ازای استفاده را ارائه می دهد که به شما امکان می دهد مدل های باز مانند Gemma را ارائه دهید.
برای کسب اطلاعات بیشتر در مورد اجرای Gemma در Cloud Run، به صفحات زیر مراجعه کنید:
- بهترین روش ها برای استفاده از GPU در Cloud Run
- استنتاج Gemma را روی پردازندههای گرافیکی Cloud Run با Olama اجرا کنید
- استنتاج Gemma را روی پردازندههای گرافیکی Cloud Run با vLLM اجرا کنید
- استنتاج Gemma را روی پردازندههای گرافیکی Cloud Run با Transformers.js اجرا کنید
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) یک سرویس Kubernetes مدیریت شده از Google Cloud است که میتوانید از آن برای استقرار و اجرای برنامههای کانتینری در مقیاس با استفاده از زیرساخت Google استفاده کنید. میتوانید Gemma را با استفاده از واحدهای پردازش Cloud Tensor (TPU) و واحدهای پردازش گرافیکی (GPU) در GKE با این چارچوبهای سرویس LLM ارائه دهید:
- Gemma را با استفاده از GPU در GKE با vLLM سرو کنید
- Gemma را با استفاده از GPU در GKE با TGI سرو کنید
- Gemma را با استفاده از GPU در GKE با Triton و TensorRT-LLM سرو کنید
- Gemma را با استفاده از TPU در GKE با JetStream سرو کنید
- Gemma را با استفاده از TPU ها در GKE با Saxml سرو کنید
با ارائه Gemma در GKE، میتوانید یک راهحل ارائه استنتاج قوی و آماده برای تولید با تمام مزایای Kubernetes مدیریتشده، از جمله مقیاسپذیری کارآمد و در دسترس بودن بالاتر، پیادهسازی کنید.
برای کسب اطلاعات بیشتر به صفحات زیر مراجعه کنید:
- نمای کلی GKE : با Google Kubernetes Engine (GKE) شروع کنید
- ارکستراسیون AI/ML در GKE : بارهای کاری بهینه سازی شده AI/ML را با GKE اجرا کنید
جریان داده ML
Dataflow ML یک پلت فرم Google Cloud برای استقرار و مدیریت گردش کار کامل یادگیری ماشین است. با Dataflow ML، می توانید داده های خود را برای آموزش مدل با ابزارهای پردازش داده آماده کنید، سپس از مدل هایی مانند Gemma برای انجام استنتاج محلی و از راه دور با خطوط لوله دسته ای و جریانی استفاده کنید.
می توانید از Dataflow ML برای ادغام یکپارچه Gemma در خطوط لوله استنتاج پرتو Apache خود با چند خط کد استفاده کنید، که به شما امکان می دهد داده ها را دریافت کنید، داده ها را تأیید و تبدیل کنید، ورودی های متن را به Gemma تغذیه کنید و خروجی متن تولید کنید.
برای کسب اطلاعات بیشتر به صفحات زیر مراجعه کنید:
- از مدل های باز Gemma با Dataflow استفاده کنید : با Gemma در Dataflow شروع کنید.
- اجرای استنتاج با مدل باز Gemma : آموزشی که از Gemma در خط لوله استنتاج پرتو آپاچی استفاده می کند.