Google Kubernetes Engine (GKE) הוא שירות Kubernetes מנוהל מ-Google Cloud, שאפשר להשתמש בו כדי לפרוס ולנהל אפליקציות בקונטיינרים בקנה מידה גדול באמצעות התשתית של Google. אתם יכולים למלא את Gemma באמצעות יחידות עיבוד של Cloud Tensor (TPU) ויחידות עיבוד גרפיות (GPU) ב-GKE באמצעות מסגרות ההצגה של LLM:
- הגשה של Gemma באמצעות מעבדי GPU ב-GKE עם vLLM
- הגשה של Gemma באמצעות מעבדי GPU ב-GKE עם TGI
- מגישים את Gemma באמצעות מעבדי GPU ב-GKE עם Triton ו-TensorRT-LLM
- הגשה של Gemma באמצעות TPU ב-GKE עם JetStream
- הגשה של Gemma באמצעות TPU ב-GKE באמצעות Saxml
באמצעות השימוש ב-Gemma ב-GKE, אפשר להטמיע פתרון חזק ומוכן לייצור מסקנות, שכולל את כל היתרונות של Kubernetes מנוהל, כולל יכולת התאמה יעילה וזמינות גבוהה יותר.
מידע נוסף זמין בדפים הבאים:
- סקירה כללית של GKE: תחילת העבודה עם Google Kubernetes Engine (GKE)
- תזמור AI/ML ב-GKE: הרצת עומסי עבודה (workloads) שעברו אופטימיזציה של AI/ML באמצעות GKE