Google Kubernetes Engine (GKE) הוא שירות Kubernetes מנוהל מ-Google Cloud, שאפשר לפרוס ולהפעיל אפליקציות בקונטיינרים בקנה מידה נרחב באמצעות התשתית של Google. אפשר למלא בקשות ל-Gemma באמצעות יחידות עיבוד של Cloud Tensor (מעבדי TPU) ויחידות עיבוד גרפיות (GPU) ב-GKE עם מילוי בקשות ל-LLM frameworks:
- מילוי בקשות Gemma באמצעות מעבדי GPU ב-GKE עם vLLM
- מילוי בקשות Gemma באמצעות מעבדי GPU ב-GKE עם TGI
- מילוי בקשות Gemma באמצעות מעבדי GPU ב-GKE עם Triton ו-TensorRT-LLM
- מילוי בקשות Gemma באמצעות מעבדי TPU ב-GKE עם JetStream
- מילוי בקשות Gemma באמצעות מעבדי TPU ב-GKE באמצעות Saxml
על ידי הצגת Gemma ב-GKE, אפשר להטמיע מסקנות עוצמתיות ומוכן לייצור פתרון למילוי בקשות שכולל את כל היתרונות של Kubernetes מנוהלת, כולל יכולת מדרגיות יעילה וזמינות גבוהה יותר.
מידע נוסף זמין בדפים הבאים:
- GKE סקירה כללית: תחילת העבודה עם Google Kubernetes Engine (GKE)
- תזמור AI/ML מופעל GKE: הרצת עומסי עבודה (workloads) שעברו אופטימיזציה של AI/ML באמצעות GKE