פלטפורמת Google Cloud מספקת שירותים רבים לפריסה ולשירות של מודלים פתוחים של Gemma, כולל:
Vertex AI
Vertex AI היא פלטפורמה של Google Cloud לפיתוח מהיר של פרויקטים של למידת מכונה ולהתאמתם לעומס, בלי צורך במומחיות פנימית ב-MLOps. Vertex AI מספק מסוף שבו אפשר לעבוד עם מבחר גדול של מודלים, ומציע יכולות MLOps מקצה לקצה וסביבה ללא שרתים לפיתוח יעיל.
אפשר להשתמש ב-Vertex AI כאפליקציה במורד הזרם שמציגה את Gemma, שזמינה ב-Model Garden – אוסף של מודלים שנבחרו בקפידה. לדוגמה, אפשר להעביר משקלים מהטמעה של Gemma ולהשתמש ב-Vertex AI כדי להציג את הגרסה הזו של Gemma ולקבל תחזיות.
מידע נוסף זמין בדפים הבאים:
- מבוא ל-Vertex AI: תחילת העבודה עם Vertex AI.
- Gemma עם Vertex AI: שימוש במודלים הפתוחים של Gemma עם Vertex AI.
- ביצוע שיפורים ועדכונים ל-Gemma באמצעות KerasNLP ופריסה ב-Vertex AI: notebook מקצה לקצה לביצוע שיפורים ועדכונים ל-Gemma באמצעות Keras.
Cloud Run
Cloud Run היא פלטפורמה מנוהלת לחלוטין להרצת הקוד, הפונקציה או הקונטיינר שלכם, על גבי התשתית של Google שניתנת להתאמה לעומס.
ב-Cloud Run יש מעבדי GPU שאפשר להפעיל במהירות על פי דרישה, להתאים לעומס (scale to zero) ולשלם לפי שימוש, וכך להציג מודלים פתוחים כמו Gemma.
למידע נוסף על הפעלת Gemma ב-Cloud Run, אפשר לעיין בדפים הבאים:
- שיטות מומלצות לשימוש ב-GPU ב-Cloud Run
- הרצת היסק של Gemma במעבדי GPU ב-Cloud Run באמצעות Ollama
- הרצת היסק של Gemma ב-Cloud Run GPUs באמצעות vLLM
- הרצת היסק של Gemma ב-Cloud Run GPUs באמצעות Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) הוא שירות מנוהל של Kubernetes ב-Google Cloud, שבעזרתו אפשר לפרוס אפליקציות בקונטיינרים ולהפעיל אותן בקנה מידה רחב באמצעות התשתית של Google. אפשר להציג את Gemma באמצעות יחידות עיבוד נתונים מסוג Cloud Tensor Processing Unit (TPU) ויחידות עיבוד גרפי (GPU) ב-GKE באמצעות מסגרות ה-LLM האלה:
- הצגת Gemma באמצעות יחידות GPU ב-GKE עם vLLM
- הצגת Gemma באמצעות יחידות GPU ב-GKE עם TGI
- הצגת Gemma באמצעות מעבדי GPU ב-GKE עם Triton ו-TensorRT-LLM
- הצגת Gemma באמצעות TPU ב-GKE עם JetStream
- הצגת Gemma באמצעות TPU ב-GKE עם Saxml
כשמשתמשים ב-Gemma ב-GKE, אפשר להטמיע פתרון חזק להצגת מסקנות שעומד בדרישות ייצור, עם כל היתרונות של Kubernetes המנוהל, כולל יכולת התאמה לעומס יעילה וזמינות גבוהה יותר.
מידע נוסף זמין בדפים הבאים:
- סקירה כללית על GKE: תחילת העבודה עם Google Kubernetes Engine (GKE)
- תזמור של AI/ML ב-GKE: הפעלת עומסי עבודה של AI/ML שעברו אופטימיזציה באמצעות GKE
Dataflow ML
Dataflow ML היא פלטפורמה של Google Cloud לפריסה ולניהול של תהליכי עבודה מלאים של למידת מכונה. בעזרת Dataflow ML תוכלו להכין את הנתונים לאימון מודל באמצעות כלים לעיבוד נתונים, ואז להשתמש במודלים כמו Gemma כדי לבצע הסקת מסקנות מקומית ומרחוקת באמצעות צינורות עיבוד נתונים באצווה ובסטרימינג.
אפשר להשתמש ב-Dataflow ML כדי לשלב את Gemma בצינורות ההסקה של Apache Beam בצורה חלקה באמצעות כמה שורות קוד. כך תוכלו להטמיע נתונים, לאמת אותם ולבצע בהם טרנספורמציה, להזין קלט טקסט ל-Gemma וליצור פלט טקסט.
מידע נוסף זמין בדפים הבאים:
- שימוש במודלים פתוחים של Gemma עם Dataflow: תחילת העבודה עם Gemma ב-Dataflow.
- הרצת הסקת מסקנות באמצעות מודל פתוח של Gemma: מדריך שמשתמש ב-Gemma בצינור עיבוד נתונים של הסקת מסקנות ב-Apache Beam.