Google Cloud Kubernetes Engine מספק מגוון רחב של אפשרויות פריסה להרצת מודלים של Gemma עם ביצועים גבוהים וזמן אחזור קצר, באמצעות מסגרות הפיתוח המועדפות. כדאי לעיין במדריכי הפריסה הבאים של Hugging Face, vLLM, TensorRT-LLM ב-GPUs והפעלת TPU באמצעות JetStream, וגם במדריכים בנושא אפליקציות ותכונות כוונון:
פריסה והצגה
הצגת Gemma ב-GPU באמצעות Hugging Face TGI: פריסה של מודלים של Gemma ב-GKE באמצעות מעבדי GPU והמסגרת של Hugging Face ליצירת טקסט (TGI).
הצגת Gemma ב-GPU באמצעות vLLM: אפשר לפרוס את Gemma עם vLLM כדי לנהל את עומס המודלים בצורה נוחה וליהנות מתיירות גבוהה.
הצגת Gemma ב-GPU באמצעות TensorRT-LLM: פריסה של Gemma עם NVIDIA TensorRT-LLM כדי למקסם את היעילות של פעולת המודל.
הצגת Gemma ב-TPU עם JetStream: פריסה של Gemma עם JetStream במעבדי TPU לביצועים גבוהים ולזמן אחזור קצר.
ניתוח נתונים
- ניתוח נתונים ב-GKE באמצעות BigQuery, Cloud Run ו-Gemma: פיתוח צינור עיבוד נתונים לניתוח נתונים באמצעות BigQuery ו-Gemma.
כוונון עדין
- ביצוע שיפורים ועדכונים למודלים הפתוחים של Gemma באמצעות מספר מעבדי GPU: אפשר להתאים אישית את ההתנהגות של Gemma על סמך מערך הנתונים שלכם.