Google Kubernetes Engine (GKE) to zarządzaną usługę Kubernetes z Google Cloud, których można używać do wdrażania i obsługi skonteneryzowanych aplikacji na dużą skalę Infrastruktura Google. Możesz obsługiwać Gemma za pomocą jednostek przetwarzania Cloud Tensor (TPU) i graficzne jednostki przetwarzania (GPU) w GKE z obsługą tych modeli LLM platformy:
- Obsługuj Gemma za pomocą GPU w GKE z użyciem vLLM
- Obsługuj Gemma za pomocą GPU w GKE z użyciem TGI
- Obsługa Gemma za pomocą procesorów graficznych w GKE z użyciem układów Triton i TensorRT-LLM
- Obsługa Gemma przy użyciu TPU w GKE dzięki JetStream
- Obsługa Gemma przy użyciu TPU w GKE za pomocą Saxml
Wykorzystując Gemma w GKE, możesz wdrożyć solidne wnioskowanie gotowe do wykorzystania w środowisku produkcyjnym i udostępnia wszystkie zalety zarządzanej usługi Kubernetes, w tym aby umożliwić sprawną skalowalność i zwiększyć dostępność.
Więcej informacji znajdziesz na tych stronach:
- GKE przegląd: Pierwsze kroki z Google Kubernetes Engine (GKE)
- Administracja AI/ML GKE: Uruchamianie zoptymalizowanych zadań AI/ML w GKE