Google Kubernetes Engine (GKE) to zarządzana usługa Kubernetes z Google Cloud, której można używać do wdrażania i obsługiwania skonteneryzowanych aplikacji na dużą skalę przy użyciu infrastruktury Google. Możesz obsługiwać Gemma za pomocą jednostek przetwarzania Cloud Tensor (TPU) i graficznych jednostek przetwarzania (GPU) w GKE z tymi platformami LLM:
- Obsługa Gemma za pomocą GPU w GKE z vLLM
- Obsługa Gemma za pomocą GPU w GKE z TGI
- Obsługa Gemma za pomocą GPU w GKE z użyciem Triton i TensorRT-LLM
- Obsługa Gemma za pomocą TPU w GKE z użyciem JetStream
- Obsługa Gemma za pomocą TPU w GKE z użyciem Saxml
Udostępniając Gemma w GKE, możesz wdrożyć niezawodne rozwiązanie do obsługi wnioskowania gotowe do wykorzystania w środowisku produkcyjnym ze wszystkimi zaletami zarządzanej usługi Kubernetes, w tym wydajną skalowalnością i większą dostępnością.
Więcej informacji znajdziesz na tych stronach:
- Omówienie GKE: pierwsze kroki z Google Kubernetes Engine (GKE)
- Administracja sztuczną inteligencją/ML w GKE: uruchamianie zoptymalizowanych zadań AI/ML w GKE