Google Kubernetes Engine (GKE) un service Kubernetes géré de Google Cloud pour déployer et exploiter des applications conteneurisées à grande échelle l'infrastructure de Google. Vous pouvez inférer Gemma à l'aide d'unités de traitement Cloud Tensor (TPU) et processeurs graphiques (GPU) sur GKE, ces LLM servant frameworks:
- Diffuser Gemma à l'aide de GPU sur GKE avec vLLM
- Diffuser Gemma à l'aide de GPU sur GKE avec TGI
- Livrer Gemma à l'aide de GPU sur GKE avec Triton et TensorRT-LLM
- Diffuser Gemma à l'aide de TPU sur GKE avec JetStream
- Livrer Gemma à l'aide de TPU sur GKE avec Saxml
En diffusant Gemma sur GKE, vous pouvez implémenter une inférence robuste et prête pour la production d'inférence avec tous les avantages du service Kubernetes géré, y compris une évolutivité efficace et une disponibilité accrue.
Pour en savoir plus, consultez les pages suivantes:
- GKE présentation: Premiers pas avec Google Kubernetes Engine (GKE)
- Orchestration de l'IA/du ML sur GKE: Exécuter des charges de travail d'IA/de ML optimisées avec GKE