Google Kubernetes Engine (GKE) est un service Kubernetes géré de Google Cloud qui vous permet de déployer et d'exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google. Vous pouvez diffuser Gemma à l'aide d'unités de traitement Cloud Tensor (TPU) et d'unités de traitement graphique (GPU) sur GKE avec les frameworks de diffusion LLM suivants:
- Diffusez Gemma à l'aide de GPU sur GKE avec vLLM
- Diffusez Gemma à l'aide de GPU sur GKE avec TGI
- Diffuser Gemma à l'aide de GPU sur GKE avec Triton et TensorRT-LLM
- Diffuser Gemma à l'aide de TPU sur GKE avec JetStream
- Diffuser Gemma à l'aide de TPU sur GKE avec Saxml
En diffusant Gemma sur GKE, vous pouvez mettre en œuvre une solution de diffusion d'inférences robuste et prête pour la production. Vous bénéficiez ainsi de tous les avantages du service Kubernetes géré, dont une évolutivité efficace et une plus grande disponibilité.
Pour en savoir plus, consultez les pages suivantes:
- Présentation de GKE : Premiers pas avec Google Kubernetes Engine (GKE)
- Orchestration d'IA/de ML sur GKE : exécutez des charges de travail d'IA/de ML optimisées avec GKE.