Cette page a été traduite par l'API Cloud Translation.

Google Kubernetes Engine (GKE) avec Gemma

Google Kubernetes Engine (GKE) est un service Kubernetes géré de Google Cloud qui vous permet de déployer et d'exploiter des applications conteneurisées à grande échelle à l'aide de l'infrastructure de Google. Vous pouvez diffuser Gemma à l'aide d'unités de traitement Cloud Tensor (TPU) et d'unités de traitement graphique (GPU) sur GKE avec les frameworks de diffusion LLM suivants:

Diffusez Gemma à l'aide de GPU sur GKE avec vLLM
Diffusez Gemma à l'aide de GPU sur GKE avec TGI
Diffuser Gemma à l'aide de GPU sur GKE avec Triton et TensorRT-LLM
Diffuser Gemma à l'aide de TPU sur GKE avec JetStream
Diffuser Gemma à l'aide de TPU sur GKE avec Saxml

En diffusant Gemma sur GKE, vous pouvez mettre en œuvre une solution de diffusion d'inférences robuste et prête pour la production. Vous bénéficiez ainsi de tous les avantages du service Kubernetes géré, dont une évolutivité efficace et une plus grande disponibilité.

Pour en savoir plus, consultez les pages suivantes:

Présentation de GKE : Premiers pas avec Google Kubernetes Engine (GKE)
Orchestration d'IA/de ML sur GKE : exécutez des charges de travail d'IA/de ML optimisées avec GKE.