Google Kubernetes Engine (GKE) è un servizio Kubernetes gestito di Google Cloud per eseguire il deployment e gestire applicazioni containerizzate su larga scala l'infrastruttura di Google. Puoi gestire Gemma utilizzando le unità di elaborazione Cloud Tensor (TPU) e GPU (Graphics Processing Unit) su GKE con questi modelli di gestione LLM i modelli:
- Gestisci Gemma utilizzando GPU su GKE con vLLM
- Gestisci Gemma utilizzando GPU su GKE con TGI
- Gestisci Gemma utilizzando GPU su GKE con Triton e TensorRT-LLM
- Gestisci Gemma utilizzando le TPU su GKE con JetStream
- Gestisci Gemma utilizzando le TPU su GKE con Saxml
Pubblicando Gemma su GKE, puoi implementare un'inferenza solida e pronta per la produzione di Google Cloud con tutti i vantaggi di Kubernetes gestito, una scalabilità efficiente e una maggiore disponibilità.
Per saperne di più, consulta le seguenti pagine:
- GKE Panoramica: Inizia a utilizzare Google Kubernetes Engine (GKE)
- Orchestrazione IA/ML attivata GKE: Esegui carichi di lavoro ottimizzati di IA/ML con GKE