Google Kubernetes Engine (GKE) è un servizio Kubernetes gestito di Google Cloud che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google. Puoi gestire Gemma utilizzando Cloud Tensor Processing Unit (TPU) e Graphic Processing Unit (GPU) su GKE con questi framework di gestione LLM:
- Gestisci Gemma utilizzando GPU su GKE con vLLM
- Gestisci Gemma utilizzando GPU su GKE con TGI
- Gestisci Gemma utilizzando GPU su GKE con Triton e TensorRT-LLM
- Gestisci Gemma utilizzando TPU su GKE con JetStream
- Gestisci Gemma utilizzando TPU su GKE con Saxml
Con la gestione di Gemma su GKE, puoi implementare una solida soluzione di gestione di inferenza pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui scalabilità efficiente e disponibilità superiore.
Per saperne di più, consulta le seguenti pagine:
- Panoramica di GKE: Inizia a utilizzare Google Kubernetes Engine (GKE)
- Orchestrazione IA/ML su GKE: esegui carichi di lavoro IA/ML ottimizzati con GKE