Google Kubernetes Engine (GKE) es un servicio administrado de Kubernetes de Google Cloud que que puedes usar para implementar y operar aplicaciones alojadas en contenedores a gran escala con la infraestructura de Google. Puedes entregar Gemma con unidades de procesamiento de Cloud Tensor. (TPU) y unidades de procesamiento gráfico (GPU) en GKE con la entrega de estos LLM marcos de trabajo:
- Entrega Gemma mediante GPU en GKE con vLLM
- Entrega Gemma mediante GPU en GKE con TGI
- Entrega Gemma mediante GPU en GKE con Triton y TensorRT-LLM
- Entrega Gemma mediante TPU en GKE con JetStream
- Entrega Gemma mediante TPU en GKE con Saxml
Con la entrega de Gemma en GKE, puedes implementar una inferencia sólida y lista para la producción solución de entrega con todos los beneficios de Kubernetes administrado, como escalabilidad eficiente y alta disponibilidad.
Para obtener más información, consulta las siguientes páginas:
- GKE descripción general: Comienza a usar Google Kubernetes Engine (GKE)
- Organización de IA/AA en GKE: Ejecuta cargas de trabajo de IA/AA optimizadas con GKE