Google Kubernetes Engine (GKE) es un servicio administrado de Kubernetes de Google Cloud que puedes usar para implementar y operar aplicaciones alojadas en contenedores a gran escala con la infraestructura de Google. Puedes entregar Gemma con unidades de procesamiento de Cloud Tensor (TPU) y unidades de procesamiento gráfico (GPU) en GKE con estos frameworks de entrega de LLM:
- Entrega Gemma mediante GPU en GKE con vLLM
- Entrega Gemma mediante GPU en GKE con TGI
- Entrega Gemma mediante GPU en GKE con Triton y TensorRT-LLM
- Entrega Gemma mediante TPU en GKE con JetStream
- Entrega Gemma mediante TPU en GKE con Saxml
Mediante la entrega de Gemma en GKE, puedes implementar una solución de inferencia sólida y lista para la producción con todos los beneficios de Kubernetes administrado, incluida una escalabilidad eficiente y una mayor disponibilidad.
Para obtener más información, consulta las siguientes páginas:
- Descripción general de GKE: Comienza a usar Google Kubernetes Engine (GKE).
- Organización de IA/AA en GKE: ejecuta cargas de trabajo de IA/AA optimizadas con GKE.