O Google Kubernetes Engine (GKE) um serviço gerenciado do Kubernetes do Google Cloud que que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando do Google. Disponibilize o Gemma usando unidades de processamento do Cloud Tensor (TPUs) e unidades de processamento gráfico (GPUs) no GKE com esses LLMs disponibilizando frameworks:
- Disponibilizar o Gemma usando GPUs no GKE com o vLLM
- Disponibilizar o Gemma usando GPUs no GKE com o TGI
- Disponibilizar o Gemma usando GPUs no GKE com o Triton e o TensorRT-LLM
- Disponibilizar o Gemma usando TPUs no GKE com o JetStream
- Disponibilizar o Gemma usando TPUs no GKE com o Saxml
Disponibilizando o Gemma no GKE, você pode implementar uma interface de inferência robusta e pronta para produção do Google Cloud com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.
Para saber mais, consulte as seguintes páginas:
- GKE visão geral: Introdução ao Google Kubernetes Engine (GKE)
- Orquestração de IA/ML em GKE: Execute cargas de trabalho otimizadas de IA/ML com o GKE