Google Kubernetes Engine (GKE) com Gemma

O Google Kubernetes Engine (GKE) é um serviço gerenciado do Kubernetes do Google Cloud que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google. É possível exibir o Gemma usando unidades de processamento de tensor do Cloud (TPUs) e unidades de processamento gráfico (GPUs) no GKE com estes frameworks de exibição de LLM:

Ao disponibilizar o Gemma no GKE, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.

Para saber mais, consulte as seguintes páginas: