Implantar o Gemma com o Google Cloud

A plataforma Google Cloud oferece muitos serviços para implantar e oferecer modelos abertos do Gemma, incluindo:

Vertex AI

A Vertex AI é uma plataforma do Google Cloud para criar e escalonar rapidamente projetos de machine learning sem precisar de experiência interna em MLOps. A Vertex AI oferece um console em que você pode trabalhar com uma grande seleção de modelos e oferece recursos de MLOps completos e uma experiência sem servidor para um desenvolvimento simplificado.

É possível usar a Vertex AI como o aplicativo downstream que exibe o Gemma, que está disponível no Model Garden, uma coleção selecionada de modelos. Por exemplo, é possível transferir pesos de uma implementação do Gemma e usar a Vertex AI para exibir essa versão do Gemma e receber previsões.

Para saber mais, consulte as seguintes páginas:

Cloud Run

O Cloud Run é uma plataforma totalmente gerenciada para executar seu código, função ou contêiner na infraestrutura altamente escalonável do Google.

O Cloud Run oferece GPUs sob demanda, com inicialização rápida, escalonamento para zero e pagamento por uso, permitindo a veiculação de modelos abertos, como o Gemma.

Para saber mais sobre como executar o Gemma no Cloud Run, consulte as seguintes páginas:

Google Kubernetes Engine (GKE)

O Google Kubernetes Engine (GKE) é um serviço gerenciado do Kubernetes do Google Cloud que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google. É possível disponibilizar o Gemma usando unidades de processamento de tensor do Cloud (TPUs) e unidades de processamento gráfico (GPUs) no GKE com estes frameworks de veiculação de LLM:

Ao disponibilizar o Gemma no GKE, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.

Para saber mais, consulte as seguintes páginas:

ML do Dataflow

O Dataflow ML é uma plataforma do Google Cloud para implantar e gerenciar fluxos de trabalho completos de machine learning. Com o Dataflow ML, você pode preparar seus dados para o treinamento de modelos com ferramentas de processamento de dados e, em seguida, usar modelos como o Gemma para realizar inferências locais e remotas com pipelines de streaming e em lote.

É possível usar o Dataflow ML para integrar o Gemma aos pipelines de inferência do Apache Beam com poucas linhas de código, permitindo a ingestão, verificação e transformação de dados, a alimentação de entradas de texto no Gemma e a geração de saídas de texto.

Para saber mais, consulte as seguintes páginas: