O Gemma 3n foi lançado com entrada de áudio e otimizado para uso em dispositivos do dia a dia. Saiba mais

Implantar o Gemma com o Google Cloud

A plataforma Google Cloud oferece muitos serviços para implantar e oferecer modelos abertos do Gemma, incluindo:

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

A Vertex AI é uma plataforma do Google Cloud para criar e escalonar rapidamente projetos de machine learning sem precisar de experiência interna em MLOps. A Vertex AI oferece um console em que você pode trabalhar com uma grande seleção de modelos e oferece recursos de MLOps completos e uma experiência sem servidor para um desenvolvimento simplificado.

É possível usar a Vertex AI como o aplicativo downstream que exibe o Gemma, que está disponível no Model Garden, uma coleção selecionada de modelos. Por exemplo, é possível transferir pesos de uma implementação do Gemma e usar a Vertex AI para exibir essa versão do Gemma e receber previsões.

Para saber mais, consulte as seguintes páginas:

Introdução à Vertex AI: começar a usar a Vertex AI.
Gemma com a Vertex AI: use modelos abertos do Gemma com a Vertex AI.
Ajustar o Gemma usando o KerasNLP e implantar na Vertex AI: notebook completo para ajustar o Gemma usando o Keras.

Cloud Run

O Cloud Run é uma plataforma totalmente gerenciada para executar seu código, função ou contêiner na infraestrutura altamente escalonável do Google.

O Cloud Run oferece GPUs sob demanda, com inicialização rápida, escalonamento para zero e pagamento por uso, permitindo a veiculação de modelos abertos, como o Gemma.

Para saber mais sobre como executar o Gemma no Cloud Run, consulte as seguintes páginas:

Google Kubernetes Engine (GKE)

O Google Kubernetes Engine (GKE) é um serviço gerenciado do Kubernetes do Google Cloud que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google. É possível disponibilizar o Gemma usando unidades de processamento de tensor do Cloud (TPUs) e unidades de processamento gráfico (GPUs) no GKE com estes frameworks de veiculação de LLM:

Ao disponibilizar o Gemma no GKE, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.

Para saber mais, consulte as seguintes páginas:

Visão geral do GKE: Comece a usar o Google Kubernetes Engine (GKE)
Orquestração de IA/ML no GKE: execute cargas de trabalho de IA/ML otimizadas com o GKE.

ML do Dataflow

O Dataflow ML é uma plataforma do Google Cloud para implantar e gerenciar fluxos de trabalho completos de machine learning. Com o Dataflow ML, você pode preparar seus dados para o treinamento de modelos com ferramentas de processamento de dados e, em seguida, usar modelos como o Gemma para realizar inferências locais e remotas com pipelines de streaming e em lote.

É possível usar o Dataflow ML para integrar o Gemma aos pipelines de inferência do Apache Beam com poucas linhas de código, permitindo a ingestão, verificação e transformação de dados, a alimentação de entradas de texto no Gemma e a geração de saídas de texto.

Para saber mais, consulte as seguintes páginas:

Usar modelos abertos do Gemma com o Dataflow: começar a usar o Gemma no Dataflow.
Executar inferência com um modelo aberto do Gemma: tutorial que usa o Gemma em um pipeline de inferência do Apache Beam.