A plataforma Google Cloud oferece muitos serviços para implantar e oferecer modelos abertos do Gemma, incluindo:
Vertex AI
A Vertex AI é uma plataforma do Google Cloud para criar e escalonar rapidamente projetos de machine learning sem precisar de experiência interna em MLOps. A Vertex AI oferece um console em que você pode trabalhar com uma grande seleção de modelos e oferece recursos de MLOps completos e uma experiência sem servidor para um desenvolvimento simplificado.
É possível usar a Vertex AI como o aplicativo downstream que exibe o Gemma, que está disponível no Model Garden, uma coleção selecionada de modelos. Por exemplo, é possível transferir pesos de uma implementação do Gemma e usar a Vertex AI para exibir essa versão do Gemma e receber previsões.
Para saber mais, consulte as seguintes páginas:
- Introdução à Vertex AI: começar a usar a Vertex AI.
- Gemma com a Vertex AI: use modelos abertos do Gemma com a Vertex AI.
- Ajustar o Gemma usando o KerasNLP e implantar na Vertex AI: notebook completo para ajustar o Gemma usando o Keras.
Cloud Run
O Cloud Run é uma plataforma totalmente gerenciada para executar seu código, função ou contêiner na infraestrutura altamente escalonável do Google.
O Cloud Run oferece GPUs sob demanda, com inicialização rápida, escalonamento para zero e pagamento por uso, permitindo a veiculação de modelos abertos, como o Gemma.
Para saber mais sobre como executar o Gemma no Cloud Run, consulte as seguintes páginas:
- Práticas recomendadas para usar GPUs no Cloud Run
- Executar a inferência do Gemma em GPUs do Cloud Run com o Ollama
- Executar inferência do Gemma em GPUs do Cloud Run com vLLM
- Executar a inferência do Gemma em GPUs do Cloud Run com o Transformers.js
Google Kubernetes Engine (GKE)
O Google Kubernetes Engine (GKE) é um serviço gerenciado do Kubernetes do Google Cloud que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google. É possível disponibilizar o Gemma usando unidades de processamento de tensor do Cloud (TPUs) e unidades de processamento gráfico (GPUs) no GKE com estes frameworks de veiculação de LLM:
- Disponibilizar o Gemma usando GPUs no GKE com vLLM
- Disponibilizar o Gemma usando GPUs no GKE com o TGI
- Disponibilizar o Gemma usando GPUs no GKE com o Triton e o TensorRT-LLM
- Disponibilizar o Gemma usando TPUs no GKE com o JetStream
- Disponibilizar o Gemma usando TPUs no GKE com o Saxml
Ao disponibilizar o Gemma no GKE, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.
Para saber mais, consulte as seguintes páginas:
- Visão geral do GKE: Comece a usar o Google Kubernetes Engine (GKE)
- Orquestração de IA/ML no GKE: execute cargas de trabalho de IA/ML otimizadas com o GKE.
ML do Dataflow
O Dataflow ML é uma plataforma do Google Cloud para implantar e gerenciar fluxos de trabalho completos de machine learning. Com o Dataflow ML, você pode preparar seus dados para o treinamento de modelos com ferramentas de processamento de dados e, em seguida, usar modelos como o Gemma para realizar inferências locais e remotas com pipelines de streaming e em lote.
É possível usar o Dataflow ML para integrar o Gemma aos pipelines de inferência do Apache Beam com poucas linhas de código, permitindo a ingestão, verificação e transformação de dados, a alimentação de entradas de texto no Gemma e a geração de saídas de texto.
Para saber mais, consulte as seguintes páginas:
- Usar modelos abertos do Gemma com o Dataflow: começar a usar o Gemma no Dataflow.
- Executar inferência com um modelo aberto do Gemma: tutorial que usa o Gemma em um pipeline de inferência do Apache Beam.