Executar a geração de conteúdo e as inferências do Gemma

Ao executar um modelo Gemma, você precisa tomar duas decisões importantes: 1) qual variante do Gemma você quer executar e 2) qual framework de execução de IA você vai usar para isso. Um problema fundamental ao tomar essas duas decisões tem a ver com o hardware disponível para você e seus usuários executarem o modelo.

Esta visão geral ajuda você a tomar essas decisões e começar a trabalhar com modelos Gemma. As etapas gerais para executar um modelo Gemma são as seguintes:

Escolher um framework

Os modelos Gemma são compatíveis com uma grande variedade de ferramentas de ecossistema. A escolha do modelo certo depende do hardware disponível (Cloud GPUs ou laptop local) e da sua preferência de interface (código Python ou aplicativo para computador).

Use a tabela a seguir para identificar rapidamente a melhor ferramenta para suas necessidades:

Se você quiser... Framework recomendado Ideal para
Executar localmente com uma interface de chat - LM Studio
- Ollama
Iniciantes ou usuários que querem uma experiência semelhante ao Gemini no laptop.
Executar com eficiência na borda - LiteRT-LM
- llama.cpp
- API MediaPipe LLM Inference
- MLX
Inferência local de alto desempenho com recursos mínimos.
Criar/treinar em Python - Biblioteca Gemma para JAX
- Transformers do Hugging Face
- Keras
- PyTorch
- Unsloth
Pesquisadores e desenvolvedores que criam aplicativos personalizados ou modelos de ajuste fino.
Implantar na produção / empresa - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
Implantação escalonável e gerenciada na nuvem com segurança empresarial e suporte ao MLOps.

Detalhes do framework

A seguir, confira guias para executar modelos Gemma categorizados pelo ambiente de implantação.

1. Inferência local e para computador (alta eficiência)

Essas ferramentas permitem executar o Gemma em hardware de consumo (laptops, computadores) usando formatos otimizados (como GGUF) ou aceleradores de hardware específicos.

2. Desenvolvimento em Python (pesquisa e ajuste fino)

Frameworks padrão para desenvolvedores de IA que criam aplicativos, pipelines ou modelos de treinamento.

3. Implantação para dispositivos móveis e de borda (no dispositivo)

Frameworks projetados para executar LLMs diretamente em dispositivos do usuário (Android, iOS, Web) sem conectividade à Internet, geralmente usando NPUs (unidades de processamento neural).

  • LiteRT-LM: o framework de código aberto para desenvolvimento de LLM no dispositivo que oferece desempenho máximo e controle detalhado, com suporte direto para aceleração de CPU, GPU e NPU no Android e iOS.
  • API MediaPipe LLM Inference: a maneira mais fácil de integrar o Gemma a apps multiplataforma. Ela oferece uma API de alto nível que funciona no Android, iOS e na Web.

4. Implantação na nuvem e na produção

Serviços gerenciados para escalonar seu aplicativo para milhares de usuários ou acessar uma enorme capacidade de computação.

Verifique se o formato do modelo Gemma de implantação pretendido, como o formato integrado do Keras, o Safetensors ou o GGUF, é compatível com o framework escolhido.

Selecionar uma variante do Gemma

Os modelos Gemma estão disponíveis em várias variantes e tamanhos, incluindo os modelos Gemma básicos ou principais e variantes de modelos mais especializados, como PaliGemma e DataGemma, e muitas variantes criadas pela comunidade de desenvolvedores de IA em sites como Kaggle e Hugging Face. Se você não tiver certeza de qual variante começar, selecione o modelo de instrução (IT) principal mais recente do Gemma core com o menor número de parâmetros. Esse tipo de modelo Gemma tem requisitos de computação baixos e pode responder a uma grande variedade de comandos sem exigir desenvolvimento adicional.

Considere os seguintes fatores ao escolher uma variante do Gemma:

  • Gemma principal e outras famílias de variantes, como PaliGemma e CodeGemma: recomende o Gemma (principal). As variantes do Gemma além da versão principal têm a mesma arquitetura do modelo principal e são treinadas para ter um desempenho melhor em tarefas específicas. A menos que seu aplicativo ou metas estejam alinhados à especialização de uma variante específica do Gemma, é melhor começar com um modelo principal ou básico do Gemma.
  • Ajustado por instruções (IT), pré-treinado (PT), ajustado (FT), misto (mix): recomende o IT.
    • As variantes do Gemma ajustadas por instruções (IT) são modelos que foram treinados para responder a várias instruções ou solicitações em linguagem humana. Essas variantes de modelo são o melhor lugar para começar, porque podem responder a comandos sem mais treinamento de modelo.
    • As variantes do Gemma pré-treinadas (PT) são modelos que foram treinados para fazer inferências sobre linguagem ou outros dados, mas não foram treinados para seguir instruções humanas. Esses modelos exigem treinamento ou ajuste adicional para executar tarefas com eficiência e são destinados a pesquisadores ou desenvolvedores que querem estudar ou desenvolver os recursos do modelo e da arquitetura.
    • As variantes do Gemma ajustadas (FT) podem ser consideradas variantes de TI, mas geralmente são treinadas para executar uma tarefa específica ou ter um bom desempenho em um benchmark de IA generativa específico. A família de variantes do PaliGemma inclui várias variantes de FT.
    • As variantes do Gemma mistas (mix) são versões de modelos PaliGemma que foram ajustadas por instruções com várias instruções e são adequadas para uso geral.
  • Parâmetros: recomende o menor número disponível. Em geral, quanto mais parâmetros um modelo tem, mais capaz ele é. No entanto, a execução de modelos maiores exige recursos de computação maiores e mais complexos e geralmente desacelera o desenvolvimento de um aplicativo de IA. A menos que você já tenha determinado que um modelo Gemma menor não atende às suas necessidades, escolha um com um pequeno número de parâmetros.
  • Níveis de quantização:recomende meia precisão (16 bits), exceto para ajuste. A quantização é um tópico complexo que se resume ao tamanho e à precisão dos dados e, consequentemente, à quantidade de memória que um modelo de IA generativa usa para cálculos e geração de respostas. Depois que um modelo é treinado com dados de alta precisão, que normalmente são dados de ponto flutuante de 32 bits, modelos como o Gemma podem ser modificados para usar dados de menor precisão, como tamanhos de 16, 8 ou 4 bits. Esses modelos Gemma quantizados ainda podem ter um bom desempenho, dependendo da complexidade das tarefas, usando muito menos recursos de computação e memória. No entanto, as ferramentas para ajustar modelos quantizados são limitadas e podem não estar disponíveis no framework de desenvolvimento de IA escolhido. Normalmente, é necessário ajustar um modelo como o Gemma com precisão total e quantizar o modelo resultante.

Para conferir uma lista de modelos Gemma principais publicados pelo Google, consulte os artigos Introdução aos modelos Gemma, Lista de modelos Gemma.

Executar solicitações de geração e inferência

Depois de selecionar um framework de execução de IA e uma variante do Gemma, você pode começar a executar o modelo e pedir que ele gere conteúdo ou conclua tarefas. Para mais informações sobre como executar o Gemma com um framework específico, consulte os guias vinculados na seção Escolher um framework.

Formatação de comandos

Todas as variantes do Gemma ajustadas por instruções têm requisitos específicos de formatação de comandos. Alguns desses requisitos de formatação são processados automaticamente pelo framework usado para executar modelos Gemma, mas, ao enviar dados de comando diretamente para um tokenizador, é necessário adicionar tags específicas, e os requisitos de marcação podem mudar dependendo da variante do Gemma que você está usando. Consulte os guias a seguir para informações sobre a formatação de comandos e instruções do sistema da variante do Gemma: