O Gemma 3n foi lançado com entrada de áudio e otimizado para uso em dispositivos do dia a dia. Saiba mais

Executar a geração de conteúdo e as inferências do Gemma

Há duas decisões importantes a serem tomadas ao executar um modelo do Gemma: 1) qual variante do Gemma você quer executar e 2) qual framework de execução de IA você vai usar para isso? Um problema fundamental ao tomar essas decisões tem a ver com o hardware disponível para você e seus usuários executarem o modelo.

Esta visão geral ajuda você a tomar essas decisões e começar a trabalhar com os modelos da Gemma. As etapas gerais para executar um modelo da Gemma são as seguintes:

Escolher uma estrutura para execução
Selecione uma variante do Gemma
Executar solicitações de geração e inferência

Escolher um framework

Os modelos da Gemma são compatíveis com uma grande variedade de ferramentas do ecossistema. A escolha depende do hardware disponível (GPUs do Cloud ou laptop local) e da sua preferência de interface (código Python ou aplicativo para computador).

Use a tabela a seguir para identificar rapidamente a melhor ferramenta para suas necessidades:

Se você quiser...	Framework recomendado	Ideal para
Executar localmente com uma interface do Chat	- LM Studio - Ollama	Iniciantes ou usuários que querem uma experiência semelhante ao Gemini no laptop.
Executar com eficiência no Edge	- Gemma.cpp - LiteRT-LM - llama.cpp - API MediaPipe LLM Inference - MLX	Inferência local de alto desempenho com recursos mínimos.
Criar/treinar em Python	- Biblioteca Gemma para JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth	Pesquisadores e desenvolvedores que criam aplicativos personalizados ou ajustam modelos.
Implantar na produção / empresa	- Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM	Implantação gerenciada e escalonável na nuvem com segurança empresarial e suporte a MLOps.

Detalhes do framework

Confira a seguir os guias para executar modelos do Gemma categorizados por ambiente de implantação.

1. Inferência local e em computadores (alta eficiência)

Com essas ferramentas, é possível executar a Gemma em hardware de consumo (laptops, computadores desktop) usando formatos otimizados (como GGUF) ou aceleradores de hardware específicos.

LM Studio: um aplicativo para computador que permite baixar e conversar com modelos da Gemma em uma interface fácil de usar. Sem necessidade de código.
llama.cpp: uma porta C++ de código aberto popular do Llama (e do Gemma) que é executada incrivelmente rápido em CPUs e Apple Silicon.
LiteRT-LM: oferece uma interface de linha de comando (CLI) para executar modelos .litertlm Gemma otimizados em computadores (Windows, Linux, macOS), com tecnologia LiteRT (antigo TFLite).
MLX: um framework projetado especificamente para machine learning no Apple Silicon, perfeito para usuários de Mac que querem desempenho integrado.
Gemma.cpp: um mecanismo de inferência independente e leve em C++ especificamente do Google.
Ollama: uma ferramenta para executar LLMs abertos localmente, geralmente usada para impulsionar outros aplicativos.

2. Desenvolvimento em Python (pesquisa e ajuste refinado)

Frameworks padrão para desenvolvedores de IA que criam aplicativos, pipelines ou modelos de treinamento.

Transformers do Hugging Face: o padrão do setor para acesso rápido a modelos e pipelines.
Unsloth: uma biblioteca otimizada para ajuste fino de LLMs. Ele permite treinar modelos da Gemma de 2 a 5 vezes mais rápido com muito menos memória, possibilitando o ajuste fino em GPUs de consumo (por exemplo, níveis sem custo financeiro do Google Colab).
Keras / JAX / PyTorch: bibliotecas principais para pesquisa de aprendizado profundo e implementação de arquitetura personalizada.

3. Implantação em dispositivos móveis e na borda (no dispositivo)

Frameworks projetados para executar LLMs diretamente em dispositivos do usuário (Android, iOS, Web) sem conectividade com a Internet, geralmente usando NPUs (unidades de processamento neural).

LiteRT-LM: o framework totalmente de código aberto para desenvolvimento de LLMs no dispositivo que oferece desempenho máximo e controle refinado, com suporte direto para aceleração de CPU, GPU e NPU no Android e iOS.
API MediaPipe LLM Inference: a maneira mais fácil de integrar o Gemma a apps multiplataforma. Ela oferece uma API de alto nível que funciona em Android, iOS e Web.

4. Implantação de nuvem e produção

Serviços gerenciados para escalonar seu aplicativo para milhares de usuários ou acessar grande poder de computação.

Vertex AI: plataforma de IA totalmente gerenciada do Google Cloud. Ideal para aplicativos empresariais que exigem SLAs e escalonamento.
Google Cloud Kubernetes Engine (GKE): para orquestrar seus próprios clusters de serviço.
vLLM: um mecanismo de inferência e serviço de alta capacidade de processamento e eficiência de memória, geralmente usado em implantações na nuvem.

Verifique se o formato do modelo Gemma que você quer implantar, como o formato integrado do Keras, Safetensors ou GGUF, é compatível com o framework escolhido.

Selecionar uma variante da Gemma

Os modelos Gemma estão disponíveis em várias variantes e tamanhos, incluindo os modelos básicos ou principais, e variantes mais especializadas, como PaliGemma e DataGemma, além de muitas variantes criadas pela comunidade de desenvolvedores de IA em sites como Kaggle e Hugging Face. Se você não tiver certeza de qual variante usar, selecione o modelo principal mais recente do Gemma com ajuste de instruções (IT) e o menor número de parâmetros. Esse tipo de modelo tem requisitos de computação baixos e pode responder a uma grande variedade de comandos sem exigir desenvolvimento adicional.

Considere os seguintes fatores ao escolher uma variante da Gemma:

Gemma Core e outras famílias de variantes, como PaliGemma e CodeGemma: Recomendamos o Gemma (Core). As variantes do Gemma além da versão principal têm a mesma arquitetura do modelo principal e são treinadas para ter um desempenho melhor em tarefas específicas. A menos que seu aplicativo ou metas estejam alinhados com a especialização de uma variante específica da Gemma, é melhor começar com um modelo principal ou básico da Gemma.
Ajustado por instrução (IT), pré-treinado (PT), refinado (FT), misto (mix): recomende IT.
- As variantes da Gemma ajustadas por instruções (IT, na sigla em inglês) são modelos treinados para responder a várias instruções ou solicitações em linguagem humana. Essas variantes são o melhor ponto de partida porque podem responder a comandos sem mais treinamento.
- As variantes pré-treinadas (PT) do Gemma são modelos treinados para fazer inferências sobre linguagem ou outros dados, mas não para seguir instruções humanas. Esses modelos exigem treinamento ou ajuste adicional para realizar tarefas de maneira eficaz e são destinados a pesquisadores ou desenvolvedores que querem estudar ou desenvolver as capacidades do modelo e da arquitetura dele.
- As variantes ajustadas (FT) da Gemma podem ser consideradas variantes de TI, mas geralmente são treinadas para realizar uma tarefa específica ou ter um bom desempenho em um comparativo de IA generativa específico. A família de variantes do PaliGemma inclui várias variantes de FT.
- As variantes mistas (mix) do Gemma são versões dos modelos PaliGemma que foram ajustadas com instruções variadas e são adequadas para uso geral.
Parâmetros: Recomendar o menor número disponível. Em geral, quanto mais parâmetros um modelo tem, mais capacidade ele tem. No entanto, executar modelos maiores exige recursos de computação maiores e mais complexos, o que geralmente diminui a velocidade de desenvolvimento de um aplicativo de IA. A menos que você já tenha determinado que um modelo menor do Gemma não atende às suas necessidades, escolha um com um pequeno número de parâmetros.
Níveis de quantização:recomende meia precisão (16 bits), exceto para ajuste. A quantização é um tema complexo que se resume ao tamanho e à precisão dos dados e, consequentemente, à quantidade de memória que um modelo de IA generativa usa para cálculos e geração de respostas. Depois que um modelo é treinado com dados de alta precisão, geralmente dados de ponto flutuante de 32 bits, modelos como o Gemma podem ser modificados para usar dados de menor precisão, como tamanhos de 16, 8 ou 4 bits. Esses modelos quantizados ainda podem ter um bom desempenho, dependendo da complexidade das tarefas, usando muito menos recursos de computação e memória. No entanto, as ferramentas para ajuste de modelos quantizados são limitadas e podem não estar disponíveis no framework de desenvolvimento de IA escolhido. Normalmente, é necessário ajustar um modelo como o Gemma com precisão total e quantizar o modelo resultante.

Para uma lista dos principais modelos Gemma publicados pelo Google, consulte a Lista de modelos Gemma e Como começar a usar os modelos Gemma.

Executar solicitações de geração e inferência

Depois de selecionar uma estrutura de execução de IA e uma variante da Gemma, você pode começar a executar o modelo e pedir que ele gere conteúdo ou conclua tarefas. Para mais informações sobre como executar a Gemma com um framework específico, consulte os guias vinculados na seção Escolher um framework.

Formatação de comandos

Todas as variantes da Gemma ajustadas por instruções têm requisitos específicos de formatação de comandos. Alguns desses requisitos de formatação são processados automaticamente pelo framework usado para executar modelos da Gemma. No entanto, quando você envia dados de solicitação diretamente para um tokenizador, é necessário adicionar tags específicas. Os requisitos de inclusão de tags podem mudar dependendo da variante da Gemma que você está usando. Consulte os guias a seguir para informações sobre formatação de comandos e instruções do sistema para variantes da Gemma: