Há duas decisões importantes a serem tomadas ao executar um modelo do Gemma: 1) qual variante do Gemma você quer executar e 2) qual framework de execução de IA você vai usar para isso? Um problema importante para tomar essas decisões está relacionado ao hardware que você e seus usuários têm disponível para executar o modelo.
Esta visão geral ajuda você a navegar por essas decisões e começar a trabalhar com os modelos Gemma. As etapas gerais para executar um modelo Gemma são as seguintes:
- Escolher um framework para execução
- Selecionar uma variante do Gemma
- Executar solicitações de geração e inferência
Escolher um framework
Os modelos do Gemma são compatíveis com vários frameworks de execução de IA generativa. Um dos principais fatores de tomada de decisão na execução de um modelo Gemma é saber quais recursos de computação você tem (ou terá) disponíveis para executar o modelo. A maioria dos frameworks de IA compatíveis exige hardware especializado, como GPUs ou TPUs, para executar um modelo Gemma de maneira eficaz. Ferramentas como o Google Colab podem fornecer esses recursos de computação especializados de forma limitada. Alguns frameworks de execução de IA, como Ollama e Gemma.cpp, permitem executar o Gemma em CPUs mais comuns usando arquiteturas ARM ou compatíveis com x86.
Confira os guias para executar modelos do Gemma com vários frameworks de execução de IA:
- Ollama
- Transformers do Hugging Face
- Biblioteca Gemma para JAX
- Keras
- PyTorch
- API MediaPipe LLM Inference
- Transformers do Hugging Face
- Gemma.cpp
- vLLM
- Vertex AI do Google Cloud
- Exibir o Google Cloud
- Google Cloud Kubernetes Engine (GKE)
Confira se o formato do modelo Gemma da implantação pretendida, como o formato nativo do Keras, Safetensors ou GGUF, é compatível com o framework escolhido.
Selecione uma variante do Gemma
Os modelos Gemma estão disponíveis em várias variantes e tamanhos, incluindo os modelos de base ou núcleo Gemma e variantes de modelos mais especializadas, como PaliGemma e DataGemma, além de muitas variantes criadas pela comunidade de desenvolvedores de IA em sites como Kaggle e Hugging Face. Se você não tiver certeza sobre qual variante deve começar, selecione o modelo de ajuste de instrução (IT, na sigla em inglês) core mais recente do Gemma com o menor número de parâmetros. Esse tipo de modelo Gemma tem requisitos de computação baixos e pode responder a uma ampla variedade de comandos sem requerer desenvolvimento adicional.
Considere os seguintes fatores ao escolher uma variante do Gemma:
- Gemma core e outras famílias de variantes, como PaliGemma e CodeGemma: Recommend Gemma (núcleo). As variantes do Gemma além da versão principal têm a mesma arquitetura do modelo principal e são treinadas para ter melhor desempenho em tarefas específicas. A menos que seu aplicativo ou suas metas estejam alinhados com a especialização de uma variante específica do Gemma, é melhor começar com um modelo principal ou básico do Gemma.
- Ajustado por instrução (AI), pré-treinado (PT), ajustado (AT), misto
(mix): recomendar AI.
- As variantes Gemma ajustadas por instruções (IT, na sigla em inglês) são modelos que foram treinados para responder a várias instruções ou solicitações em linguagem humana. Essas variantes de modelo são o melhor lugar para começar, porque podem responder a comandos sem mais treinamento de modelo.
- As variantes pré-treinadas (PT) do Gemma são modelos que foram treinados para fazer inferências sobre linguagem ou outros dados, mas não foram treinados para seguir instruções humanas. Esses modelos exigem treinamento ou ajuste adicional para realizar tarefas de maneira eficaz e são destinados a pesquisadores ou desenvolvedores que querem estudar ou desenvolver os recursos do modelo e da arquitetura.
- As variantes afinada (FT, na sigla em inglês) do Gemma podem ser consideradas variantes de TI, mas geralmente são treinadas para realizar uma tarefa específica ou ter um bom desempenho em um comparativo de mercado de IA generativa específico. A família de variantes PaliGemma inclui várias variantes de FT.
- As variantes mistas (mix) do Gemma são versões de modelos PaliGemma que foram ajustadas com várias instruções e são adequadas para uso geral.
- Parameters: Recomendar o menor número disponível. Em geral, quanto mais parâmetros um modelo tiver, mais capacidade ele terá. No entanto, a execução de modelos maiores requer recursos de computação maiores e mais complexos e geralmente retarda o desenvolvimento de um aplicativo de IA. A menos que você já tenha determinado que um modelo menor do Gemma não atende às suas necessidades, escolha um com um pequeno número de parâmetros.
- Níveis de quantização:recomenda-se meia precisão (16 bits), exceto para ajustes. A quantização é um tópico complexo que se resume ao tamanho e à precisão dos dados e, consequentemente, à quantidade de memória que um modelo de IA generativa usa para cálculos e geração de respostas. Depois que um modelo é treinado com dados de alta precisão, que normalmente são dados de ponto flutuante de 32 bits, modelos como Gemma podem ser modificados para usar dados de menor precisão, como tamanhos de 16, 8 ou 4 bits. Esses modelos quantizados do Gemma ainda podem ter bom desempenho, dependendo da complexidade das tarefas, usando muito menos recursos de computação e memória. No entanto, as ferramentas para ajustar modelos quantizados são limitadas e podem não estar disponíveis no framework de desenvolvimento de IA escolhido. Normalmente, é necessário ajustar um modelo como o Gemma com precisão total e, em seguida, quantificar o modelo resultante.
Para conferir uma lista de modelos principais do Gemma publicados pelo Google, consulte a Introdução aos modelos Gemma, lista de modelos do Gemma.
Executar solicitações de geração e inferência
Depois de selecionar um framework de execução de IA e uma variante do Gemma, você pode iniciar a execução do modelo e solicitar que ele gere conteúdo ou conclua tarefas. Para mais informações sobre como executar o Gemma com uma estrutura específica, consulte os guias vinculados na seção Escolher uma estrutura.
Formatação do comando
Todas as variantes do Gemma ajustadas por instruções têm requisitos específicos de formatação de comandos. Alguns desses requisitos de formatação são processados automaticamente pelo framework usado para executar modelos Gemma. No entanto, ao enviar dados de comando diretamente para um tokenizer, é necessário adicionar tags específicas. Os requisitos de tagging podem mudar dependendo da variante do Gemma que você está usando. Consulte os seguintes guias para saber mais sobre a formatação do comando de variante do Gemma e as instruções do sistema: