A execução de modelos de inteligência artificial (IA) generativa, como o Gemma, pode ser difícil sem o hardware certo. Frameworks de código aberto, como llama.cpp e Ollama, facilitam a configuração de um ambiente de execução pré-configurado que permite executar versões do Gemma com menos recursos de computação. Na verdade, usando llama.cpp e Ollama, é possível executar versões do Gemma em um laptop ou outro dispositivo de computação pequeno sem uma unidade de processamento gráfico (GPU).
Para executar modelos do Gemma com menos recursos de computação, os frameworks llama.cpp e Ollama usam versões quantizadas dos modelos no formato de arquivo de modelo GGUF (Georgi Gerganov Unified Format). Esses modelos quantizados são modificados para processar solicitações usando dados menores e menos precisos. O uso de dados menos precisos em modelos quantizados para processar solicitações normalmente reduz a qualidade da saída dos modelos, mas tem o benefício de reduzir os custos de recursos de computação.
Este guia descreve como configurar e usar o Ollama para executar o Gemma e gerar respostas em texto.
Configuração
Esta seção descreve como configurar o Ollama e preparar uma instância de modelo Gemma para responder a solicitações, incluindo o acesso ao modelo, a instalação de software e a configuração de um modelo Gemma no Ollama.
Acessar modelos do Gemma
Antes de trabalhar com os modelos do Gemma, verifique se você solicitou acesso pelo Kaggle e leu os Termos de Uso do Gemma.
Instalar o Ollama
Antes de usar o Gemma com o Ollama, é necessário fazer o download e instalar o software do Ollama no seu dispositivo.
Para fazer o download e instalar o Ollama:
- Acesse a página de download: https://ollama.com/download
- Selecione seu sistema operacional, clique no botão Fazer o download ou siga as instruções na página de download.
- Instale o aplicativo executando o instalador.
- Windows:execute o arquivo *.exe do instalador e siga as instruções.
- Mac:descompacte o pacote zip e mova a pasta do aplicativo Ollama para o diretório Applications.
- Linux:siga as instruções no instalador do script bash.
Para confirmar que o Ollama está instalado, abra uma janela de terminal e digite o seguinte comando:
ollama --version
Você vai receber uma resposta semelhante a: ollama version is #.#.##
. Se você não
receber esse resultado, verifique se o executável Ollama foi adicionado ao caminho do
sistema operacional.
Configurar o Gemma no Ollama
O pacote de instalação do Ollama não inclui modelos por padrão. Faça o download de um modelo usando o comando pull
.
Para configurar o Gemma no Ollama:
Faça o download e configure a variante padrão da Gemma 3 abrindo uma janela de terminal e inserindo o seguinte comando:
ollama pull gemma3
Após a conclusão do download, confirme se o modelo está disponível com o seguinte comando:
ollama list
Por padrão, o Ollama faz o download da variante do modelo Gemma com 4 bilhões de parâmetros quantizados de 4 bits (Q4_0). Você também pode fazer o download e usar outros tamanhos do modelo Gemma especificando um tamanho de parâmetro.
Os modelos são especificados como <model_name>:<tag>
. Para o Gemma 3, quatro tamanhos: parâmetros 1B,
4B, 12B e 27B:
- Parâmetros 1B
gemma3:1b
- Parâmetros 4B
gemma3:4b
- Parâmetros 12B
gemma3:12b
- Parâmetros 27B
gemma3:27b
As tags disponíveis estão disponíveis no site do Ollama, incluindo Gemma 3, Gemma 2 e Gemma.
Gerar respostas
Quando você terminar de instalar um modelo do Gemma no Ollama, poderá gerar
respostas imediatamente usando o comando run
da interface de linha de comando do Ollama.
O Ollama também configura um serviço da Web para acessar o modelo, que pode ser testado
usando o comando curl
.
Para gerar uma resposta na linha de comando:
Em uma janela de terminal, digite o seguinte comando:
ollama run gemma3 "roses are red"
Inclua o caminho da imagem para usar uma entrada visual:
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
Para gerar uma resposta usando o serviço da Web local do Ollama:
Em uma janela de terminal, digite o seguinte comando:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
Inclua uma lista de imagens codificadas em base64 para usar uma entrada visual:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
Modelos Gemma ajustados
O Ollama fornece um conjunto de variantes oficiais do modelo Gemma para uso imediato, que são quantizadas e salvas no formato GGUF. Você pode usar seus próprios modelos Gemma ajustados com o Ollama convertendo-os para o formato GGUF. O Ollama inclui algumas funções para converter modelos ajustados de um formato de arquivo de modelo para GGUF. Para mais informações sobre como converter o modelo ajustado em GGUF, consulte o README do Ollama.
Próximas etapas
Depois de configurar o Gemma com o Ollama, você pode começar a experimentar e criar soluções com os recursos de IA generativa do Gemma. A interface de linha de comando do Ollama pode ser útil para criar soluções de script. A interface do serviço da Web local do Ollama pode ser útil para criar aplicativos experimentais e de uso de baixo volume.
- Tente integrar usando o serviço da Web do Ollama para criar um assistente de código pessoal executado localmente.
- Saiba como ajustar um modelo Gemma.
- Aprenda a executar o Gemma com o Ollama usando os serviços do Google Cloud Run.
- Saiba como executar o Gemma com o Google Cloud.