Executar modelos de inteligência artificial (IA) generativa, como o Gemma, pode ser difícil sem o hardware certo. Frameworks de código aberto, como llama.cpp e Ollama, facilitam isso ao configurar um ambiente de execução pré-configurado que permite executar versões do Gemma com menos recursos de computação. Na verdade, usando o llama.cpp e o Ollama, é possível executar versões do Gemma em um laptop ou outro dispositivo de computação pequeno sem uma unidade de processamento gráfico (GPU).
Para executar modelos da Gemma com menos recursos de computação, os frameworks llama.cpp e Ollama usam versões quantizadas dos modelos no formato de arquivo de modelo unificado de Georgi Gerganov (GGUF). Esses modelos quantizados são modificados para processar solicitações usando dados menores e menos precisos. Usar dados menos precisos em modelos quantizados para processar solicitações geralmente reduz a qualidade da saída dos modelos, mas também diminui os custos de recursos de computação.
Neste guia, descrevemos como configurar e usar o Ollama para executar o Gemma e gerar respostas de texto.
Configuração
Nesta seção, descrevemos como configurar o Ollama e preparar uma instância do modelo Gemma para responder a solicitações, incluindo como pedir acesso ao modelo, instalar software e configurar um modelo Gemma no Ollama.
Instalar o Ollama
Antes de usar o Gemma com o Ollama, baixe e instale o software Ollama no seu dispositivo de computação.
Para fazer o download e instalar o Ollama:
- Acesse a página de download: https://ollama.com/download
- Selecione seu sistema operacional, clique no botão Fazer o download ou siga as instruções na página de download.
- Execute o instalador para instalar o aplicativo.
- Windows:execute o arquivo *.exe do instalador e siga as instruções.
- Mac:descompacte o pacote zip e mova a pasta do aplicativo Ollama para o diretório Aplicativos.
- Linux:siga as instruções no instalador de script bash.
Confirme se o Ollama está instalado abrindo uma janela de terminal e inserindo o seguinte comando:
ollama --version
Você vai receber uma resposta semelhante a: ollama version is #.#.##. Se você não receber esse resultado, verifique se o executável do Ollama foi adicionado ao caminho do sistema operacional.
Configurar o Gemma no Ollama
O pacote de instalação do Ollama não inclui modelos por padrão. Você
pode baixar um modelo usando o comando pull.
Para configurar o Gemma no Ollama:
Faça o download e configure a variante padrão do Gemma 4 abrindo uma janela de terminal e inserindo o seguinte comando:
ollama pull gemma4
Depois de concluir o download, confirme se o modelo está disponível com o comando a seguir:
ollama list
Os modelos são especificados como <model_name>:<tag>. Para a Gemma 4, quatro tamanhos: parâmetros E2B, E4B, 26B e 31B:
- Parâmetros do E2B
gemma4:e2b - Parâmetros do E4B
gemma4:e4b - 26B A4B Parameters
gemma4:26b - Parâmetros 31B
gemma4:31b
Você pode encontrar as tags disponíveis no site do Ollama, incluindo Gemma 4, Gemma 3n, Gemma 3, Gemma 2 e Gemma.
Gerar respostas
Depois de instalar um modelo do Gemma no Ollama, você pode gerar respostas imediatamente usando o comando run da interface de linha de comando do Ollama. O Ollama também
configura um serviço da Web para acessar o modelo, que pode ser testado usando o
comando curl.
Para gerar uma resposta na linha de comando:
Em uma janela de terminal, digite o seguinte comando:
ollama run gemma4 "roses are red"Inclua o caminho da imagem para usar uma entrada visual:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Para gerar uma resposta usando o serviço da Web local do Ollama:
Em uma janela de terminal, digite o seguinte comando:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'Inclua uma lista de imagens codificadas em base64 para usar uma entrada visual:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
Modelos Gemma ajustados
O Ollama oferece um conjunto de variantes oficiais do modelo Gemma para uso imediato, que são quantizadas e salvas no formato GGUF. É possível usar seus próprios modelos Gemma ajustados com o Ollama convertendo-os para o formato GGUF. O Ollama inclui algumas funções para converter modelos ajustados de um formato Modelfile para GGUF. Para mais informações sobre como converter seu modelo ajustado para GGUF, consulte o README do Ollama.
Próximas etapas
Depois de executar o Gemma com o Ollama, você pode começar a testar e criar soluções com os recursos de IA generativa do Gemma. A interface de linha de comando do Ollama pode ser útil para criar soluções de script. A interface do serviço da Web local do Ollama pode ser útil para criar aplicativos experimentais e de baixo volume de uso.
- Tente integrar usando o serviço da Web do Ollama para criar um assistente de programação pessoal executado localmente.
- Saiba como ajustar um modelo da Gemma.
- Saiba como executar o Gemma com o Ollama usando os serviços do Google Cloud Run.
- Saiba como executar a Gemma com o Google Cloud.