Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Executar o Gemma com o Ollama

Executar modelos de inteligência artificial (IA) generativa, como o Gemma, pode ser difícil sem o hardware certo. Frameworks de código aberto, como llama.cpp e Ollama, facilitam isso ao configurar um ambiente de execução pré-configurado que permite executar versões do Gemma com menos recursos de computação. Na verdade, usando o llama.cpp e o Ollama, é possível executar versões do Gemma em um laptop ou outro dispositivo de computação pequeno sem uma unidade de processamento gráfico (GPU).

Para executar modelos da Gemma com menos recursos de computação, os frameworks llama.cpp e Ollama usam versões quantizadas dos modelos no formato de arquivo de modelo unificado de Georgi Gerganov (GGUF). Esses modelos quantizados são modificados para processar solicitações usando dados menores e menos precisos. Usar dados menos precisos em modelos quantizados para processar solicitações geralmente reduz a qualidade da saída dos modelos, mas também diminui os custos de recursos de computação.

Neste guia, descrevemos como configurar e usar o Ollama para executar o Gemma e gerar respostas de texto.

Configuração

Nesta seção, descrevemos como configurar o Ollama e preparar uma instância do modelo Gemma para responder a solicitações, incluindo como pedir acesso ao modelo, instalar software e configurar um modelo Gemma no Ollama.

Instalar o Ollama

Antes de usar o Gemma com o Ollama, baixe e instale o software Ollama no seu dispositivo de computação.

Para fazer o download e instalar o Ollama:

Acesse a página de download: https://ollama.com/download
Selecione seu sistema operacional, clique no botão Fazer o download ou siga as instruções na página de download.
Execute o instalador para instalar o aplicativo.
- Windows:execute o arquivo *.exe do instalador e siga as instruções.
- Mac:descompacte o pacote zip e mova a pasta do aplicativo Ollama para o diretório Aplicativos.
- Linux:siga as instruções no instalador de script bash.
Confirme se o Ollama está instalado abrindo uma janela de terminal e inserindo o seguinte comando:

ollama --version

Você vai receber uma resposta semelhante a: ollama version is #.#.##. Se você não receber esse resultado, verifique se o executável do Ollama foi adicionado ao caminho do sistema operacional.

Configurar o Gemma no Ollama

O pacote de instalação do Ollama não inclui modelos por padrão. Você pode baixar um modelo usando o comando pull.

Para configurar o Gemma no Ollama:

Faça o download e configure a variante padrão do Gemma 4 abrindo uma janela de terminal e inserindo o seguinte comando:

ollama pull gemma4
Depois de concluir o download, confirme se o modelo está disponível com o comando a seguir:

ollama list

Os modelos são especificados como <model_name>:<tag>. Para a Gemma 4, quatro tamanhos: parâmetros E2B, E4B, 26B e 31B:

Parâmetros do E2B gemma4:e2b
Parâmetros do E4B gemma4:e4b
26B A4B Parameters gemma4:26b
Parâmetros 31B gemma4:31b

Você pode encontrar as tags disponíveis no site do Ollama, incluindo Gemma 4, Gemma 3n, Gemma 3, Gemma 2 e Gemma.

Gerar respostas

Depois de instalar um modelo do Gemma no Ollama, você pode gerar respostas imediatamente usando o comando run da interface de linha de comando do Ollama. O Ollama também configura um serviço da Web para acessar o modelo, que pode ser testado usando o comando curl.

Para gerar uma resposta na linha de comando:

Em uma janela de terminal, digite o seguinte comando:
```
ollama run gemma4 "roses are red"
```

Inclua o caminho da imagem para usar uma entrada visual:

ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"

Para gerar uma resposta usando o serviço da Web local do Ollama:

Em uma janela de terminal, digite o seguinte comando:

curl http://localhost:11434/api/generate -d '{\
      "model": "gemma4",\
      "prompt":"roses are red"\
}'

Inclua uma lista de imagens codificadas em base64 para usar uma entrada visual:

curl http://localhost:11434/api/generate -d '{\
      "model": "gemma4",\
      "prompt":"caption this image",\
      "images":[...]\
}'

Modelos Gemma ajustados

O Ollama oferece um conjunto de variantes oficiais do modelo Gemma para uso imediato, que são quantizadas e salvas no formato GGUF. É possível usar seus próprios modelos Gemma ajustados com o Ollama convertendo-os para o formato GGUF. O Ollama inclui algumas funções para converter modelos ajustados de um formato Modelfile para GGUF. Para mais informações sobre como converter seu modelo ajustado para GGUF, consulte o README do Ollama.

Próximas etapas

Depois de executar o Gemma com o Ollama, você pode começar a testar e criar soluções com os recursos de IA generativa do Gemma. A interface de linha de comando do Ollama pode ser útil para criar soluções de script. A interface do serviço da Web local do Ollama pode ser útil para criar aplicativos experimentais e de baixo volume de uso.

Tente integrar usando o serviço da Web do Ollama para criar um assistente de programação pessoal executado localmente.
Saiba como ajustar um modelo da Gemma.
Saiba como executar o Gemma com o Ollama usando os serviços do Google Cloud Run.
Saiba como executar a Gemma com o Google Cloud.