Executar o Gemma com o Ollama

A execução de modelos de inteligência artificial (IA) generativa, como o Gemma, pode ser difícil sem o hardware certo. Frameworks de código aberto, como llama.cpp e Ollama, facilitam a configuração de um ambiente de execução pré-configurado que permite executar versões do Gemma com menos recursos de computação. Na verdade, usando llama.cpp e Ollama, é possível executar versões do Gemma em um laptop ou outro dispositivo de computação pequeno sem uma unidade de processamento gráfico (GPU).

Para executar modelos do Gemma com menos recursos de computação, os frameworks llama.cpp e Ollama usam versões quantizadas dos modelos no formato de arquivo de modelo unificado gerado pelo GPT (GGUF, na sigla em inglês). Esses modelos quantizados são modificados para processar solicitações usando dados menores e menos precisos. O uso de dados menos precisos em modelos quantizados para processar solicitações normalmente reduz a qualidade da saída dos modelos, mas tem o benefício de reduzir os custos de recursos de computação.

Este guia descreve como configurar e usar o Ollama para executar o Gemma e gerar respostas em texto.

Configuração

Esta seção descreve como configurar o Ollama e preparar uma instância de modelo Gemma para responder a solicitações, incluindo o acesso ao modelo, a instalação de software e a configuração de um modelo Gemma no Ollama.

Receber acesso aos modelos do Gemma

Antes de trabalhar com os modelos do Gemma, verifique se você solicitou acesso pelo Kaggle e leu os Termos de Uso do Gemma.

Instalar o Ollama

Antes de usar o Gemma com o Ollama, é necessário fazer o download e instalar o software do Ollama no seu dispositivo.

Para fazer o download e instalar o Ollama:

  1. Acesse a página de download: https://ollama.com/download
  2. Selecione seu sistema operacional, clique no botão Fazer o download ou siga as instruções na página de download.
  3. Instale o aplicativo executando o instalador.
    • Windows:execute o arquivo instalador *.exe e siga as instruções.
    • Mac:descompacte o pacote e mova a pasta do aplicativo Ollama para o diretório Applications.
    • Linux:siga as instruções no instalador do script bash.
  4. Para confirmar que o Ollama está instalado, abra uma janela de terminal e digite o seguinte comando:

    ollama --version
    

Você vai receber uma resposta semelhante a ollama version is #.#.##. Se você não receber esse resultado, verifique se o executável Ollama foi adicionado ao caminho do sistema operacional.

Configurar o Gemma no Ollama

O pacote de instalação do Ollama não inclui modelos por padrão. Faça o download de um modelo usando o comando pull.

Para configurar o Gemma no Ollama:

  1. Faça o download e configure a variante padrão da Gemma 2 abrindo uma janela de terminal e inserindo o seguinte comando:

    ollama pull gemma2
    
  2. Após a conclusão do download, confirme se o modelo está disponível com o seguinte comando:

    ollama list
    

Por padrão, o Ollama faz o download da variante do modelo Gemma com 9 bilhões de parâmetros quantizados de 4 bits (Q4_0). Você também pode fazer o download e usar outros tamanhos do modelo Gemma especificando um tamanho de parâmetro.

Os modelos são especificados como <model_name>:<tag>. Para o modelo de 2 bilhões de parâmetros do Gemma 2, digite gemma2:2b. Para o modelo de 27 bilhões de parâmetros, insira gemma2:27b. Você pode encontrar as tags disponíveis no site do Ollama, incluindo Gemma 2 e Gemma.

Gerar respostas

Quando você terminar de instalar um modelo do Gemma no Ollama, poderá gerar respostas imediatamente usando o comando run da interface de linha de comando do Ollama. O Ollama também configura um serviço da Web para acessar o modelo, que pode ser testado usando o comando curl.

Para gerar uma resposta na linha de comando:

  • Em uma janela de terminal, digite o seguinte comando:

    ollama run gemma2 "roses are red"
    

Para gerar uma resposta usando o serviço da Web local do Ollama:

  • Em uma janela de terminal, digite o seguinte comando:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

Modelos Gemma ajustados

O Ollama fornece um conjunto de variantes oficiais do modelo Gemma para uso imediato, que são quantizadas e salvas no formato GGUF. Você pode usar seus próprios modelos Gemma ajustados com o Ollama convertendo-os para o formato GGUF. O Ollama inclui algumas funções para converter modelos ajustados de um formato de arquivo de modelo para GGUF. Para mais informações sobre como converter o modelo ajustado para GGUF, consulte o README do Ollama.

Próximas etapas

Depois de executar o Gemma com o Ollama, você pode começar a experimentar e criar soluções com os recursos de IA generativa do Gemma. A interface de linha de comando do Ollama pode ser útil para criar soluções de script. A interface do serviço da Web local do Ollama pode ser útil para criar aplicativos experimentais e de uso de baixo volume.