A execução de modelos de inteligência artificial (IA) generativa, como o Gemma, pode ser difícil sem o hardware certo. Frameworks de código aberto, como llama.cpp e Ollama, facilitam a configuração de um ambiente de execução pré-configurado que permite executar versões do Gemma com menos recursos de computação. Na verdade, usando llama.cpp e Ollama, é possível executar versões do Gemma em um laptop ou outro dispositivo de computação pequeno sem uma unidade de processamento gráfico (GPU).
Para executar modelos do Gemma com menos recursos de computação, os frameworks llama.cpp e Ollama usam versões quantizadas dos modelos no formato de arquivo de modelo unificado gerado pelo GPT (GGUF, na sigla em inglês). Esses modelos quantizados são modificados para processar solicitações usando dados menores e menos precisos. O uso de dados menos precisos em modelos quantizados para processar solicitações normalmente reduz a qualidade da saída dos modelos, mas tem o benefício de reduzir os custos de recursos de computação.
Este guia descreve como configurar e usar o Ollama para executar o Gemma e gerar respostas em texto.
Configuração
Esta seção descreve como configurar o Ollama e preparar uma instância de modelo Gemma para responder a solicitações, incluindo o acesso ao modelo, a instalação de software e a configuração de um modelo Gemma no Ollama.
Receber acesso aos modelos do Gemma
Antes de trabalhar com os modelos do Gemma, verifique se você solicitou acesso pelo Kaggle e leu os Termos de Uso do Gemma.
Instalar o Ollama
Antes de usar o Gemma com o Ollama, é necessário fazer o download e instalar o software do Ollama no seu dispositivo.
Para fazer o download e instalar o Ollama:
- Acesse a página de download: https://ollama.com/download
- Selecione seu sistema operacional, clique no botão Fazer o download ou siga as instruções na página de download.
- Instale o aplicativo executando o instalador.
- Windows:execute o arquivo instalador *.exe e siga as instruções.
- Mac:descompacte o pacote e mova a pasta do aplicativo Ollama para o diretório Applications.
- Linux:siga as instruções no instalador do script bash.
Para confirmar que o Ollama está instalado, abra uma janela de terminal e digite o seguinte comando:
ollama --version
Você vai receber uma resposta semelhante a ollama version is #.#.##
. Se você não
receber esse resultado, verifique se o executável Ollama foi adicionado ao caminho do
sistema operacional.
Configurar o Gemma no Ollama
O pacote de instalação do Ollama não inclui modelos por padrão. Faça o download de um modelo usando o comando pull
.
Para configurar o Gemma no Ollama:
Faça o download e configure a variante padrão da Gemma 2 abrindo uma janela de terminal e inserindo o seguinte comando:
ollama pull gemma2
Após a conclusão do download, confirme se o modelo está disponível com o seguinte comando:
ollama list
Por padrão, o Ollama faz o download da variante do modelo Gemma com 9 bilhões de parâmetros quantizados de 4 bits (Q4_0). Você também pode fazer o download e usar outros tamanhos do modelo Gemma especificando um tamanho de parâmetro.
Os modelos são especificados como <model_name>:<tag>
. Para o modelo de 2 bilhões de parâmetros do Gemma 2, digite gemma2:2b
. Para o modelo de 27 bilhões de parâmetros, insira
gemma2:27b
. Você pode encontrar as tags disponíveis no site do Ollama, incluindo
Gemma 2 e
Gemma.
Gerar respostas
Quando você terminar de instalar um modelo do Gemma no Ollama, poderá gerar
respostas imediatamente usando o comando run
da interface de linha de comando do Ollama.
O Ollama também configura um serviço da Web para acessar o modelo, que pode ser testado
usando o comando curl
.
Para gerar uma resposta na linha de comando:
Em uma janela de terminal, digite o seguinte comando:
ollama run gemma2 "roses are red"
Para gerar uma resposta usando o serviço da Web local do Ollama:
Em uma janela de terminal, digite o seguinte comando:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
Modelos Gemma ajustados
O Ollama fornece um conjunto de variantes oficiais do modelo Gemma para uso imediato, que são quantizadas e salvas no formato GGUF. Você pode usar seus próprios modelos Gemma ajustados com o Ollama convertendo-os para o formato GGUF. O Ollama inclui algumas funções para converter modelos ajustados de um formato de arquivo de modelo para GGUF. Para mais informações sobre como converter o modelo ajustado para GGUF, consulte o README do Ollama.
Próximas etapas
Depois de executar o Gemma com o Ollama, você pode começar a experimentar e criar soluções com os recursos de IA generativa do Gemma. A interface de linha de comando do Ollama pode ser útil para criar soluções de script. A interface do serviço da Web local do Ollama pode ser útil para criar aplicativos experimentais e de uso de baixo volume.
- Tente integrar usando o serviço da Web do Ollama para criar um assistente de código pessoal executado localmente.
- Saiba como ajustar um modelo Gemma.
- Aprenda a executar o Gemma com o Ollama usando os serviços do Google Cloud Run.
- Saiba como executar o Gemma com o Google Cloud.