Executar o Gemma com o Llama.cpp

llama.cpp é uma biblioteca de código aberto conhecida projetada para inferência local eficiente.

Início rápido

Instalar versão pré-criada do llama.cpp

Exemplo de comando:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Para começar e executar o modelo em uma interface agradável, inicie um servidor com:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Isso cria um servidor que permite acessar o modelo de uma interface (http://localhost:8080) ou acessando o endpoint da OpenAI (http://localhost:8080/v1).

Para mais informações e instruções sobre como usar llama.cpp com o Gemma, consulte o repositório oficial:

llama.cpp no GitHub