Ejecuta Gemma con Llama.cpp

llama.cpp es una biblioteca popular de código abierto diseñada para una inferencia local eficiente.

Inicio rápido

Instala la versión compilada previamente de llama.cpp

Comando de ejemplo:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Para comenzar y ejecutar el modelo en una interfaz agradable, puedes iniciar un servidor con lo siguiente:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Esto crea un servidor que te permite acceder a tu modelo desde una interfaz (http://localhost:8080) o accediendo al extremo de OpenAI (http://localhost:8080/v1).

Para obtener más información y las instrucciones para usar llama.cpp con Gemma, consulta el repositorio oficial:

llama.cpp en GitHub