Se lanzó Gemma 4 con entrada de texto, audio y video, y una ventana de contexto de hasta 256,000 tokens. Más información

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ejecuta Gemma con Llama.cpp

llama.cpp es una biblioteca popular de código abierto diseñada para una inferencia local eficiente.

Inicio rápido

Instala la versión compilada previamente de llama.cpp

Comando de ejemplo:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Para comenzar y ejecutar el modelo en una interfaz agradable, puedes iniciar un servidor con lo siguiente:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Esto crea un servidor que te permite acceder a tu modelo desde una interfaz (http://localhost:8080) o accediendo al extremo de OpenAI (http://localhost:8080/v1).

Para obtener más información y las instrucciones para usar llama.cpp con Gemma, consulta el repositorio oficial:

llama.cpp en GitHub