Esegui Gemma con Llama.cpp

llama.cpp è una libreria open source diffusa progettata per un'inferenza locale efficiente.

Avvio rapido

Installa la versione precompilata di llama.cpp

Comando di esempio:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Per iniziare ed eseguire il modello in un'interfaccia semplice, puoi avviare un server con:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Viene creato un server che ti consente di accedere al modello da un'interfaccia (http://localhost:8080) o accedendo all'endpoint OpenAI (http://localhost:8080/v1).

Per ulteriori informazioni e istruzioni su come utilizzare llama.cpp con Gemma, consulta il repository ufficiale:

llama.cpp su GitHub