Exécuter Gemma avec Llama.cpp

llama.cpp est une bibliothèque Open Source courante conçue pour une inférence locale efficace.

Démarrage rapide

Installer la version précompilée de llama.cpp

Exemple de commande :

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Pour commencer et exécuter le modèle dans une interface agréable, vous pouvez démarrer un serveur avec :

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Cela crée un serveur qui vous permet d'accéder à votre modèle à partir d'une interface (http://localhost:8080) ou en accédant au point de terminaison OpenAI (http://localhost:8080/v1).

Pour obtenir plus d'informations et savoir comment utiliser llama.cpp avec Gemma, consultez le dépôt officiel :

llama.cpp sur GitHub