Gemma 4 est disponible avec des entrées de texte, audio et image, et une fenêtre de contexte longue allant jusqu'à 256 000 jetons. En savoir plus

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Exécuter Gemma avec Llama.cpp

llama.cpp est une bibliothèque Open Source courante conçue pour une inférence locale efficace.

Démarrage rapide

Installer la version précompilée de llama.cpp

Exemple de commande :

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Pour commencer et exécuter le modèle dans une interface agréable, vous pouvez démarrer un serveur avec :

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Cela crée un serveur qui vous permet d'accéder à votre modèle à partir d'une interface (http://localhost:8080) ou en accédant au point de terminaison OpenAI (http://localhost:8080/v1).

Pour obtenir plus d'informations et savoir comment utiliser llama.cpp avec Gemma, consultez le dépôt officiel :

llama.cpp sur GitHub