Gemma mit Llama.cpp ausführen

llama.cpp ist eine beliebte Open-Source-Bibliothek, die für effiziente lokale Inferenz entwickelt wurde.

Schnelleinstieg

Vorab erstellte Version von llama.cpp installieren

Beispielbefehl:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Um das Modell in einer ansprechenden Benutzeroberfläche auszuführen, können Sie einen Server mit folgendem Befehl starten:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Dadurch wird ein Server erstellt, über den Sie entweder über eine Schnittstelle (http://localhost:8080) oder über den OpenAI-Endpunkt (http://localhost:8080/v1) auf Ihr Modell zugreifen können.

Weitere Informationen und eine Anleitung zur Verwendung von llama.cpp mit Gemma finden Sie im offiziellen Repository:

llama.cpp auf GitHub