Gemma 4 wurde veröffentlicht und unterstützt Text-, Audio- und Bildeingaben sowie ein langes Kontextfenster mit bis zu 256.000 Tokens. Weitere Informationen

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma mit Llama.cpp ausführen

llama.cpp ist eine beliebte Open-Source-Bibliothek, die für effiziente lokale Inferenz entwickelt wurde.

Schnelleinstieg

Vorab erstellte Version von llama.cpp installieren

Beispielbefehl:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Um das Modell in einer ansprechenden Benutzeroberfläche auszuführen, können Sie einen Server mit folgendem Befehl starten:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Dadurch wird ein Server erstellt, über den Sie entweder über eine Schnittstelle (http://localhost:8080) oder über den OpenAI-Endpunkt (http://localhost:8080/v1) auf Ihr Modell zugreifen können.

Weitere Informationen und eine Anleitung zur Verwendung von llama.cpp mit Gemma finden Sie im offiziellen Repository:

llama.cpp auf GitHub