Gemma'yı Llama.cpp ile çalıştırma

llama.cpp, verimli yerel çıkarım için tasarlanmış popüler bir açık kaynak kitaplıktır.

Hızlı başlangıç

llama.cpp'nin önceden oluşturulmuş sürümünü yükleme

Örnek komut:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Başlamak ve modeli güzel bir arayüzde çalıştırmak için şu komutla bir sunucu başlatabilirsiniz:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Bu işlem, modelinize bir arayüzden (http://localhost:8080) veya OpenAI uç noktasına (http://localhost:8080/v1) erişerek ulaşmanızı sağlayan bir sunucu oluşturur.

Gemma ile llama.cpp'yı kullanma hakkında daha fazla bilgi ve talimat için resmi depoya bakın:

GitHub'da llama.cpp