Uruchamianie Gemma za pomocą Llama.cpp

llama.cpp to popularna biblioteka open source zaprojektowana z myślą o wydajnym wnioskowaniu lokalnym.

Szybki start

Zainstaluj gotową wersję llama.cpp

Przykładowe polecenie:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Aby rozpocząć i uruchomić model w przyjaznym interfejsie, możesz uruchomić serwer za pomocą tego polecenia:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Spowoduje to utworzenie serwera, który umożliwi Ci dostęp do modelu za pomocą interfejsu (http://localhost:8080) lub punktu końcowego OpenAI (http://localhost:8080/v1).

Więcej informacji i instrukcje korzystania z llama.cpp w przypadku Gemy znajdziesz w oficjalnym repozytorium:

llama.cpp na GitHubie