使用 Llama.cpp 執行 Gemma

llama.cpp 是熱門的開放原始碼程式庫,專為高效能的本機推論設計。

快速入門

安裝 llama.cpp 的預先建構版本

範例指令:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

如要開始使用並在美觀的介面中執行模型,可以啟動伺服器:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

這會建立伺服器,讓您透過介面 (http://localhost:8080) 或存取 OpenAI 端點 (http://localhost:8080/v1) 來存取模型。

如要進一步瞭解如何搭配 Gemma 使用 llama.cpp,請參閱官方存放區:

GitHub 上的 llama.cpp