使用 Llama.cpp 运行 Gemma

llama.cpp 是一个热门的开源库,旨在实现高效的本地推理。

快速入门

安装 预构建版本的 llama.cpp

示例命令:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

如需开始并以简洁的界面运行模型,您可以使用以下命令启动服务器:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

这会创建一个服务器,让您可以通过界面 (http://localhost:8080) 或访问 OpenAI 端点 (http://localhost:8080/v1) 来访问模型。

如需了解详情以及有关如何将 llama.cpp 与 Gemma 搭配使用的说明,请参阅官方代码库:

GitHub 上的 llama.cpp