Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Llama.cpp 运行 Gemma

llama.cpp 是一个热门的开源库，旨在实现高效的本地推理。

快速入门

安装预构建版本的 llama.cpp

示例命令：

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

如需开始并以简洁的界面运行模型，您可以使用以下命令启动服务器：

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

这会创建一个服务器，让您可以通过界面 (http://localhost:8080) 或访问 OpenAI 端点 (http://localhost:8080/v1) 来访问模型。

如需了解详情以及有关如何将 llama.cpp 与 Gemma 搭配使用的说明，请参阅官方代码库：

GitHub 上的 llama.cpp