Gemma 4 推出，支援文字、音訊和圖片輸入，脈絡窗口最長可達 25.6 萬個詞元！瞭解詳情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Llama.cpp 執行 Gemma

llama.cpp 是熱門的開放原始碼程式庫，專為高效能的本機推論設計。

快速入門

安裝 llama.cpp 的預先建構版本

範例指令：

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

如要開始使用並在美觀的介面中執行模型，可以啟動伺服器：

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

這會建立伺服器，讓您透過介面 (http://localhost:8080) 或存取 OpenAI 端點 (http://localhost:8080/v1) 來存取模型。

如要進一步瞭解如何搭配 Gemma 使用 llama.cpp，請參閱官方存放區：

GitHub 上的 llama.cpp