Gemma 4 发布,支持文本、音频和图片输入,上下文窗口最长可达 25.6 万个 token!
了解详情
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
发送反馈
使用 Llama.cpp 运行 Gemma
llama.cpp 是一个热门的开源库,旨在实现高效的本地推理。
快速入门
安装
预构建版本的 llama.cpp
示例命令:
# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."
# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"
如需开始并以简洁的界面运行模型,您可以使用以下命令启动服务器:
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
这会创建一个服务器,让您可以通过界面
(http://localhost:8080) 或访问 OpenAI 端点
(http://localhost:8080/v1) 来访问模型。
如需了解详情以及有关如何将 llama.cpp 与 Gemma 搭配使用的说明,请参阅官方代码库:
GitHub 上的 llama.cpp
发送反馈
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可 获得了许可,并且代码示例已根据 Apache 2.0 许可 获得了许可。有关详情,请参阅 Google 开发者网站政策 。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2026-04-17。
需要向我们提供更多信息?
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2026-04-17。"],[],[]]