使用 Ollama 运行 Gemma

如果没有合适的硬件,运行 Gemma 等生成式人工智能 (AI) 模型可能会很困难。llama.cppOllama 等开源框架通过设置预配置的 运行时环境来简化此过程,让您能够以较少的计算资源运行 Gemma 版本。事实上,使用 llama.cpp 和 Ollama,您可以在没有图形处理单元 (GPU) 的笔记本电脑或其他小型计算设备上运行 Gemma 版本。

为了以较少的计算资源运行 Gemma 模型,llama.cpp 和 Ollama 框架使用 Georgi Gerganov 统一格式 (GGUF) 模型文件格式的量化模型。 这些量化模型经过修改,可使用较小且不太精确的数据处理请求。在量化模型中使用不太精确的数据来处理请求通常会降低模型输出的质量,但也会降低计算资源费用。

本指南介绍了如何设置和使用 Ollama 运行 Gemma 以生成文本响应。

设置

本部分介绍了如何设置 Ollama 并准备 Gemma 模型实例以响应请求,包括请求模型访问权限、安装软件以及在 Ollama 中配置 Gemma 模型。

安装 Ollama

您必须先在计算设备上下载并安装 Ollama 软件,然后才能将 Gemma 与 Ollama 搭配使用。

如需下载并安装 Ollama,请执行以下操作:

  1. 前往下载页面:https://ollama.com/download
  2. 选择您的操作系统,点击下载 按钮或按照下载页面上的说明操作。
  3. 运行安装程序以安装应用。
    • Windows: 运行安装程序 *.exe 文件,然后按照说明操作。
    • Mac: 解压缩 zip 软件包,然后将 Ollama 应用文件夹移至 Applications 目录。
    • Linux: 按照 bash 脚本安装程序中的说明操作。
  4. 打开终端窗口并输入以下命令,确认 Ollama 已安装:

    ollama --version

您应该会看到类似于 ollama version is #.#.## 的响应。如果您没有获得此结果,请确保将 Ollama 可执行文件添加到操作系统路径。

在 Ollama 中配置 Gemma

默认情况下,Ollama 安装软件包不包含任何模型。您可以使用 pull 命令下载模型。

如需在 Ollama 中配置 Gemma,请执行以下操作:

  1. 打开终端窗口并输入以下命令,下载并配置默认 Gemma 4 变体:

    ollama pull gemma4

  2. 下载完成后,您可以使用以下命令确认模型是否可用:

    ollama list

模型指定为 <model_name>:<tag>。对于 Gemma 4,有四种大小:E2B、E4B、26B 和 31B 参数:

  • E2B 参数 gemma4:e2b
  • E4B 参数 gemma4:e4b
  • 26B A4B 参数 gemma4:26b
  • 31B 参数 gemma4:31b

您可以在 Ollama 网站上找到可用的标记,包括 Gemma 4, Gemma 3n, Gemma 3, Gemma 2Gemma

生成回答

在 Ollama 中安装 Gemma 模型后,您可以立即使用 Ollama 的命令行界面 run 命令生成回答。Ollama 还会配置一个用于访问模型的 Web 服务,您可以使用 curl 命令对其进行测试。

如需通过命令行生成回答,请执行以下操作:

  • 在终端窗口中,输入以下命令:

    ollama run gemma4 "roses are red"
    
  • 添加图片路径以使用视觉输入:

    ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
    

如需使用 Ollama 本地 Web 服务生成回答,请执行以下操作:

  • 在终端窗口中,输入以下命令:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"roses are red"\
    }'
    
  • 添加 base64 编码的图片列表以使用视觉输入:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"caption this image",\
          "images":[...]\
    }'
    

经过调优的 Gemma 模型

Ollama 提供了一组官方 Gemma 模型变体,可供立即使用,这些变体经过量化并以 GGUF 格式保存。您可以通过将自己的经过调优的 Gemma 模型转换为 GGUF 格式,将其与 Ollama 搭配使用。Ollama 包含一些函数,可将经过调优的模型从 Modelfile 格式转换为 GGUF 格式。如需详细了解如何将经过调优的模型转换为 GGUF,请参阅 Ollama README

后续步骤

在 Ollama 中运行 Gemma 后,您可以开始尝试并使用 Gemma 的生成式 AI 功能构建解决方案。Ollama 的命令行界面对于构建脚本解决方案非常有用。Ollama 本地 Web 服务界面对于构建实验性应用和低用量应用非常有用。