如果没有合适的硬件,运行 Gemma 等生成式人工智能 (AI) 模型可能很难。llama.cpp 和 Ollama 等开源框架可通过设置预配置的运行时环境来简化此过程,让您能够使用更少的计算资源运行 Gemma 版本。事实上,使用 llama.cpp 和 Ollama,您可以在没有图形处理器 (GPU) 的笔记本电脑或其他小型计算设备上运行 Gemma 版本。
为了使用更少的计算资源运行 Gemma 模型,llama.cpp 和 Ollama 框架使用 Georgi Gerganov 统一格式 (GGUF) 模型文件格式的量化模型版本。这些量化模型经过修改,可使用较小且不太精确的数据处理请求。在量化模型中使用精度较低的数据来处理请求通常会降低模型输出的质量,但好处是可以降低计算资源费用。
本指南介绍了如何设置和使用 Ollama 运行 Gemma 以生成文本回答。
设置
本部分介绍了如何设置 Ollama 并准备 Gemma 模型实例以响应请求,包括在 Ollama 中请求模型访问权限、安装软件和配置 Gemma 模型。
获取 Gemma 模型的访问权限
在使用 Gemma 模型之前,请确保您已通过 Kaggle 申请访问权限,并已查看 Gemma 使用条款。
安装 Ollama
您必须先在计算设备上下载并安装 Ollama 软件,然后才能将 Gemma 与 Ollama 搭配使用。
如需下载并安装 Ollama,请执行以下操作:
- 前往下载页面: https://ollama.com/download
- 选择您的操作系统,点击下载按钮或按照下载页面上的说明操作。
- 运行安装程序以安装应用。
- Windows:运行安装程序 *.exe 文件,然后按照说明操作。
- Mac:解压缩 ZIP 文件包,然后将 Ollama 应用文件夹移至 Applications 目录。
- Linux:按照 bash 脚本安装程序中的说明操作。
打开终端窗口并输入以下命令,确认 Ollama 已安装:
ollama --version
您应该会看到类似于 ollama version is #.#.##
的响应。如果您没有收到此结果,请确保已将 Ollama 可执行文件添加到操作系统路径。
在 Ollama 中配置 Gemma
默认情况下,Ollama 安装软件包不包含任何模型。您可以使用 pull
命令下载模型。
如需在 Ollama 中配置 Gemma,请执行以下操作:
打开一个终端窗口,然后输入以下命令,下载并配置默认的 Gemma 3 变体:
ollama pull gemma3
下载完成后,您可以使用以下命令确认模型是否可用:
ollama list
默认情况下,Ollama 会下载 40 亿个参数、4 位量化 (Q4_0) Gemma 模型变体。您还可以通过指定参数大小来下载和使用 Gemma 模型的其他尺寸。
模型以 <model_name>:<tag>
指定。对于 Gemma 3,有四种大小:10 亿、40 亿、120 亿和 270 亿个参数:
- 1B 参数
gemma3:1b
- 4 字节参数
gemma3:4b
- 12B 参数
gemma3:12b
- 27B 参数
gemma3:27b
您可以在 Ollama 网站上找到可用的标记,包括 Gemma 3、Gemma 2 和 Gemma。
生成回答
在 Ollama 中安装 Gemma 模型后,您可以立即使用 Ollama 的命令行界面 run
命令生成回答。Ollama 还会配置一个 Web 服务来访问模型,您可以使用 curl
命令对其进行测试。
如需从命令行生成响应,请执行以下操作:
在终端窗口中,输入以下命令:
ollama run gemma3 "roses are red"
添加图片路径以使用视觉输入:
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
如需使用 Ollama 本地 Web 服务生成响应,请执行以下操作:
在终端窗口中,输入以下命令:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
添加 base64 编码的图片列表以使用视觉输入:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
经过调参的 Gemma 模型
Ollama 提供了一组可立即使用的官方 Gemma 模型变体,这些变体已量化并以 GGUF 格式保存。您可以将自己经过微调的 Gemma 模型转换为 GGUF 格式,以便在 Ollama 中使用。Ollama 包含一些用于将经过调优的模型从 Modelfile 格式转换为 GGUF 的函数。如需详细了解如何将经过调整的模型转换为 GGUF,请参阅 Ollama 自述文件。
后续步骤
将 Gemma 与 Ollama 搭配使用后,您就可以开始使用 Gemma 的生成式 AI 功能进行实验并构建解决方案了。Ollama 的命令行界面对于构建脚本解决方案非常有用。Ollama 本地 Web 服务接口对于构建实验性应用和使用量较低的应用非常有用。
- 尝试使用 Ollama Web 服务进行集成,以创建在本地运行的个人代码助理。
- 了解如何微调 Gemma 模型。
- 了解如何通过 Google Cloud Run 服务搭配使用 Gemma 和 Ollama。
- 了解如何使用 Google Cloud 运行 Gemma。