Gemma 3n 已发布，它支持音频输入，并针对日常设备进行了优化！了解详情

Gemma C++ 教程 (gemma.cpp)

gemma.cpp 是 Gemma 模型的轻量级纯 C++ 推理运行时实现。

如需详细了解 Gemma，请参阅模型卡片。模型权重（包括 gemma.cpp 专用工件）可在 Kaggle 上获取。

此项目的适用对象是谁？

现代 LLM 推理引擎是复杂的系统，通常具有超越传统神经网络运行时的定制功能。这为通过高级算法和低级计算的联合设计提供了研究和创新机会。不过，面向部署的 C++ 推理运行时（并非专为实验而设计）与以 Python 为中心的机器学习研究框架（通过编译提取低级计算）之间存在差距。

gemma.cpp 提供了 Gemma 2B 和 7B 模型的极简实现，侧重于简单性和直接性，而不是完全通用性。这受到了垂直集成的 C++ 模型实现（例如 ggml、llama.c 和 llama.rs）的启发。

gemma.cpp 适用于实验和研究用例，尤其是通过 Google Highway 库探索使用可移植 SIMD 的 CPU 推理和推理算法的设计空间。它旨在以最少的依赖项直接嵌入到其他项目中，并且通过小型核心实现（以及约 4K LoC 的支持实用程序）轻松修改。

对于面向生产环境的边缘部署，我们建议使用 JAX、Keras、PyTorch 和 Transformer 等成熟的 Python 框架（点击此处查看所有模型变体）的标准部署途径。

欢迎向社区投稿，无论大小。此项目遵循 Google 的开源社区准则。

快速入门

如需完成本快速入门，您必须克隆或下载 gemma.cpp。

系统要求

开始之前，您应已安装以下软件：

CMake
Clang C++ 编译器
tar，用于从 Kaggle 提取归档文件。

第 1 步：从 Kaggle 获取模型权重和分词器

访问 Kaggle 上的 Gemma 模型页面，然后选择“模型变体

Gemma C++ . On this tab, theVariation` 下拉菜单包含以下选项。请注意，bfloat16 权重选项具有更高的保真度，而 8 位切换浮点权重可实现更快的推理。

2B 指令调优 (it) 和预训练 (pt) 模型：

模型名称	说明
`2b-it`	20 亿参数的指令调优模型，bfloat16
`2b-it-sfp`	20 亿参数的指令调优模型，8 位切换浮点
`2b-pt`	20 亿参数的预训练模型，bfloat16
`2b-pt-sfp`	20 亿参数的预训练模型，8 位切换浮点

7B 指令调优 (it) 和预训练 (pt) 模型：

模型名称	说明
`7b-it`	70 亿参数的指令调优模型，bfloat16
`7b-it-sfp`	70 亿参数的指令调优模型，8 位切换浮点
`7b-pt`	70 亿参数的预训练模型，bfloat16
`7b-pt-sfp`	70 亿参数的预训练模型，8 位切换浮点

注意：我们建议从 2b-it-sfp 开始，以便快速上手使用。

第 2 步：解压缩文件

填写同意表单后，下载操作应会继续检索 tar 归档文件 archive.tar.gz。从 archive.tar.gz 中提取文件（此过程可能需要几分钟）：

tar -xf archive.tar.gz

这应该会生成一个包含模型权重（例如 2b-it-sfp.sbs）和分词器文件 (tokenizer.spm) 的文件。您可能需要将这些文件移至方便的位置（例如此代码库中的 build/ 目录）。

第 3 步：构建

构建系统使用 CMake。如需构建 Gemma 推理运行时，请创建一个 build 目录，并从顶级项目目录使用 cmake 生成 build 文件：

(cd build && cmake ..)

然后，运行 make 以构建 ./gemma 可执行文件：

cd build make -j [number of parallel threads to use] gemma

例如，make -j 8 gemma。如果成功，您现在应该在 build/ 目录中拥有 gemma 可执行文件。

第 4 步：运行

现在，您可以从 build/ 目录中运行 gemma。

gemma 具有以下必需实参：

参数	说明	示例值
`--model`	模型类型。	`2b-it`、`2b-pt`、`7b-it`、`7b-pt`...（见上文）
`--compressed_weights`	压缩的权重文件。	`2b-it-sfp.sbs`、...（见上文）
`--tokenizer`	分词器文件名。	`tokenizer.spm`

gemma 的调用方式如下：

./gemma \
--tokenizer [tokenizer file] \
--compressed_weights [compressed weights file] \
--model [2b-it or 2b-pt or 7b-it or 7b-pt]

以下配置的调用示例：

压缩的权重文件 2b-it-sfp.sbs（2B 指令调优型模型，8 位切换浮点数）。
词元化器文件 tokenizer.spm。

./gemma \
--tokenizer tokenizer.spm \
--compressed_weights 2b-it-sfp.sbs \
--model 2b-it

用法

gemma 具有不同的使用模式，由详细级别标志控制。

所有使用模式都是交互式的，会在输入换行符时触发文本生成。

详细程度	使用模式	详细信息
`--verbosity 0`	最小	仅输出生成输出。适合作为 CLI 工具。
`--verbosity 1`	默认	面向用户的标准终端界面。
`--verbosity 2`	详细	显示额外的开发者和调试信息。

交互式终端应用

默认情况下，详细级别设置为 1，当使用所需参数调用 gemma 时，系统会调出基于终端的交互式界面：

$ ./gemma [...]
  __ _  ___ _ __ ___  _ __ ___   __ _   ___ _ __  _ __
 / _` |/ _ \ '_ ` _ \| '_ ` _ \ / _` | / __| '_ \| '_ \
| (_| |  __/ | | | | | | | | | | (_| || (__| |_) | |_) |
 \__, |\___|_| |_| |_|_| |_| |_|\__,_(_)___| .__/| .__/
  __/ |                                    | |   | |
 |___/                                     |_|   |_|

tokenizer                     : tokenizer.spm
compressed_weights            : 2b-it-sfp.sbs
model                         : 2b-it
weights                       : [no path specified]
max_tokens                    : 3072
max_generated_tokens          : 2048

*Usage*
  Enter an instruction and press enter (%Q quits).

*Examples*

-   Write an email to grandma thanking her for the cookies.
-   What are some historical attractions to visit around Massachusetts?
-   Compute the nth fibonacci number in javascript.
-   Write a standup comedy bit about WebGPU programming.

> What are some outdoorsy places to visit around Boston?

[ Reading prompt ] .....................

**Boston Harbor and Islands:**

*   **Boston Harbor Islands National and State Park:** Explore pristine beaches, wildlife, and maritime history.
*   **Charles River Esplanade:** Enjoy scenic views of the harbor and city skyline.
*   **Boston Harbor Cruise Company:** Take a relaxing harbor cruise and admire the city from a different perspective.
*   **Seaport Village:** Visit a charming waterfront area with shops, restaurants, and a seaport museum.

**Forest and Nature:**

*   **Forest Park:** Hike through a scenic forest with diverse wildlife.
*   **Quabbin Reservoir:** Enjoy boating, fishing, and hiking in a scenic setting.
*   **Mount Forest:** Explore a mountain with breathtaking views of the city and surrounding landscape.

...

作为命令行工具使用

如需将 gemma 可执行文件用作命令行工具，不妨为 gemma.cpp 创建一个完全指定参数的别名：

alias gemma2b="~/gemma.cpp/build/gemma -- --tokenizer ~/gemma.cpp/build/tokenizer.spm --compressed_weights ~/gemma.cpp/build/2b-it-sfp.sbs --model 2b-it --verbosity 0"

将上述路径替换为您下载的模型和分词器的路径。

下面的示例展示了如何使用截断的输入提示 gemma（使用上述 gemma2b 别名）：

cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b

注意：gemma.cpp 的 CLI 用法处于实验阶段，应考虑上下文长度限制。

上述命令的输出应如下所示：

$ cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b
[ Reading prompt ] ......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
The code defines two C++ structs, `ConfigGemma7B` and `ConfigGemma2B`, which are used for configuring a deep learning model.

**ConfigGemma7B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's set to 7168.
*   `vocab_size`: Stores the size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 28.
*   `dim_model`: Dimension of the model's internal representation. It's set to 3072.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 3072 / 2.

**ConfigGemma2B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's also set to 7168.
*   `vocab_size`: Size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 18.
*   `dim_model`: Dimension of the model's internal representation. It's set to 2048.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 2048 / 2.

These structs are used to configure a deep learning model with specific parameters for either Gemma7B or Gemma2B architecture.