Gemma C++ 教學課程 (gemma.cpp)

gemma.cpp 是輕量的純 C++ 推論執行階段實作 Gemma 模型

如要進一步瞭解 Gemma,請參閱模型資訊卡。 模型權重 (包括 gemma.cpp 特定構件) 可透過 Kaggle

這項專案的適用對象

現代 LLM 推論引擎是精密的系統,通常可按照需求自訂 功能擴展到傳統類神經網路執行階段之外使用這項 透過在高層次的設計中融入研究與創新的機會 以及低階運算不過, 部署導向的 C++ 推論執行階段 實驗和以 Python 為主的機器學習研究架構 以及執行低階運算

gemma.cpp 提供了極簡風的 Gemma 2B 和 7B 模型 著重於簡易性和直接性,而不是一般性這是 靈感來自於垂直整合的 C++ 模型實作,例如 ggml, llama.cllama.rs

gemma.cpp 鎖定的是實驗和研究用途 探索 CPU 推論與推論演算法的設計空間 透過 Google Highway 使用的可攜式 SIMD 資源庫。我們希望能直接嵌入其他 使用最少依附元件,也可使用約 2K 的 LoC 核心輕鬆修改 (以及約 4K LoC 的支援公用程式)。

如為實際工作環境導向的邊緣部署,建議您採用標準部署方式 學習使用 JAX、Keras、PyTorch 等成熟 Python 架構的途徑 Transformer (所有模型變化版本) 此處)。

我們歡迎各位社群貢獻一己之力。這項專案 Google 開放原始碼社群規範

快速入門導覽課程

如要完成本快速入門導覽課程,您必須複製或下載 gemma.cpp.

系統需求

開始之前,請先安裝下列應用程式:

步驟 1:透過 Kaggle 取得模型權重和符記化工具

請造訪 gemma 模型頁面 Kaggle 並選取「Model Variants」

Gemma C++. On this tab, the「Variation」下拉式選單包含以下內容 。注意:bfloat16 權重選項的保真度較高,而 8 位元 切換浮點權重,加快推論速度。

20 億個用於訓練的 (it) 和預先訓練 (pt) 的模型:

模型名稱 說明
2b-it 20 億個參數指令調整的模型,bfloat16
2b-it-sfp 20 億參數指令調整模型、8 位元切換浮點
2b-pt 20 億個預先訓練模型,bfloat16
2b-pt-sfp 20 億個參數預先訓練模型、8 位元切換浮點

70 億個指令調整 (it) 和預先訓練 (pt) 的模型:

模型名稱 說明
7b-it 70 億個參數指令調整的模型,bfloat16
7b-it-sfp 70 億參數指令調整模型、8 位元切換浮點
7b-pt 70 億參數的預先訓練模型,bfloat16
7b-pt-sfp 70 億個參數預先訓練模型、8 位元切換浮點

注意建議從 2b-it-sfp 開始完成設定。

步驟 2:擷取檔案

填妥同意聲明表單後,下載程序應繼續擷取 tar 封存檔 archive.tar.gz。從 archive.tar.gz 擷取檔案 (這可以 可能需要幾分鐘的時間):

tar -xf archive.tar.gz

這應該會產生一個檔案,內含 2b-it-sfp.sbs 和 符記化工具檔案 (tokenizer.spm)。你可以將這些檔案移至 便利的目錄位置 (例如這個存放區中的 build/ 目錄)。

步驟 3:建立

建構系統使用 CMake。建立 Gemma 推論 執行階段,請建立建構目錄,並使用 cmake 產生建構檔案 從頂層專案目錄:

(cd build && cmake ..)

然後執行 make,建構 ./gemma 執行檔:

cd build make -j [number of parallel threads to use] gemma

例如:make -j 8 gemma。如果這次成功,您目前應該 build/ 目錄中的 gemma 執行檔。

步驟 4:執行

您現在可以從 build/ 目錄中執行 gemma

gemma 具有下列必要引數:

引數 說明 範例值
--model 模型類型。 2b-it2b-pt7b-it7b-pt、... (請參閱上述說明)
--compressed_weights 經過壓縮的權重檔案。 2b-it-sfp.sbs、... (請參閱上方)
--tokenizer 符記化工具檔案名稱。 tokenizer.spm

gemma 的叫用方式為:

./gemma \
--tokenizer [tokenizer file] \
--compressed_weights [compressed weights file] \
--model [2b-it or 2b-pt or 7b-it or 7b-pt]

下列設定的叫用範例:

  • 經過壓縮的權重檔案 2b-it-sfp.sbs (20 億條指令調整的模型,8 位元) )。
  • Tokenizer 檔案 tokenizer.spm
./gemma \
--tokenizer tokenizer.spm \
--compressed_weights 2b-it-sfp.sbs \
--model 2b-it

用量

gemma 具有不同的使用模式,由詳細程度標記控管。

所有使用模式皆為互動式,在下列情況中觸發文字: 輸入換行符號。

詳細程度 使用模式 詳細資料
--verbosity 0 最低 僅顯示生成輸出內容。適合做為 CLI 工具。
--verbosity 1 預設 面向使用者的標準終端機 UI。
--verbosity 2 明細 顯示其他開發人員和偵錯資訊。

互動式終端機應用程式

詳細程度預設為 1,開啟以終端機為基礎的互動模式 使用必要引數叫用 gemma 時的介面:

$ ./gemma [...]
  __ _  ___ _ __ ___  _ __ ___   __ _   ___ _ __  _ __
 / _` |/ _ \ '_ ` _ \| '_ ` _ \ / _` | / __| '_ \| '_ \
| (_| |  __/ | | | | | | | | | | (_| || (__| |_) | |_) |
 \__, |\___|_| |_| |_|_| |_| |_|\__,_(_)___| .__/| .__/
  __/ |                                    | |   | |
 |___/                                     |_|   |_|

tokenizer                     : tokenizer.spm
compressed_weights            : 2b-it-sfp.sbs
model                         : 2b-it
weights                       : [no path specified]
max_tokens                    : 3072
max_generated_tokens          : 2048

*Usage*
  Enter an instruction and press enter (%Q quits).

*Examples*

-   Write an email to grandma thanking her for the cookies.
-   What are some historical attractions to visit around Massachusetts?
-   Compute the nth fibonacci number in javascript.
-   Write a standup comedy bit about WebGPU programming.

> What are some outdoorsy places to visit around Boston?

[ Reading prompt ] .....................

**Boston Harbor and Islands:**

*   **Boston Harbor Islands National and State Park:** Explore pristine beaches, wildlife, and maritime history.
*   **Charles River Esplanade:** Enjoy scenic views of the harbor and city skyline.
*   **Boston Harbor Cruise Company:** Take a relaxing harbor cruise and admire the city from a different perspective.
*   **Seaport Village:** Visit a charming waterfront area with shops, restaurants, and a seaport museum.

**Forest and Nature:**

*   **Forest Park:** Hike through a scenic forest with diverse wildlife.
*   **Quabbin Reservoir:** Enjoy boating, fishing, and hiking in a scenic setting.
*   **Mount Forest:** Explore a mountain with breathtaking views of the city and surrounding landscape.

...

做為指令列工具的使用

如要將 gemma 執行檔當做指令列工具使用,建議您 使用完整指定引數為 gemma.cpp 建立別名:

alias gemma2b="~/gemma.cpp/build/gemma -- --tokenizer ~/gemma.cpp/build/tokenizer.spm --compressed_weights ~/gemma.cpp/build/2b-it-sfp.sbs --model 2b-it --verbosity 0"

以您自己的模型路徑和符記化工具路徑取代上述路徑 下載。

以下示範如何透過遭截斷的輸入內容 (使用gemma gemma2b 別名,如上文定義:

cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b

注意:gemma.cpp 的 CLI 用量目前處於實驗階段,應該接受背景資訊長度

上述指令的輸出內容應如下所示:

$ cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b
[ Reading prompt ] ......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
The code defines two C++ structs, `ConfigGemma7B` and `ConfigGemma2B`, which are used for configuring a deep learning model.

**ConfigGemma7B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's set to 7168.
*   `vocab_size`: Stores the size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 28.
*   `dim_model`: Dimension of the model's internal representation. It's set to 3072.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 3072 / 2.

**ConfigGemma2B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's also set to 7168.
*   `vocab_size`: Size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 18.
*   `dim_model`: Dimension of the model's internal representation. It's set to 2048.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 2048 / 2.

These structs are used to configure a deep learning model with specific parameters for either Gemma7B or Gemma2B architecture.