Gemma C++ ट्यूटोरियल (gemma.cpp)

gemma.cpp, Gemma मॉडल का लाइटवेट, पूरी तरह से C++ वाला, अनुमान लगाने वाला रनटाइम लागू करने वाला टूल है.

Gemma के बारे में ज़्यादा जानकारी के लिए, मॉडल कार्ड देखें. मॉडल के वेट, जिनमें gemma.cpp के खास आर्टफ़ैक्ट शामिल हैं, Kaggle पर उपलब्ध हैं.

यह प्रोजेक्ट किसके लिए है?

मॉडर्न एलएलएम इंफ़्यूज़न इंजन, बेहतर सिस्टम होते हैं. इनमें अक्सर, नेटवर्क के सामान्य रनटाइम से ज़्यादा बेहतर सुविधाएं होती हैं. इससे, हाई लेवल एल्गोरिदम और लो-लेवल कंप्यूटेशन के को-डिज़ाइन के ज़रिए, रिसर्च और इनोवेशन के अवसर मिलते हैं. हालांकि, डिप्लॉयमेंट पर आधारित C++ इंफ़रेंस रनटाइम और Python पर आधारित मशीन लर्निंग रिसर्च फ़्रेमवर्क के बीच अंतर है. डिप्लॉयमेंट पर आधारित C++ इंफ़रेंस रनटाइम, एक्सपेरिमेंट के लिए डिज़ाइन नहीं किए गए हैं. वहीं, Python पर आधारित मशीन लर्निंग रिसर्च फ़्रेमवर्क, कंपाइलेशन की मदद से लो-लेवल कंप्यूटेशन को अलग रखते हैं.

gemma.cpp, Gemma 2B और 7B मॉडल को कम से कम लागू करने की सुविधा देता है. इसमें, सामान्य तौर पर काम करने के बजाय, आसानी और सीधे तौर पर काम करने पर फ़ोकस किया जाता है. इसे, वर्टिकल तौर पर इंटिग्रेट किए गए C++ मॉडल के लागू होने से प्रेरणा मिली है. जैसे, ggml, llama.c, और llama.rs.

gemma.cpp, प्रयोग और रिसर्च के इस्तेमाल के उदाहरणों को टारगेट करता है. खास तौर पर, Google Highway लाइब्रेरी के ज़रिए पोर्टेबल SIMD का इस्तेमाल करके, सीपीयू इंफ़रेंस और इंफ़रेंस एल्गोरिदम के डिज़ाइन स्पेस को एक्सप्लोर करना. इसका मकसद, कम से कम डिपेंडेंसी वाले अन्य प्रोजेक्ट में आसानी से एम्बेड करना है. साथ ही, इसे ~2K लाइनों के कोर लागू करने के साथ-साथ, सहायक सुविधाओं के ~4K लाइनों के साथ आसानी से बदला जा सकता है.

प्रोडक्शन के मकसद से एज डिप्लॉयमेंट के लिए, हमारा सुझाव है कि आप JAX, Keras, PyTorch, और Transformers जैसे बेहतर Python फ़्रेमवर्क का इस्तेमाल करके, डिप्लॉयमेंट के स्टैंडर्ड पाथवे का इस्तेमाल करें (सभी मॉडल के वैरिएशन यहां).

कम्यूनिटी में योगदान देने के लिए, छोटी-बड़ी कोई भी रकम स्वीकार की जाती है. यह प्रोजेक्ट, Google के ओपन सोर्स कम्यूनिटी दिशा-निर्देशों का पालन करता है.

क्विकस्टार्ट

इस क्विकस्टार्ट को पूरा करने के लिए, आपको gemma.cpp को क्लोन या डाउनलोड करना होगा.

सिस्टम की ज़रूरतें

शुरू करने से पहले, आपके पास ये इंस्टॉल होने चाहिए:

पहला चरण: Kaggle से मॉडल के वेट और टॉकेनेटर पाना

Kaggle पर मौजूद जेमा मॉडल पेज पर जाएं और 'मॉडल के वैरिएशन

Gemma C++. On this tab, theVariation` ड्रॉप-डाउन में ये विकल्प शामिल हैं. ध्यान दें कि bfloat16 वेट के विकल्प ज़्यादा सटीक होते हैं, जबकि 8-बिट वाले स्विच किए गए फ़्लोटिंग पॉइंट वेट, तेज़ अनुमान लगाने में मदद करते हैं.

2B निर्देश-ट्यून किए गए (it) और पहले से ट्रेन किए गए (pt) मॉडल:

मॉडल का नाम ब्यौरा
2b-it 200 करोड़ पैरामीटर वाला निर्देश-ट्यून किया गया मॉडल, bfloat16
2b-it-sfp 20 करोड़ पैरामीटर वाला निर्देश-ट्यून किया गया मॉडल, 8-बिट स्विच किया गया फ़्लोटिंग पॉइंट
2b-pt 2 अरब पैरामीटर वाला पहले से ट्रेन किया गया मॉडल, bfloat16
2b-pt-sfp 20 करोड़ पैरामीटर वाला पहले से ट्रेन किया गया मॉडल, 8-बिट स्विच किया गया फ़्लोटिंग पॉइंट

7B निर्देश-ट्यून किए गए (it) और पहले से ट्रेन किए गए (pt) मॉडल:

मॉडल का नाम ब्यौरा
7b-it सात अरब पैरामीटर वाला निर्देश-ट्यून किया गया मॉडल, bfloat16
7b-it-sfp 70 करोड़ पैरामीटर वाला निर्देश-ट्यून किया गया मॉडल, 8-बिट स्विच किया गया फ़्लोटिंग पॉइंट
7b-pt सात अरब पैरामीटर वाला पहले से ट्रेन किया गया मॉडल, bfloat16
7b-pt-sfp सात अरब पैरामीटर वाला पहले से ट्रेन किया गया मॉडल, 8-बिट स्विच किया गया फ़्लोटिंग पॉइंट

ध्यान दें: हमारा सुझाव है कि आप 2b-it-sfp से शुरू करें, ताकि आपका कैंपेन जल्द से जल्द शुरू हो सके.

दूसरा चरण: फ़ाइलें निकालना

सहमति फ़ॉर्म भरने के बाद, डाउनलोड की प्रोसेस शुरू हो जाएगी. इसके बाद, टार आर्काइव फ़ाइल archive.tar.gz को वापस पाया जा सकता है. archive.tar.gz से फ़ाइलें निकालें (इसमें कुछ मिनट लग सकते हैं):

tar -xf archive.tar.gz

इससे एक फ़ाइल बननी चाहिए, जिसमें 2b-it-sfp.sbs जैसे मॉडल वेट और टॉकेनेटर फ़ाइल (tokenizer.spm) शामिल होनी चाहिए. आपके पास इन फ़ाइलों को किसी सुविधाजनक डायरेक्ट्री में ले जाने का विकल्प है. जैसे, इस repo में मौजूद build/ डायरेक्ट्री.

तीसरा चरण: बनाना

बिल्ड सिस्टम, CMake का इस्तेमाल करता है. gemma इंफ़रेंस रनटाइम बनाने के लिए, एक बिल्ड डायरेक्ट्री बनाएं और टॉप-लेवल प्रोजेक्ट डायरेक्ट्री से cmake का इस्तेमाल करके बिल्ड फ़ाइलें जनरेट करें:

(cd build && cmake ..)

इसके बाद, ./gemma को एक्सीक्यूटेबल बनाने के लिए make चलाएं:

cd build make -j [number of parallel threads to use] gemma

उदाहरण के लिए, make -j 8 gemma. अगर यह प्रोसेस पूरी हो जाती है, तो अब आपके पास build/ डायरेक्ट्री में gemma एक्ज़ीक्यूटेबल होना चाहिए.

चौथा चरण: चलाएं

अब build/ डायरेक्ट्री में जाकर, gemma को चलाया जा सकता है.

gemma के लिए ये आर्ग्युमेंट ज़रूरी हैं:

आर्ग्यूमेंट ब्यौरा उदाहरण के तौर पर दी गई वैल्यू
--model मॉडल का टाइप. 2b-it, 2b-pt, 7b-it, 7b-pt, ... (ऊपर देखें)
--compressed_weights कंप्रेस की गई वज़न की फ़ाइल. 2b-it-sfp.sbs, ... (ऊपर देखें)
--tokenizer tokenizer फ़ाइल का नाम. tokenizer.spm

gemma को इस तरह से शुरू किया जाता है:

./gemma \
--tokenizer [tokenizer file] \
--compressed_weights [compressed weights file] \
--model [2b-it or 2b-pt or 7b-it or 7b-pt]

नीचे दिए गए कॉन्फ़िगरेशन के लिए, कॉल करने का उदाहरण:

  • कंप्रेस की गई वेट फ़ाइल 2b-it-sfp.sbs (2B निर्देश-ट्यून किया गया मॉडल, 8-बिट वाला स्विच किया गया फ़्लोटिंग पॉइंट).
  • Tokenizer फ़ाइल tokenizer.spm.
./gemma \
--tokenizer tokenizer.spm \
--compressed_weights 2b-it-sfp.sbs \
--model 2b-it

इस्तेमाल

gemma के इस्तेमाल के अलग-अलग मोड हैं. इन्हें verbosity फ़्लैग से कंट्रोल किया जाता है.

इस्तेमाल के सभी मोड इंटरैक्टिव होते हैं. ये नए लाइन इनपुट पर टेक्स्ट जनरेशन को ट्रिगर करते हैं.

कितने शब्दों में जानकारी दी जाए इस्तेमाल का मोड विवरण
--verbosity 0 मिनिमल सिर्फ़ जनरेशन आउटपुट को प्रिंट करता है. सीएलआई टूल के तौर पर इस्तेमाल किया जा सकता है.
--verbosity 1 डिफ़ॉल्ट उपयोगकर्ता के लिए टर्मिनल का स्टैंडर्ड यूज़र इंटरफ़ेस (यूआई).
--verbosity 2 विस्तृत डेवलपर और डीबग से जुड़ी ज़्यादा जानकारी दिखाता है.

इंटरैक्टिव टर्मिनल ऐप्लिकेशन

डिफ़ॉल्ट रूप से, ज़्यादा जानकारी देने की सुविधा 1 पर सेट होती है. इससे, ज़रूरी आर्ग्युमेंट के साथ gemma को कॉल करने पर, टर्मिनल पर आधारित इंटरैक्टिव इंटरफ़ेस दिखता है:

$ ./gemma [...]
  __ _  ___ _ __ ___  _ __ ___   __ _   ___ _ __  _ __
 / _` |/ _ \ '_ ` _ \| '_ ` _ \ / _` | / __| '_ \| '_ \
| (_| |  __/ | | | | | | | | | | (_| || (__| |_) | |_) |
 \__, |\___|_| |_| |_|_| |_| |_|\__,_(_)___| .__/| .__/
  __/ |                                    | |   | |
 |___/                                     |_|   |_|

tokenizer                     : tokenizer.spm
compressed_weights            : 2b-it-sfp.sbs
model                         : 2b-it
weights                       : [no path specified]
max_tokens                    : 3072
max_generated_tokens          : 2048

*Usage*
  Enter an instruction and press enter (%Q quits).

*Examples*

-   Write an email to grandma thanking her for the cookies.
-   What are some historical attractions to visit around Massachusetts?
-   Compute the nth fibonacci number in javascript.
-   Write a standup comedy bit about WebGPU programming.

> What are some outdoorsy places to visit around Boston?

[ Reading prompt ] .....................

**Boston Harbor and Islands:**

*   **Boston Harbor Islands National and State Park:** Explore pristine beaches, wildlife, and maritime history.
*   **Charles River Esplanade:** Enjoy scenic views of the harbor and city skyline.
*   **Boston Harbor Cruise Company:** Take a relaxing harbor cruise and admire the city from a different perspective.
*   **Seaport Village:** Visit a charming waterfront area with shops, restaurants, and a seaport museum.

**Forest and Nature:**

*   **Forest Park:** Hike through a scenic forest with diverse wildlife.
*   **Quabbin Reservoir:** Enjoy boating, fishing, and hiking in a scenic setting.
*   **Mount Forest:** Explore a mountain with breathtaking views of the city and surrounding landscape.

...

कमांड-लाइन टूल के तौर पर इस्तेमाल करना

gemma एक्सीक्यूटेबल को कमांड लाइन टूल के तौर पर इस्तेमाल करने के लिए, यह काम का हो सकता है कि आप पूरी तरह से तय किए गए आर्ग्युमेंट के साथ, gemma.cpp के लिए कोई दूसरा नाम बनाएं:

alias gemma2b="~/gemma.cpp/build/gemma -- --tokenizer ~/gemma.cpp/build/tokenizer.spm --compressed_weights ~/gemma.cpp/build/2b-it-sfp.sbs --model 2b-it --verbosity 0"

ऊपर दिए गए पाथ को, डाउनलोड किए गए मॉडल और टॉकेनेटर पाथ के अपने पाथ से बदलें.

यहां gemma के लिए, काटे गए इनपुट के साथ प्रॉम्प्ट करने का उदाहरण दिया गया है. इसके लिए, ऊपर बताए गए gemma2b के उपनाम का इस्तेमाल किया गया है:

cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b

ध्यान दें: gemma.cpp के सीएलआई का इस्तेमाल एक्सपेरिमेंट के तौर पर किया जा रहा है. साथ ही, कॉन्टेक्स्ट की लंबाई से जुड़ी सीमाओं को ध्यान में रखना चाहिए.

ऊपर दिए गए कमांड का आउटपुट ऐसा दिखना चाहिए:

$ cat configs.h | tail -35 | tr '\n' ' ' | xargs -0 echo "What does this C++ code do: " | gemma2b
[ Reading prompt ] ......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
The code defines two C++ structs, `ConfigGemma7B` and `ConfigGemma2B`, which are used for configuring a deep learning model.

**ConfigGemma7B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's set to 7168.
*   `vocab_size`: Stores the size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 28.
*   `dim_model`: Dimension of the model's internal representation. It's set to 3072.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 3072 / 2.

**ConfigGemma2B**:

*   `seq_len`: Stores the length of the sequence to be processed. It's also set to 7168.
*   `vocab_size`: Size of the vocabulary, which is 256128.
*   `n_layers`: Number of layers in the deep learning model. It's set to 18.
*   `dim_model`: Dimension of the model's internal representation. It's set to 2048.
*   `dim_ffw_hidden`: Dimension of the feedforward and recurrent layers' hidden representations. It's set to 16 * 2048 / 2.

These structs are used to configure a deep learning model with specific parameters for either Gemma7B or Gemma2B architecture.