जनरेशन और ट्यूनिंग के उदाहरणों के बारे में जानने के लिए, Gemma Cookbook का डेटा देखें! ज़्यादा जानें

इस पेज का अनुवाद Cloud Translation API से किया गया है.

Ollama के साथ Gemma चलाना

सही हार्डवेयर के बिना, जेमा जैसे जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल चलाना मुश्किल हो सकता है. llama.cpp और Ollama जैसे ओपन सोर्स फ़्रेमवर्क, पहले से कॉन्फ़िगर किए गए रनटाइम एनवायरमेंट को सेट अप करके, यह काम आसान बनाते हैं. इससे, कम कंप्यूट संसाधनों के साथ Gemma के वर्शन चलाए जा सकते हैं. असल में, llama.cpp और Ollama का इस्तेमाल करके, लैपटॉप या किसी छोटे कंप्यूटिंग डिवाइस पर, ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) के बिना Gemma के वर्शन चलाए जा सकते हैं.

कम कंप्यूट संसाधनों के साथ Gemma मॉडल चलाने के लिए, llama.cpp और Ollama फ़्रेमवर्क, Georgi Gerganov Unified Format (GGUF) मॉडल फ़ाइल फ़ॉर्मैट में मॉडल के क्विंटाइज़ किए गए वर्शन का इस्तेमाल करते हैं. इन क्वांटाइज़ किए गए मॉडल में बदलाव किया जाता है, ताकि छोटे और कम सटीक डेटा का इस्तेमाल करके अनुरोधों को प्रोसेस किया जा सके. अनुरोधों को प्रोसेस करने के लिए, कम सटीक डेटा का इस्तेमाल करने पर, आम तौर पर मॉडल के आउटपुट की क्वालिटी कम हो जाती है. हालांकि, इससे कंप्यूट रिसॉर्स की लागत भी कम हो जाती है.

इस गाइड में, Gemma को चलाने के लिए Ollama को सेट अप करने और इस्तेमाल करने का तरीका बताया गया है, ताकि टेक्स्ट के जवाब जनरेट किए जा सकें.

सेटअप

इस सेक्शन में, Ollama को सेट अप करने और अनुरोधों का जवाब देने के लिए Gemma मॉडल इंस्टेंस को तैयार करने का तरीका बताया गया है. इसमें, मॉडल के ऐक्सेस का अनुरोध करना, सॉफ़्टवेयर इंस्टॉल करना, और Ollama में Gemma मॉडल को कॉन्फ़िगर करना शामिल है.

Gemma मॉडल का ऐक्सेस पाना

Gemma मॉडल के साथ काम करने से पहले, पक्का करें कि आपने Kaggle के ज़रिए ऐक्सेस का अनुरोध किया हो और Gemma के इस्तेमाल की शर्तों को पढ़ लिया हो.

Ollama इंस्टॉल करना

Ollama के साथ Gemma का इस्तेमाल करने से पहले, आपको अपने कंप्यूटिंग डिवाइस पर Ollama सॉफ़्टवेयर डाउनलोड और इंस्टॉल करना होगा.

Ollama को डाउनलोड और इंस्टॉल करने के लिए:

डाउनलोड पेज पर जाएं: https://ollama.com/download
अपना ऑपरेटिंग सिस्टम चुनें और डाउनलोड करें बटन पर क्लिक करें या डाउनलोड पेज पर दिए गए निर्देशों का पालन करें.
इंस्टॉलर चलाकर ऐप्लिकेशन इंस्टॉल करें.
- Windows: इंस्टॉलर *.exe फ़ाइल चलाएं और निर्देशों का पालन करें.
- Mac: ज़िप पैकेज को अनपैक करें और Ollama ऐप्लिकेशन फ़ोल्डर को अपनी ऐप्लिकेशन डायरेक्ट्री में ले जाएं.
- Linux: bash स्क्रिप्ट इंस्टॉलर में दिए गए निर्देशों का पालन करें.
टर्मिनल विंडो खोलकर और यह कमांड डालकर, पुष्टि करें कि Ollama इंस्टॉल है:
```
ollama --version
```

आपको कुछ ऐसा जवाब दिखेगा: ollama version is #.#.##. अगर आपको यह नतीजा नहीं मिलता है, तो पक्का करें कि Ollama का एक्सीक्यूटेबल आपके ऑपरेटिंग सिस्टम के पाथ में जोड़ा गया हो.

Ollama में Gemma को कॉन्फ़िगर करना

Ollama के इंस्टॉलेशन पैकेज में, डिफ़ॉल्ट रूप से कोई मॉडल शामिल नहीं होता. pull कमांड का इस्तेमाल करके, मॉडल डाउनलोड किया जाता है.

Ollama में Gemma को कॉन्फ़िगर करने के लिए:

टर्मिनल विंडो खोलकर और यह निर्देश डालकर, डिफ़ॉल्ट Gemma 3 वैरिएंट को डाउनलोड और कॉन्फ़िगर करें:
```
ollama pull gemma3
```
डाउनलोड पूरा होने के बाद, इस कमांड का इस्तेमाल करके पुष्टि की जा सकती है कि मॉडल उपलब्ध है या नहीं:
```
ollama list
```

Ollama, डिफ़ॉल्ट रूप से 4 अरब पैरामीटर वाला, 4-बिट क्वांटिज़्ड (Q4_0) Gemma मॉडल वैरिएंट डाउनलोड करता है. पैरामीटर का साइज़ तय करके, Gemma मॉडल के दूसरे साइज़ भी डाउनलोड किए जा सकते हैं और उनका इस्तेमाल किया जा सकता है.

मॉडल को <model_name>:<tag> के तौर पर दिखाया जाता है. Gemma 3 के लिए, चार साइज़: 1B, 4B, 12B, और 27B पैरामीटर:

1B पैरामीटर gemma3:1b
4B पैरामीटर gemma3:4b
12B पैरामीटर gemma3:12b
27B पैरामीटर gemma3:27b

Ollama की वेबसाइट पर उपलब्ध टैग देखे जा सकते हैं. इनमें Gemma 3, Gemma 2, और Gemma शामिल हैं.

जवाब जनरेट करना

Ollama में Gemma मॉडल इंस्टॉल करने के बाद, Ollama के कमांड-लाइन इंटरफ़ेस run कमांड का इस्तेमाल करके, तुरंत जवाब जनरेट किए जा सकते हैं. Ollama, मॉडल को ऐक्सेस करने के लिए एक वेब सेवा भी कॉन्फ़िगर करता है. इसकी जांच करने के लिए, curl कमांड का इस्तेमाल करें.

कमांड लाइन से जवाब जनरेट करने के लिए:

टर्मिनल विंडो में, यह कमांड डालें:
```
ollama run gemma3 "roses are red"
```
विज़ुअल इनपुट का इस्तेमाल करने के लिए, अपनी इमेज का पाथ शामिल करें:
```
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
```

Ollama की लोकल वेब सेवा का इस्तेमाल करके जवाब जनरेट करने के लिए:

टर्मिनल विंडो में, यह कमांड डालें:

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"roses are red"\
}'

विज़ुअल इनपुट का इस्तेमाल करने के लिए, Base64 कोड में बदली गई इमेज की सूची शामिल करें:
```
curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"caption this image",\
  "images":[...]\
}'
```

बेहतर बनाए गए Gemma मॉडल

Ollama, तुरंत इस्तेमाल के लिए Gemma मॉडल के आधिकारिक वैरिएंट का एक सेट उपलब्ध कराता है. इन वैरिएंट को GGUF फ़ॉर्मैट में सेव किया जाता है. अपने ट्यून किए गए Gemma मॉडल को GGUF फ़ॉर्मैट में बदलकर, Ollama के साथ इस्तेमाल किया जा सकता है. Ollama में कुछ फ़ंक्शन शामिल हैं, जिनकी मदद से ट्यून किए गए मॉडल को मॉडल फ़ाइल फ़ॉर्मैट से GGUF में बदला जा सकता है. अपने ट्यून किए गए मॉडल को GGUF में बदलने के तरीके के बारे में ज़्यादा जानने के लिए, Ollama का README देखें.

अगले चरण

Ollama के साथ Gemma को चलाने के बाद, Gemma की जनरेटिव एआई की सुविधाओं की मदद से, एक्सपेरिमेंट करना और समाधान बनाना शुरू किया जा सकता है. Ollama के लिए कमांड लाइन इंटरफ़ेस, स्क्रिप्टिंग सलूशन बनाने के लिए काम का हो सकता है. Ollama लोकल वेब सेवा इंटरफ़ेस, प्रयोग के तौर पर बनाए जाने वाले और कम इस्तेमाल होने वाले ऐप्लिकेशन बनाने के लिए मददगार हो सकता है.

स्थानीय तौर पर काम करने वाली निजी कोड असिस्टेंट बनाने के लिए, Ollama वेब सेवा का इस्तेमाल करके इंटिग्रेट करने की कोशिश करें.
Gemma मॉडल को बेहतर बनाने का तरीका जानें.
Google Cloud Run की सेवाओं की मदद से, Ollama के साथ Gemma को चलाने का तरीका जानें.
Google Cloud के साथ Gemma को चलाने के तरीके के बारे में जानें.