सही हार्डवेयर के बिना, Gemma जैसे जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल को चलाना मुश्किल हो सकता है. llama.cpp और Ollama जैसे ओपन सोर्स फ़्रेमवर्क, पहले से कॉन्फ़िगर किया गया रनटाइम एनवायरमेंट सेट अप करके, इस प्रोसेस को आसान बनाते हैं. इससे, कम कंप्यूट रिसोर्स का इस्तेमाल करके Gemma के वर्शन चलाए जा सकते हैं. दरअसल, llama.cpp और Ollama का इस्तेमाल करके, लैपटॉप या अन्य छोटे कंप्यूटिंग डिवाइस पर Gemma के वर्शन चलाए जा सकते हैं. इसके लिए, ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) की ज़रूरत नहीं होती.
कम कंप्यूट संसाधनों के साथ Gemma मॉडल चलाने के लिए, llama.cpp और Ollama फ़्रेमवर्क, Georgi Gerganov Unified Format (GGUF) मॉडल फ़ाइल फ़ॉर्मैट में मॉडल के क्वांटाइज़्ड वर्शन का इस्तेमाल करते हैं. क्वांटाइज़ किए गए इन मॉडल में बदलाव किया जाता है, ताकि ये कम सटीक और छोटे डेटा का इस्तेमाल करके अनुरोधों को प्रोसेस कर सकें. क्वांटाइज़ किए गए मॉडल में कम सटीक डेटा का इस्तेमाल करने से, आम तौर पर मॉडल के आउटपुट की क्वालिटी कम हो जाती है. हालांकि, इससे कंप्यूट रिसोर्स की लागत भी कम हो जाती है.
इस गाइड में, टेक्स्ट जनरेट करने के लिए Gemma को चलाने के लिए, Ollama को सेट अप करने और उसका इस्तेमाल करने का तरीका बताया गया है.
सेटअप
इस सेक्शन में, Ollama को सेट अप करने और अनुरोधों का जवाब देने के लिए, Gemma मॉडल इंस्टेंस तैयार करने का तरीका बताया गया है. इसमें मॉडल ऐक्सेस करने का अनुरोध करना, सॉफ़्टवेयर इंस्टॉल करना, और Ollama में Gemma मॉडल को कॉन्फ़िगर करना शामिल है.
Ollama इंस्टॉल करना
Ollama के साथ Gemma का इस्तेमाल करने से पहले, आपको अपने कंप्यूटिंग डिवाइस पर Ollama सॉफ़्टवेयर डाउनलोड और इंस्टॉल करना होगा.
Ollama को डाउनलोड और इंस्टॉल करने के लिए:
- डाउनलोड पेज पर जाएं: https://ollama.com/download
- अपना ऑपरेटिंग सिस्टम चुनें. इसके बाद, डाउनलोड करें बटन पर क्लिक करें या डाउनलोड पेज पर दिए गए निर्देशों का पालन करें.
- इंस्टॉलर चलाकर ऐप्लिकेशन इंस्टॉल करें.
- Windows: इंस्टॉलर *.exe फ़ाइल चलाएं और निर्देशों का पालन करें.
- Mac: ज़िप पैकेज को अनपैक करें और Ollama ऐप्लिकेशन फ़ोल्डर को अपनी Applications डायरेक्ट्री में ले जाएं.
- Linux: bash स्क्रिप्ट इंस्टॉलर में दिए गए निर्देशों का पालन करें.
पुष्टि करें कि Ollama इंस्टॉल हो गया है. इसके लिए, टर्मिनल विंडो खोलें और यह निर्देश डालें:
ollama --version
आपको इस तरह का जवाब दिखेगा: ollama version is #.#.##. अगर आपको यह नतीजा नहीं मिलता है, तो पक्का करें कि Ollama एक्ज़ीक्यूटेबल को आपके ऑपरेटिंग सिस्टम के पाथ में जोड़ा गया हो.
Ollama में Gemma को कॉन्फ़िगर करना
Ollama के इंस्टॉलेशन पैकेज में डिफ़ॉल्ट रूप से कोई मॉडल शामिल नहीं होता. pull कमांड का इस्तेमाल करके, मॉडल डाउनलोड किया जा सकता है.
Ollama में Gemma को कॉन्फ़िगर करने के लिए:
टर्मिनल विंडो खोलकर और यह निर्देश डालकर, Gemma 4 के डिफ़ॉल्ट वैरिएंट को डाउनलोड और कॉन्फ़िगर करें:
ollama pull gemma4
डाउनलोड पूरा होने के बाद, यह पुष्टि की जा सकती है कि मॉडल उपलब्ध है या नहीं. इसके लिए, यह कमांड इस्तेमाल करें:
ollama list
मॉडल को <model_name>:<tag> के तौर पर तय किया जाता है. Gemma 4 के लिए, चार साइज़: E2B,
E4B, 26B, और 31B पैरामीटर:
- E2B पैरामीटर
gemma4:e2b - E4B पैरामीटर
gemma4:e4b - 26B A4B पैरामीटर
gemma4:26b - 31B पैरामीटर
gemma4:31b
Ollama की वेबसाइट पर उपलब्ध टैग देखे जा सकते हैं. इनमें Gemma 4, Gemma 3n, Gemma 3, Gemma 2, और Gemma शामिल हैं.
जवाब जनरेट करना
Ollama में Gemma मॉडल इंस्टॉल करने के बाद, Ollama के कमांड लाइन इंटरफ़ेस run कमांड का इस्तेमाल करके, तुरंत जवाब जनरेट किए जा सकते हैं. Ollama, मॉडल को ऐक्सेस करने के लिए एक वेब सेवा भी कॉन्फ़िगर करता है. इसे curl कमांड का इस्तेमाल करके टेस्ट किया जा सकता है.
कमांड लाइन से जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालकर:
ollama run gemma4 "roses are red"विज़ुअल इनपुट का इस्तेमाल करने के लिए, अपनी इमेज का पाथ शामिल करें:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama की लोकल वेब सर्विस का इस्तेमाल करके जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालकर:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'विज़ुअल इनपुट का इस्तेमाल करने के लिए, Base64 कोड में बदली गई इमेज की सूची शामिल करें:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
ट्यून किए गए Gemma मॉडल
Ollama, तुरंत इस्तेमाल करने के लिए Gemma मॉडल के आधिकारिक वैरिएंट का एक सेट उपलब्ध कराता है. ये वैरिएंट, GGUF फ़ॉर्मैट में क्वांटाइज़ किए जाते हैं और सेव किए जाते हैं. GGUF फ़ॉर्मैट में बदलकर, अपने ट्यून किए गए Gemma मॉडल को Ollama के साथ इस्तेमाल किया जा सकता है. Ollama में, ट्यून किए गए मॉडल को Modelfile फ़ॉर्मैट से GGUF में बदलने के लिए कुछ फ़ंक्शन शामिल हैं. अपने ट्यून किए गए मॉडल को GGUF में बदलने के तरीके के बारे में ज़्यादा जानने के लिए, Ollama का README देखें.
अगले चरण
Ollama के साथ Gemma को चलाने के बाद, Gemma के जनरेटिव एआई की सुविधाओं का इस्तेमाल करके एक्सपेरिमेंट किए जा सकते हैं और समाधान बनाए जा सकते हैं. Ollama के लिए कमांड लाइन इंटरफ़ेस, स्क्रिप्टिंग से जुड़े समाधान बनाने में मददगार हो सकता है. Ollama की लोकल वेब सेवा का इंटरफ़ेस, एक्सपेरिमेंटल और कम इस्तेमाल वाले ऐप्लिकेशन बनाने के लिए काम आ सकता है.
- Ollama की वेब सेवा का इस्तेमाल करके, इंटिग्रेट करने की कोशिश करें. इससे स्थानीय तौर पर चलने वाली निजी कोड असिस्टेंट बनाई जा सकती है.
- Gemma मॉडल को बेहतर बनाने का तरीका जानें.
- Google Cloud Run सेवाओं का इस्तेमाल करके, Ollama के साथ Gemma को चलाने का तरीका जानें.
- Google Cloud के साथ Gemma को चलाने के बारे में जानें.