सही हार्डवेयर के बिना, जेमा जैसे जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल चलाना मुश्किल हो सकता है. llama.cpp और Ollama जैसे ओपन सोर्स फ़्रेमवर्क, पहले से कॉन्फ़िगर किए गए रनटाइम एनवायरमेंट को सेट अप करके, यह काम आसान बनाते हैं. इससे, कम कंप्यूट संसाधनों के साथ Gemma के वर्शन चलाए जा सकते हैं. असल में, llama.cpp और Ollama का इस्तेमाल करके, लैपटॉप या किसी छोटे कंप्यूटिंग डिवाइस पर, ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) के बिना Gemma के वर्शन चलाए जा सकते हैं.
कम कंप्यूट संसाधनों के साथ Gemma मॉडल चलाने के लिए, llama.cpp और Ollama फ़्रेमवर्क, Georgi Gerganov Unified Format (GGUF) मॉडल फ़ाइल फ़ॉर्मैट में मॉडल के क्विंटाइज़ किए गए वर्शन का इस्तेमाल करते हैं. इन क्वांटाइज़ किए गए मॉडल में बदलाव किया जाता है, ताकि छोटे और कम सटीक डेटा का इस्तेमाल करके अनुरोधों को प्रोसेस किया जा सके. अनुरोधों को प्रोसेस करने के लिए, कम सटीक डेटा का इस्तेमाल करने पर, आम तौर पर मॉडल के आउटपुट की क्वालिटी कम हो जाती है. हालांकि, इससे कंप्यूट रिसॉर्स की लागत भी कम हो जाती है.
इस गाइड में, Gemma को चलाने के लिए Ollama को सेट अप करने और इस्तेमाल करने का तरीका बताया गया है, ताकि टेक्स्ट के जवाब जनरेट किए जा सकें.
सेटअप
इस सेक्शन में, Ollama को सेट अप करने और अनुरोधों का जवाब देने के लिए Gemma मॉडल इंस्टेंस को तैयार करने का तरीका बताया गया है. इसमें, मॉडल के ऐक्सेस का अनुरोध करना, सॉफ़्टवेयर इंस्टॉल करना, और Ollama में Gemma मॉडल को कॉन्फ़िगर करना शामिल है.
Gemma मॉडल का ऐक्सेस पाना
Gemma मॉडल के साथ काम करने से पहले, पक्का करें कि आपने Kaggle के ज़रिए ऐक्सेस का अनुरोध किया हो और Gemma के इस्तेमाल की शर्तों को पढ़ लिया हो.
Ollama इंस्टॉल करना
Ollama के साथ Gemma का इस्तेमाल करने से पहले, आपको अपने कंप्यूटिंग डिवाइस पर Ollama सॉफ़्टवेयर डाउनलोड और इंस्टॉल करना होगा.
Ollama को डाउनलोड और इंस्टॉल करने के लिए:
- डाउनलोड पेज पर जाएं: https://ollama.com/download
- अपना ऑपरेटिंग सिस्टम चुनें और डाउनलोड करें बटन पर क्लिक करें या डाउनलोड पेज पर दिए गए निर्देशों का पालन करें.
- इंस्टॉलर चलाकर ऐप्लिकेशन इंस्टॉल करें.
- Windows: इंस्टॉलर *.exe फ़ाइल चलाएं और निर्देशों का पालन करें.
- Mac: ज़िप पैकेज को अनपैक करें और Ollama ऐप्लिकेशन फ़ोल्डर को अपनी ऐप्लिकेशन डायरेक्ट्री में ले जाएं.
- Linux: bash स्क्रिप्ट इंस्टॉलर में दिए गए निर्देशों का पालन करें.
टर्मिनल विंडो खोलकर और यह कमांड डालकर, पुष्टि करें कि Ollama इंस्टॉल है:
ollama --version
आपको कुछ ऐसा जवाब दिखेगा: ollama version is #.#.##
. अगर आपको यह नतीजा नहीं मिलता है, तो पक्का करें कि Ollama का एक्सीक्यूटेबल आपके ऑपरेटिंग सिस्टम के पाथ में जोड़ा गया हो.
Ollama में Gemma को कॉन्फ़िगर करना
Ollama के इंस्टॉलेशन पैकेज में, डिफ़ॉल्ट रूप से कोई मॉडल शामिल नहीं होता. pull
कमांड का इस्तेमाल करके, मॉडल डाउनलोड किया जाता है.
Ollama में Gemma को कॉन्फ़िगर करने के लिए:
टर्मिनल विंडो खोलकर और यह निर्देश डालकर, डिफ़ॉल्ट Gemma 3 वैरिएंट को डाउनलोड और कॉन्फ़िगर करें:
ollama pull gemma3
डाउनलोड पूरा होने के बाद, इस कमांड का इस्तेमाल करके पुष्टि की जा सकती है कि मॉडल उपलब्ध है या नहीं:
ollama list
Ollama, डिफ़ॉल्ट रूप से 4 अरब पैरामीटर वाला, 4-बिट क्वांटिज़्ड (Q4_0) Gemma मॉडल वैरिएंट डाउनलोड करता है. पैरामीटर का साइज़ तय करके, Gemma मॉडल के दूसरे साइज़ भी डाउनलोड किए जा सकते हैं और उनका इस्तेमाल किया जा सकता है.
मॉडल को <model_name>:<tag>
के तौर पर दिखाया जाता है. Gemma 3 के लिए, चार साइज़: 1B,
4B, 12B, और 27B पैरामीटर:
- 1B पैरामीटर
gemma3:1b
- 4B पैरामीटर
gemma3:4b
- 12B पैरामीटर
gemma3:12b
- 27B पैरामीटर
gemma3:27b
Ollama की वेबसाइट पर उपलब्ध टैग देखे जा सकते हैं. इनमें Gemma 3, Gemma 2, और Gemma शामिल हैं.
जवाब जनरेट करना
Ollama में Gemma मॉडल इंस्टॉल करने के बाद, Ollama के कमांड-लाइन इंटरफ़ेस run
कमांड का इस्तेमाल करके, तुरंत जवाब जनरेट किए जा सकते हैं.
Ollama, मॉडल को ऐक्सेस करने के लिए एक वेब सेवा भी कॉन्फ़िगर करता है. इसकी जांच करने के लिए, curl
कमांड का इस्तेमाल करें.
कमांड लाइन से जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालें:
ollama run gemma3 "roses are red"
विज़ुअल इनपुट का इस्तेमाल करने के लिए, अपनी इमेज का पाथ शामिल करें:
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama की लोकल वेब सेवा का इस्तेमाल करके जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालें:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
विज़ुअल इनपुट का इस्तेमाल करने के लिए, Base64 कोड में बदली गई इमेज की सूची शामिल करें:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
बेहतर बनाए गए Gemma मॉडल
Ollama, तुरंत इस्तेमाल के लिए Gemma मॉडल के आधिकारिक वैरिएंट का एक सेट उपलब्ध कराता है. इन वैरिएंट को GGUF फ़ॉर्मैट में सेव किया जाता है. अपने ट्यून किए गए Gemma मॉडल को GGUF फ़ॉर्मैट में बदलकर, Ollama के साथ इस्तेमाल किया जा सकता है. Ollama में कुछ फ़ंक्शन शामिल हैं, जिनकी मदद से ट्यून किए गए मॉडल को मॉडल फ़ाइल फ़ॉर्मैट से GGUF में बदला जा सकता है. अपने ट्यून किए गए मॉडल को GGUF में बदलने के तरीके के बारे में ज़्यादा जानने के लिए, Ollama का README देखें.
अगले चरण
Ollama के साथ Gemma को चलाने के बाद, Gemma की जनरेटिव एआई की सुविधाओं की मदद से, एक्सपेरिमेंट करना और समाधान बनाना शुरू किया जा सकता है. Ollama के लिए कमांड लाइन इंटरफ़ेस, स्क्रिप्टिंग सलूशन बनाने के लिए काम का हो सकता है. Ollama लोकल वेब सेवा इंटरफ़ेस, प्रयोग के तौर पर बनाए जाने वाले और कम इस्तेमाल होने वाले ऐप्लिकेशन बनाने के लिए मददगार हो सकता है.
- स्थानीय तौर पर काम करने वाली निजी कोड असिस्टेंट बनाने के लिए, Ollama वेब सेवा का इस्तेमाल करके इंटिग्रेट करने की कोशिश करें.
- Gemma मॉडल को बेहतर बनाने का तरीका जानें.
- Google Cloud Run की सेवाओं की मदद से, Ollama के साथ Gemma को चलाने का तरीका जानें.
- Google Cloud के साथ Gemma को चलाने के तरीके के बारे में जानें.