सही हार्डवेयर के बिना, जेमा जैसे जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल चलाना मुश्किल हो सकता है. llama.cpp और Ollama जैसे ओपन सोर्स फ़्रेमवर्क, पहले से कॉन्फ़िगर किए गए रनटाइम एनवायरमेंट को सेट अप करके, यह काम आसान बनाते हैं. इससे, कम कंप्यूट संसाधनों के साथ Gemma के वर्शन चलाए जा सकते हैं. असल में, llama.cpp और Ollama का इस्तेमाल करके, लैपटॉप या किसी छोटे कंप्यूटिंग डिवाइस पर, ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) के बिना Gemma के वर्शन चलाए जा सकते हैं.
कम कंप्यूट संसाधनों के साथ Gemma मॉडल चलाने के लिए, llama.cpp और Ollama फ़्रेमवर्क, GPT-Generated Unified Format (GGUF) मॉडल फ़ाइल फ़ॉर्मैट में मॉडल के क्विंटाइज़ किए गए वर्शन का इस्तेमाल करते हैं. इन क्वांटाइज़ किए गए मॉडल में बदलाव किया जाता है, ताकि छोटे और कम सटीक डेटा का इस्तेमाल करके अनुरोधों को प्रोसेस किया जा सके. अनुरोधों को प्रोसेस करने के लिए, कम सटीक डेटा का इस्तेमाल करने पर, आम तौर पर मॉडल के आउटपुट की क्वालिटी कम हो जाती है. हालांकि, इससे कंप्यूट रिसॉर्स की लागत भी कम हो जाती है.
इस गाइड में, Gemma को चलाने के लिए Ollama को सेट अप करने और इस्तेमाल करने का तरीका बताया गया है, ताकि टेक्स्ट के जवाब जनरेट किए जा सकें.
सेटअप
इस सेक्शन में, Ollama को सेट अप करने और अनुरोधों का जवाब देने के लिए Gemma मॉडल इंस्टेंस को तैयार करने का तरीका बताया गया है. इसमें, मॉडल के ऐक्सेस का अनुरोध करना, सॉफ़्टवेयर इंस्टॉल करना, और Ollama में Gemma मॉडल को कॉन्फ़िगर करना शामिल है.
Gemma मॉडल का ऐक्सेस पाना
Gemma मॉडल के साथ काम करने से पहले, पक्का करें कि आपने Kaggle के ज़रिए ऐक्सेस का अनुरोध किया हो और Gemma के इस्तेमाल की शर्तों को पढ़ लिया हो.
Ollama इंस्टॉल करना
Ollama के साथ Gemma का इस्तेमाल करने से पहले, आपको अपने कंप्यूटिंग डिवाइस पर Ollama सॉफ़्टवेयर डाउनलोड और इंस्टॉल करना होगा.
Ollama को डाउनलोड और इंस्टॉल करने के लिए:
- डाउनलोड पेज पर जाएं: https://ollama.com/download
- अपना ऑपरेटिंग सिस्टम चुनें और डाउनलोड करें बटन पर क्लिक करें या डाउनलोड पेज पर दिए गए निर्देशों का पालन करें.
- इंस्टॉलर चलाकर ऐप्लिकेशन इंस्टॉल करें.
- Windows: इंस्टॉलर *.exe फ़ाइल चलाएं और निर्देशों का पालन करें.
- Mac: ZIP पैकेज को अनपैक करें और Ollama ऐप्लिकेशन फ़ोल्डर को अपनी ऐप्लिकेशन डायरेक्ट्री में ले जाएं.
- Linux: bash स्क्रिप्ट इंस्टॉलर में दिए गए निर्देशों का पालन करें.
टर्मिनल विंडो खोलकर और यह कमांड डालकर, पुष्टि करें कि Ollama इंस्टॉल है:
ollama --version
आपको कुछ ऐसा जवाब दिखेगा: ollama version is #.#.##
. अगर आपको यह नतीजा नहीं मिलता है, तो पक्का करें कि Ollama का एक्सीक्यूटेबल आपके ऑपरेटिंग सिस्टम के पाथ में जोड़ा गया हो.
Ollama में Gemma को कॉन्फ़िगर करना
Ollama के इंस्टॉलेशन पैकेज में, डिफ़ॉल्ट रूप से कोई मॉडल शामिल नहीं होता. pull
कमांड का इस्तेमाल करके, कोई मॉडल डाउनलोड किया जाता है.
Ollama में Gemma को कॉन्फ़िगर करने के लिए:
टर्मिनल विंडो खोलकर और यह निर्देश डालकर, डिफ़ॉल्ट Gemma 2 वैरिएंट को डाउनलोड और कॉन्फ़िगर करें:
ollama pull gemma2
डाउनलोड पूरा होने के बाद, इस कमांड का इस्तेमाल करके पुष्टि की जा सकती है कि मॉडल उपलब्ध है या नहीं:
ollama list
Ollama, डिफ़ॉल्ट रूप से 9 अरब पैरामीटर वाला, 4-बिट क्वांटिज़ किया गया (Q4_0) Gemma मॉडल वैरिएंट डाउनलोड करता है. पैरामीटर का साइज़ तय करके, Gemma मॉडल के दूसरे साइज़ भी डाउनलोड किए जा सकते हैं और उनका इस्तेमाल किया जा सकता है.
मॉडल को <model_name>:<tag>
के तौर पर दिखाया जाता है. Gemma 2 के 20 करोड़
पैरामीटर वाले मॉडल के लिए, gemma2:2b
डालें. 27 अरब पैरामीटर वाले मॉडल के लिए, gemma2:27b
डालें. Ollama की वेबसाइट पर उपलब्ध टैग देखे जा सकते हैं. इनमें Gemma 2 और Gemma शामिल हैं.
जवाब जनरेट करना
Ollama में Gemma मॉडल इंस्टॉल करने के बाद, Ollama के कमांड-लाइन इंटरफ़ेस run
कमांड का इस्तेमाल करके, तुरंत जवाब जनरेट किए जा सकते हैं.
Ollama, मॉडल को ऐक्सेस करने के लिए एक वेब सेवा भी कॉन्फ़िगर करता है. इसकी जांच करने के लिए, curl
कमांड का इस्तेमाल करें.
कमांड लाइन से जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालें:
ollama run gemma2 "roses are red"
Ollama की लोकल वेब सेवा का इस्तेमाल करके जवाब जनरेट करने के लिए:
टर्मिनल विंडो में, यह कमांड डालें:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma2",\ "prompt":"roses are red"\ }'
बेहतर बनाए गए Gemma मॉडल
Ollama, तुरंत इस्तेमाल के लिए Gemma मॉडल के आधिकारिक वैरिएंट का एक सेट उपलब्ध कराता है. इन वैरिएंट को GGUF फ़ॉर्मैट में सेव किया जाता है. अपने ट्यून किए गए Gemma मॉडल को GGUF फ़ॉर्मैट में बदलकर, Ollama के साथ इस्तेमाल किया जा सकता है. Ollama में कुछ फ़ंक्शन शामिल हैं, जिनकी मदद से ट्यून किए गए मॉडल को मॉडल फ़ाइल फ़ॉर्मैट से GGUF में बदला जा सकता है. अपने ट्यून किए गए मॉडल को GGUF में बदलने के तरीके के बारे में ज़्यादा जानने के लिए, Ollama का README देखें.
अगले चरण
Ollama के साथ Gemma को चलाने के बाद, Gemma की जनरेटिव एआई की सुविधाओं की मदद से, एक्सपेरिमेंट करना और समाधान बनाना शुरू किया जा सकता है. Ollama के लिए कमांड लाइन इंटरफ़ेस, स्क्रिप्टिंग सलूशन बनाने के लिए काम का हो सकता है. Ollama लोकल वेब सेवा इंटरफ़ेस, प्रयोग के तौर पर बनाए जाने वाले और कम इस्तेमाल होने वाले ऐप्लिकेशन बनाने के लिए मददगार हो सकता है.
- स्थानीय तौर पर काम करने वाली निजी कोड असिस्टेंट बनाने के लिए, Ollama वेब सेवा का इस्तेमाल करके इंटिग्रेट करने की कोशिश करें.
- Gemma मॉडल को बेहतर बनाने का तरीका जानें.
- Google Cloud Run की सेवाओं की मदद से, Ollama के साथ Gemma को चलाने का तरीका जानें.
- Google Cloud के साथ Gemma को चलाने के तरीके के बारे में जानें.