Ollama के साथ Gemma चलाना

सही हार्डवेयर के बिना, जेमा जैसे जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (एआई) मॉडल चलाना मुश्किल हो सकता है. llama.cpp और Ollama जैसे ओपन सोर्स फ़्रेमवर्क, पहले से कॉन्फ़िगर किए गए रनटाइम एनवायरमेंट को सेट अप करके, यह काम आसान बनाते हैं. इससे, कम कंप्यूट संसाधनों के साथ Gemma के वर्शन चलाए जा सकते हैं. असल में, llama.cpp और Ollama का इस्तेमाल करके, लैपटॉप या किसी छोटे कंप्यूटिंग डिवाइस पर, ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) के बिना Gemma के वर्शन चलाए जा सकते हैं.

कम कंप्यूट संसाधनों के साथ Gemma मॉडल चलाने के लिए, llama.cpp और Ollama फ़्रेमवर्क, GPT-Generated Unified Format (GGUF) मॉडल फ़ाइल फ़ॉर्मैट में मॉडल के क्विंटाइज़ किए गए वर्शन का इस्तेमाल करते हैं. इन क्वांटाइज़ किए गए मॉडल में बदलाव किया जाता है, ताकि छोटे और कम सटीक डेटा का इस्तेमाल करके अनुरोधों को प्रोसेस किया जा सके. अनुरोधों को प्रोसेस करने के लिए, कम सटीक डेटा का इस्तेमाल करने पर, आम तौर पर मॉडल के आउटपुट की क्वालिटी कम हो जाती है. हालांकि, इससे कंप्यूट रिसॉर्स की लागत भी कम हो जाती है.

इस गाइड में, Gemma को चलाने के लिए Ollama को सेट अप करने और इस्तेमाल करने का तरीका बताया गया है, ताकि टेक्स्ट के जवाब जनरेट किए जा सकें.

सेटअप

इस सेक्शन में, Ollama को सेट अप करने और अनुरोधों का जवाब देने के लिए Gemma मॉडल इंस्टेंस को तैयार करने का तरीका बताया गया है. इसमें, मॉडल के ऐक्सेस का अनुरोध करना, सॉफ़्टवेयर इंस्टॉल करना, और Ollama में Gemma मॉडल को कॉन्फ़िगर करना शामिल है.

Gemma मॉडल का ऐक्सेस पाना

Gemma मॉडल के साथ काम करने से पहले, पक्का करें कि आपने Kaggle के ज़रिए ऐक्सेस का अनुरोध किया हो और Gemma के इस्तेमाल की शर्तों को पढ़ लिया हो.

Ollama इंस्टॉल करना

Ollama के साथ Gemma का इस्तेमाल करने से पहले, आपको अपने कंप्यूटिंग डिवाइस पर Ollama सॉफ़्टवेयर डाउनलोड और इंस्टॉल करना होगा.

Ollama को डाउनलोड और इंस्टॉल करने के लिए:

  1. डाउनलोड पेज पर जाएं: https://ollama.com/download
  2. अपना ऑपरेटिंग सिस्टम चुनें और डाउनलोड करें बटन पर क्लिक करें या डाउनलोड पेज पर दिए गए निर्देशों का पालन करें.
  3. इंस्टॉलर चलाकर ऐप्लिकेशन इंस्टॉल करें.
    • Windows: इंस्टॉलर *.exe फ़ाइल चलाएं और निर्देशों का पालन करें.
    • Mac: ZIP पैकेज को अनपैक करें और Ollama ऐप्लिकेशन फ़ोल्डर को अपनी ऐप्लिकेशन डायरेक्ट्री में ले जाएं.
    • Linux: bash स्क्रिप्ट इंस्टॉलर में दिए गए निर्देशों का पालन करें.
  4. टर्मिनल विंडो खोलकर और यह कमांड डालकर, पुष्टि करें कि Ollama इंस्टॉल है:

    ollama --version
    

आपको कुछ ऐसा जवाब दिखेगा: ollama version is #.#.##. अगर आपको यह नतीजा नहीं मिलता है, तो पक्का करें कि Ollama का एक्सीक्यूटेबल आपके ऑपरेटिंग सिस्टम के पाथ में जोड़ा गया हो.

Ollama में Gemma को कॉन्फ़िगर करना

Ollama के इंस्टॉलेशन पैकेज में, डिफ़ॉल्ट रूप से कोई मॉडल शामिल नहीं होता. pull कमांड का इस्तेमाल करके, कोई मॉडल डाउनलोड किया जाता है.

Ollama में Gemma को कॉन्फ़िगर करने के लिए:

  1. टर्मिनल विंडो खोलकर और यह निर्देश डालकर, डिफ़ॉल्ट Gemma 2 वैरिएंट को डाउनलोड और कॉन्फ़िगर करें:

    ollama pull gemma2
    
  2. डाउनलोड पूरा होने के बाद, इस कमांड का इस्तेमाल करके पुष्टि की जा सकती है कि मॉडल उपलब्ध है या नहीं:

    ollama list
    

Ollama, डिफ़ॉल्ट रूप से 9 अरब पैरामीटर वाला, 4-बिट क्वांटिज़ किया गया (Q4_0) Gemma मॉडल वैरिएंट डाउनलोड करता है. पैरामीटर का साइज़ तय करके, Gemma मॉडल के दूसरे साइज़ भी डाउनलोड किए जा सकते हैं और उनका इस्तेमाल किया जा सकता है.

मॉडल को <model_name>:<tag> के तौर पर दिखाया जाता है. Gemma 2 के 20 करोड़ पैरामीटर वाले मॉडल के लिए, gemma2:2b डालें. 27 अरब पैरामीटर वाले मॉडल के लिए, gemma2:27b डालें. Ollama की वेबसाइट पर उपलब्ध टैग देखे जा सकते हैं. इनमें Gemma 2 और Gemma शामिल हैं.

जवाब जनरेट करना

Ollama में Gemma मॉडल इंस्टॉल करने के बाद, Ollama के कमांड-लाइन इंटरफ़ेस run कमांड का इस्तेमाल करके, तुरंत जवाब जनरेट किए जा सकते हैं. Ollama, मॉडल को ऐक्सेस करने के लिए एक वेब सेवा भी कॉन्फ़िगर करता है. इसकी जांच करने के लिए, curl कमांड का इस्तेमाल करें.

कमांड लाइन से जवाब जनरेट करने के लिए:

  • टर्मिनल विंडो में, यह कमांड डालें:

    ollama run gemma2 "roses are red"
    

Ollama की लोकल वेब सेवा का इस्तेमाल करके जवाब जनरेट करने के लिए:

  • टर्मिनल विंडो में, यह कमांड डालें:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

बेहतर बनाए गए Gemma मॉडल

Ollama, तुरंत इस्तेमाल के लिए Gemma मॉडल के आधिकारिक वैरिएंट का एक सेट उपलब्ध कराता है. इन वैरिएंट को GGUF फ़ॉर्मैट में सेव किया जाता है. अपने ट्यून किए गए Gemma मॉडल को GGUF फ़ॉर्मैट में बदलकर, Ollama के साथ इस्तेमाल किया जा सकता है. Ollama में कुछ फ़ंक्शन शामिल हैं, जिनकी मदद से ट्यून किए गए मॉडल को मॉडल फ़ाइल फ़ॉर्मैट से GGUF में बदला जा सकता है. अपने ट्यून किए गए मॉडल को GGUF में बदलने के तरीके के बारे में ज़्यादा जानने के लिए, Ollama का README देखें.

अगले चरण

Ollama के साथ Gemma को चलाने के बाद, Gemma की जनरेटिव एआई की सुविधाओं की मदद से, एक्सपेरिमेंट करना और समाधान बनाना शुरू किया जा सकता है. Ollama के लिए कमांड लाइन इंटरफ़ेस, स्क्रिप्टिंग सलूशन बनाने के लिए काम का हो सकता है. Ollama लोकल वेब सेवा इंटरफ़ेस, प्रयोग के तौर पर बनाए जाने वाले और कम इस्तेमाल होने वाले ऐप्लिकेशन बनाने के लिए मददगार हो सकता है.

  • स्थानीय तौर पर काम करने वाली निजी कोड असिस्टेंट बनाने के लिए, Ollama वेब सेवा का इस्तेमाल करके इंटिग्रेट करने की कोशिश करें.
  • Gemma मॉडल को बेहतर बनाने का तरीका जानें.
  • Google Cloud Run की सेवाओं की मदद से, Ollama के साथ Gemma को चलाने का तरीका जानें.
  • Google Cloud के साथ Gemma को चलाने के तरीके के बारे में जानें.