Gemma की मदद से कॉन्टेंट जनरेट करना और अनुमान लगाना

Gemma मॉडल को चलाने के लिए, आपको दो मुख्य फ़ैसले लेने होंगे: 1) आपको Gemma का कौनसा वैरिएंट चलाना है और 2) इसे चलाने के लिए, आपको एआई का कौनसा एक्ज़ीक्यूशन फ़्रेमवर्क इस्तेमाल करना है? इन दोनों फ़ैसलों को लेने में एक अहम समस्या यह है कि आपके और आपके उपयोगकर्ताओं के पास मॉडल को चलाने के लिए कौनसा हार्डवेयर उपलब्ध है.

इस खास जानकारी से, आपको इन फ़ैसलों को समझने और Gemma मॉडल का इस्तेमाल शुरू करने में मदद मिलती है. Gemma मॉडल को चलाने का सामान्य तरीका यहां दिया गया है:

कोई फ़्रेमवर्क चुनें

Gemma मॉडल, नेटवर्क के कई टूल के साथ काम करते हैं. सही विकल्प चुनने के लिए, यह देखना ज़रूरी है कि आपके पास कौन-कौनसे हार्डवेयर उपलब्ध हैं (क्लाउड जीपीयू बनाम लोकल लैपटॉप) और आपको कौनसे इंटरफ़ेस का इस्तेमाल करना है (Python कोड बनाम डेस्कटॉप ऐप्लिकेशन).

अपनी ज़रूरत के हिसाब से सबसे सही टूल चुनने के लिए, यहां दी गई टेबल देखें:

अगर आप यह करना चाहते हैं... सुझाया गया फ़्रेमवर्क इनके लिए सर्वश्रेष्ठ:
Chat UI के साथ स्थानीय तौर पर चलाना - LM Studio
- Ollama
नए लोगों या उन लोगों के लिए जो अपने लैपटॉप पर "Gemini जैसी" सुविधा चाहते हैं.
Edge पर बेहतर तरीके से काम करना - Gemma.cpp
- LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
कम संसाधनों के साथ, स्थानीय अनुमान लगाने की बेहतर सुविधा.
Python में मॉडल बनाना/ट्रेन करना - JAX के लिए Gemma लाइब्रेरी
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
रिसर्चर और डेवलपर, कस्टम ऐप्लिकेशन बना रहे हैं या मॉडल को फ़ाइन-ट्यून कर रहे हैं.
प्रोडक्शन / एंटरप्राइज़ में डिप्लॉय करना - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
एंटरप्राइज़-ग्रेड की सुरक्षा और MLOps की सहायता के साथ, मैनेज किया जा सकने वाला क्लाउड डिप्लॉयमेंट.

फ़्रेमवर्क की जानकारी

यहां, आपके डिप्लॉयमेंट एनवायरमेंट के हिसाब से, Gemma मॉडल को चलाने के लिए गाइड दी गई हैं.

1. डेस्कटॉप और लोकल इन्फ़रेंस (ज़्यादा असरदार)

इन टूल की मदद से, उपभोक्ता हार्डवेयर (लैपटॉप, डेस्कटॉप) पर Gemma को चलाया जा सकता है. इसके लिए, ऑप्टिमाइज़ किए गए फ़ॉर्मैट (जैसे, GGUF) या खास हार्डवेयर ऐक्सलरेटर का इस्तेमाल किया जाता है.

  • LM Studio: यह एक डेस्कटॉप ऐप्लिकेशन है. इसकी मदद से, Gemma मॉडल को डाउनलोड किया जा सकता है और उनके साथ चैट की जा सकती है. इसका इंटरफ़ेस इस्तेमाल करने में आसान है. इसके लिए, किसी कोडिंग की ज़रूरत नहीं होती.
  • llama.cpp: यह Llama (और Gemma) का एक लोकप्रिय ओपन-सोर्स C++ पोर्ट है. यह सीपीयू और Apple Silicon पर बहुत तेज़ी से काम करता है.
  • LiteRT-LM: यह डेस्कटॉप (Windows, Linux, macOS) पर ऑप्टिमाइज़ किए गए .litertlm Gemma मॉडल चलाने के लिए, कमांड-लाइन इंटरफ़ेस (CLI) उपलब्ध कराता है. यह LiteRT (पहले इसे TFLite कहा जाता था) की मदद से काम करता है.
  • MLX: यह फ़्रेमवर्क, खास तौर पर Apple Silicon पर मशीन लर्निंग के लिए डिज़ाइन किया गया है. यह Mac इस्तेमाल करने वाले उन लोगों के लिए सबसे सही है जिन्हें बेहतर परफ़ॉर्मेंस चाहिए.
  • Gemma.cpp: यह एक हल्का और स्टैंडअलोन C++ इन्फ़रेंस इंजन है. इसे खास तौर पर Google ने बनाया है.
  • Ollama: यह एक ऐसा टूल है जिसकी मदद से, ओपन एलएलएम को स्थानीय तौर पर चलाया जा सकता है. इसका इस्तेमाल अक्सर अन्य ऐप्लिकेशन को बेहतर बनाने के लिए किया जाता है.

2. Python डेवलपमेंट (रिसर्च और फ़ाइन-ट्यूनिंग)

एआई डेवलपर के लिए स्टैंडर्ड फ़्रेमवर्क. इनका इस्तेमाल ऐप्लिकेशन, पाइपलाइन या ट्रेनिंग मॉडल बनाने के लिए किया जाता है.

  • Hugging Face Transformers: यह मॉडल और पाइपलाइन को तुरंत ऐक्सेस करने के लिए, इंडस्ट्री स्टैंडर्ड है.
  • Unsloth: यह एलएलएम को फ़ाइन-ट्यून करने के लिए ऑप्टिमाइज़ की गई लाइब्रेरी है. इसकी मदद से, Gemma मॉडल को दो से पांच गुना तेज़ी से ट्रेन किया जा सकता है.साथ ही, इसमें बहुत कम मेमोरी लगती है. इससे, उपभोक्ता जीपीयू (जैसे, Google Colab के मुफ़्त टियर) पर फ़ाइन-ट्यून करना मुमकिन हो जाता है.
  • Keras / JAX / PyTorch: ये डीप लर्निंग रिसर्च और कस्टम आर्किटेक्चर लागू करने के लिए मुख्य लाइब्रेरी हैं.

3. मोबाइल और एज डिप्लॉयमेंट (डिवाइस पर)

ऐसे फ़्रेमवर्क जिन्हें एलएलएम को सीधे तौर पर उपयोगकर्ता के डिवाइसों (Android, iOS, वेब) पर चलाने के लिए डिज़ाइन किया गया है. इसके लिए, इंटरनेट कनेक्शन की ज़रूरत नहीं होती. ये अक्सर एनपीयू (न्यूरल प्रोसेसिंग यूनिट) का इस्तेमाल करते हैं.

  • LiteRT-LM: यह डिवाइस पर एलएलएम डेवलप करने के लिए पूरी तरह से ओपन-सोर्स फ़्रेमवर्क है. यह बेहतरीन परफ़ॉर्मेंस और बेहतर कंट्रोल देता है. साथ ही, Android और iOS पर सीपीयू, जीपीयू, और एनपीयू ऐक्सेलरेटर के साथ सीधे तौर पर काम करता है.
  • MediaPipe LLM Inference API: यह क्रॉस-प्लैटफ़ॉर्म ऐप्लिकेशन में Gemma को इंटिग्रेट करने का सबसे आसान तरीका है. यह एक हाई-लेवल API उपलब्ध कराता है. यह Android, iOS, और वेब पर काम करता है.

4. क्लाउड और प्रोडक्शन डिप्लॉयमेंट

हज़ारों उपयोगकर्ताओं के लिए अपने ऐप्लिकेशन को स्केल करने या कंप्यूटिंग की ज़्यादा क्षमता को ऐक्सेस करने के लिए मैनेज की गई सेवाएं.

  • Vertex AI: Google Cloud का पूरी तरह से मैनेज किया गया एआई प्लैटफ़ॉर्म. एसएलए और स्केलिंग की सुविधा की ज़रूरत वाले एंटरप्राइज़ ऐप्लिकेशन के लिए सबसे सही.
  • Google Cloud Kubernetes Engine (GKE): इसका इस्तेमाल, अपने सर्विंग क्लस्टर को व्यवस्थित करने के लिए किया जाता है.
  • vLLM: यह एक ऐसा इंजन है जो ज़्यादा थ्रूपुट देता है और कम मेमोरी इस्तेमाल करता है. इसका इस्तेमाल अक्सर क्लाउड डिप्लॉयमेंट में किया जाता है.

पक्का करें कि आपने जिस फ़्रेमवर्क को चुना है वह Gemma मॉडल के उस फ़ॉर्मैट के साथ काम करता हो जिसे आपको डिप्लॉय करना है. जैसे, Keras का बिल्ट-इन फ़ॉर्मैट, Safetensors या GGUF.

Gemma का कोई वैरिएंट चुनें

Gemma मॉडल, कई वर्शन और साइज़ में उपलब्ध हैं. इनमें फ़ाउंडेशन या कोर Gemma मॉडल और ज़्यादा खास मॉडल वर्शन शामिल हैं. जैसे, PaliGemma और DataGemma. साथ ही, एआई डेवलपर कम्यूनिटी ने Kaggle और Hugging Face जैसी साइटों पर कई वर्शन बनाए हैं. अगर आपको यह नहीं पता कि किस वैरिएंट से शुरुआत करनी चाहिए, तो पैरामीटर की सबसे कम संख्या वाला, निर्देश के मुताबिक फ़ाइन-ट्यून किया गया (आईटी) Gemma core का नया मॉडल चुनें. इस तरह के Gemma मॉडल के लिए, कम कंप्यूटिंग पावर की ज़रूरत होती है. साथ ही, यह अलग-अलग तरह के प्रॉम्प्ट के जवाब दे सकता है. इसके लिए, इसे ज़्यादा डेवलप करने की ज़रूरत नहीं होती.

Gemma का कोई वैरिएंट चुनते समय, इन बातों का ध्यान रखें:

  • Gemma core और अन्य वैरिएंट फ़ैमिली, जैसे कि PaliGemma, CodeGemma: Gemma (core) का सुझाव दें. Gemma के मुख्य वर्शन के अलावा, अन्य वैरिएंट का आर्किटेक्चर मुख्य मॉडल जैसा ही होता है. इन्हें खास कामों को बेहतर तरीके से करने के लिए ट्रेन किया जाता है. अगर आपका ऐप्लिकेशन या लक्ष्य, Gemma के किसी खास वैरिएंट की विशेषज्ञता के मुताबिक नहीं है, तो सबसे अच्छा तरीका यह है कि आप Gemma के कोर या बेस मॉडल से शुरुआत करें.
  • निर्देशों के हिसाब से तैयार किया गया (आईटी), पहले से ट्रेन किया गया (पीटी), फ़ाइन-ट्यून किया गया (एफ़टी), मिक्स (मिक्स): आईटी का सुझाव दें.
    • निर्देशों के मुताबिक काम करने वाले (आईटी) Gemma के वैरिएंट ऐसे मॉडल हैं जिन्हें इंसानी भाषा में दिए गए अलग-अलग निर्देशों या अनुरोधों के जवाब देने के लिए ट्रेन किया गया है. इन मॉडल वैरिएंट से शुरुआत करना सबसे सही है, क्योंकि ये मॉडल को ट्रेनिंग दिए बिना ही प्रॉम्प्ट के जवाब दे सकते हैं.
    • प्री-ट्रेन किए गए (पीटी) Gemma के वैरिएंट ऐसे मॉडल होते हैं जिन्हें भाषा या अन्य डेटा के बारे में अनुमान लगाने के लिए ट्रेन किया गया है. हालांकि, इन्हें इंसानों के निर्देशों का पालन करने के लिए ट्रेन नहीं किया गया है. इन मॉडल को टास्क को असरदार तरीके से पूरा करने के लिए, अतिरिक्त ट्रेनिंग या ट्यूनिंग की ज़रूरत होती है. ये मॉडल, शोधकर्ताओं या डेवलपर के लिए बनाए गए हैं. ये लोग, मॉडल और उसके आर्किटेक्चर की क्षमताओं का अध्ययन करना या उन्हें डेवलप करना चाहते हैं.
    • फ़ाइन-ट्यून किए गए (FT) Gemma के वैरिएंट को आईटी वैरिएंट माना जा सकता है. हालांकि, इन्हें आम तौर पर किसी खास टास्क को पूरा करने या जनरेटिव एआई के किसी खास बेंचमार्क पर बेहतर परफ़ॉर्म करने के लिए ट्रेन किया जाता है. PaliGemma के वैरिएंट फ़ैमिली में, कई FT वैरिएंट शामिल हैं.
    • मिक्स (मिक्स) Gemma वैरिएंट, PaliGemma मॉडल के ऐसे वर्शन हैं जिन्हें अलग-अलग तरह के निर्देशों के साथ ट्यून किया गया है. ये सामान्य इस्तेमाल के लिए सही हैं.
  • पैरामीटर: सबसे छोटा उपलब्ध नंबर इस्तेमाल करने का सुझाव दें. आम तौर पर, किसी मॉडल में जितने ज़्यादा पैरामीटर होते हैं वह उतना ही बेहतर होता है. हालांकि, बड़े मॉडल चलाने के लिए ज़्यादा और जटिल कंप्यूट संसाधनों की ज़रूरत होती है. साथ ही, इससे आम तौर पर एआई ऐप्लिकेशन को डेवलप करने की प्रोसेस धीमी हो जाती है. अगर आपको लगता है कि Gemma का छोटा मॉडल आपकी ज़रूरतों को पूरा नहीं कर सकता, तो कम पैरामीटर वाला मॉडल चुनें.
  • क्वांटाइज़ेशन लेवल: ट्यूनिंग को छोड़कर, हाफ़ प्रिसिशन (16-बिट) का सुझाव दें. क्वांटाइज़ेशन एक मुश्किल विषय है. इसमें यह तय किया जाता है कि डेटा का साइज़ और सटीक जानकारी कितनी होनी चाहिए. साथ ही, जनरेटिव एआई मॉडल को कैलकुलेशन करने और जवाब जनरेट करने के लिए कितनी मेमोरी का इस्तेमाल करना चाहिए. जब किसी मॉडल को ज़्यादा सटीक डेटा के साथ ट्रेन किया जाता है, तो आम तौर पर यह 32-बिट फ़्लोटिंग पॉइंट डेटा होता है. इसके बाद, Gemma जैसे मॉडल को कम सटीक डेटा का इस्तेमाल करने के लिए बदला जा सकता है. जैसे, 16, 8 या 4-बिट साइज़. क्वांटाइज़ किए गए ये Gemma मॉडल, अब भी अच्छी परफ़ॉर्मेंस दे सकते हैं. हालांकि, यह इस बात पर निर्भर करता है कि टास्क कितना मुश्किल है. साथ ही, ये मॉडल कंप्यूट और मेमोरी के संसाधनों का इस्तेमाल काफ़ी कम करते हैं. हालांकि, क्वॉन्टाइज़ किए गए मॉडल को ट्यून करने के लिए टूल सीमित हैं. साथ ही, हो सकता है कि ये आपके चुने गए एआई डेवलपमेंट फ़्रेमवर्क में उपलब्ध न हों. आम तौर पर, आपको Gemma जैसे मॉडल को पूरी बारीकी से फ़ाइन-ट्यून करना होगा. इसके बाद, नतीजे के तौर पर मिले मॉडल को क्वांटाइज़ करना होगा.

Google के पब्लिश किए गए Gemma के मुख्य मॉडल की सूची देखने के लिए, Gemma के मॉडल इस्तेमाल करना शुरू करें लेख में जाएं. इसके अलावा, Gemma के मॉडल की सूची भी देखी जा सकती है.

जनरेट करने और अनुमान लगाने के अनुरोधों को पूरा करना

एआई एक्ज़ीक्यूशन फ़्रेमवर्क और Gemma का कोई वैरिएंट चुनने के बाद, मॉडल को चलाना शुरू किया जा सकता है. साथ ही, उसे कॉन्टेंट जनरेट करने या टास्क पूरे करने के लिए प्रॉम्प्ट किया जा सकता है. किसी फ़्रेमवर्क के साथ Gemma को चलाने के बारे में ज़्यादा जानने के लिए, कोई फ़्रेमवर्क चुनें सेक्शन में दिए गए लिंक पर जाएं.

प्रॉम्प्ट फ़ॉर्मैट करना

निर्देशों के मुताबिक तैयार किए गए Gemma के सभी वैरिएंट के लिए, प्रॉम्प्ट फ़ॉर्मैट करने से जुड़ी कुछ खास ज़रूरी शर्तें हैं. फ़ॉर्मैटिंग से जुड़ी इनमें से कुछ ज़रूरी शर्तों को, Gemma मॉडल चलाने के लिए इस्तेमाल किया जाने वाला फ़्रेमवर्क अपने-आप पूरा कर देता है. हालांकि, प्रॉम्प्ट डेटा को सीधे तौर पर टोकनाइज़र को भेजते समय, आपको कुछ टैग जोड़ने होंगे. साथ ही, टैग करने से जुड़ी ज़रूरी शर्तें, इस्तेमाल किए जा रहे Gemma के वर्शन के हिसाब से बदल सकती हैं. Gemma के अलग-अलग वर्शन के लिए प्रॉम्प्ट फ़ॉर्मैट करने और सिस्टम के निर्देशों के बारे में जानकारी पाने के लिए, यहां दी गई गाइड देखें: