Gemma की मदद से कॉन्टेंट जनरेट करना और अनुमान लगाना

Gemma मॉडल को चलाने के लिए, आपको दो मुख्य फ़ैसले लेने होंगे: 1) आपको Gemma का कौनसा वैरिएंट चलाना है और 2) इसे चलाने के लिए, आपको एआई का कौनसा एक्ज़ीक्यूशन फ़्रेमवर्क इस्तेमाल करना है? इन दोनों फ़ैसलों को लेने में एक अहम समस्या यह है कि आपके और आपके उपयोगकर्ताओं के पास मॉडल को चलाने के लिए कौनसा हार्डवेयर उपलब्ध है.

इस खास जानकारी से, आपको इन फ़ैसलों के बारे में जानने और Gemma मॉडल का इस्तेमाल शुरू करने में मदद मिलती है. Gemma मॉडल को चलाने का सामान्य तरीका यहां दिया गया है:

कोई फ़्रेमवर्क चुनें

Gemma मॉडल, नेटवर्क के कई टूल के साथ काम करते हैं. सही विकल्प चुनने के लिए, यह देखना ज़रूरी है कि आपके पास कौनसे हार्डवेयर उपलब्ध हैं (क्लाउड जीपीयू बनाम लोकल लैपटॉप) और आपको कौनसे इंटरफ़ेस का इस्तेमाल करना है (Python कोड बनाम डेस्कटॉप ऐप्लिकेशन).

अपनी ज़रूरतों के हिसाब से सबसे सही टूल चुनने के लिए, यहां दी गई टेबल का इस्तेमाल करें:

अगर आप यह करना चाहते हैं... सुझाया गया फ़्रेमवर्क इनके लिए सर्वश्रेष्ठ:
Chat UI के साथ स्थानीय तौर पर चलाना - LM Studio
- Ollama
नए लोगों या उन लोगों के लिए जो अपने लैपटॉप पर "Gemini जैसी" सुविधा चाहते हैं.
Edge पर बेहतर तरीके से काम करना - Gemma.cpp
- LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
कम संसाधनों के साथ, स्थानीय अनुमान लगाने की बेहतर सुविधा.
Python में मॉडल बनाना/ट्रेन करना - JAX के लिए Gemma लाइब्रेरी
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
रिसर्चर और डेवलपर, कस्टम ऐप्लिकेशन बना रहे हैं या मॉडल को फ़ाइन-ट्यून कर रहे हैं.
प्रोडक्शन / एंटरप्राइज़ में डिप्लॉय करना - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
एंटरप्राइज़-ग्रेड की सुरक्षा और MLOps की सुविधा के साथ, मैनेज किया जाने वाला क्लाउड डिप्लॉयमेंट.

फ़्रेमवर्क की जानकारी

यहां, Gemma मॉडल को चलाने के लिए गाइड दी गई हैं. इन्हें डिप्लॉयमेंट एनवायरमेंट के हिसाब से कैटगरी में बांटा गया है.

1. डेस्कटॉप और लोकल इन्फ़रेंस (ज़्यादा असरदार)

इन टूल की मदद से, उपभोक्ता हार्डवेयर (लैपटॉप, डेस्कटॉप) पर Gemma को चलाया जा सकता है. इसके लिए, ऑप्टिमाइज़ किए गए फ़ॉर्मैट (जैसे, GGUF) या खास हार्डवेयर ऐक्सलरेटर का इस्तेमाल किया जाता है.

  • LM Studio: यह एक डेस्कटॉप ऐप्लिकेशन है. इसकी मदद से, Gemma मॉडल को डाउनलोड किया जा सकता है और इसके साथ चैट की जा सकती है. इसका इंटरफ़ेस इस्तेमाल करने में आसान है. इसके लिए, किसी कोडिंग की ज़रूरत नहीं होती.
  • llama.cpp: यह Llama (और Gemma) का एक लोकप्रिय ओपन-सोर्स C++ पोर्ट है. यह सीपीयू और Apple Silicon पर बहुत तेज़ी से काम करता है.
  • LiteRT-LM: यह डेस्कटॉप (Windows, Linux, macOS) पर ऑप्टिमाइज़ किए गए .litertlm Gemma मॉडल चलाने के लिए, कमांड-लाइन इंटरफ़ेस (CLI) उपलब्ध कराता है. यह LiteRT (पहले इसे TFLite कहा जाता था) की मदद से काम करता है.
  • MLX: यह फ़्रेमवर्क, खास तौर पर Apple Silicon पर मशीन लर्निंग के लिए डिज़ाइन किया गया है. यह Mac इस्तेमाल करने वाले उन लोगों के लिए सबसे सही है जिन्हें परफ़ॉर्मेंस को बेहतर बनाने के लिए पहले से मौजूद सुविधाओं की ज़रूरत होती है.
  • Gemma.cpp: यह एक हल्का और स्टैंडअलोन C++ इन्फ़रेंस इंजन है. इसे खास तौर पर Google ने बनाया है.
  • Ollama: यह एक ऐसा टूल है जो ओपन एलएलएम को स्थानीय तौर पर चलाता है. इसका इस्तेमाल अक्सर अन्य ऐप्लिकेशन को बेहतर बनाने के लिए किया जाता है.

2. Python डेवलपमेंट (रिसर्च और फ़ाइन-ट्यूनिंग)

एआई डेवलपर के लिए स्टैंडर्ड फ़्रेमवर्क. इनका इस्तेमाल ऐप्लिकेशन, पाइपलाइन या ट्रेनिंग मॉडल बनाने के लिए किया जाता है.

  • Hugging Face Transformers: यह मॉडल और पाइपलाइन को तुरंत ऐक्सेस करने के लिए इंडस्ट्री स्टैंडर्ड है.
  • Unsloth: यह एलएलएम को फ़ाइन-ट्यून करने के लिए ऑप्टिमाइज़ की गई लाइब्रेरी है. इसकी मदद से, Gemma मॉडल को दो से पांच गुना तेज़ी से ट्रेन किया जा सकता है.साथ ही, इसमें बहुत कम मेमोरी लगती है. इससे, उपभोक्ता जीपीयू (जैसे, Google Colab के मुफ़्त टियर) पर फ़ाइन-ट्यून करना मुमकिन हो जाता है.
  • Keras / JAX / PyTorch: ये डीप लर्निंग रिसर्च और कस्टम आर्किटेक्चर लागू करने के लिए मुख्य लाइब्रेरी हैं.

3. मोबाइल और एज डिप्लॉयमेंट (डिवाइस पर)

ऐसे फ़्रेमवर्क जिन्हें एलएलएम को सीधे तौर पर उपयोगकर्ता के डिवाइसों (Android, iOS, वेब) पर चलाने के लिए डिज़ाइन किया गया है. इसके लिए, इंटरनेट कनेक्शन की ज़रूरत नहीं होती. ये अक्सर एनपीयू (न्यूरल प्रोसेसिंग यूनिट) का इस्तेमाल करते हैं.

  • LiteRT-LM: यह डिवाइस पर मौजूद एलएलएम को डेवलप करने के लिए पूरी तरह से ओपन-सोर्स फ़्रेमवर्क है. यह बेहतरीन परफ़ॉर्मेंस और बेहतर कंट्रोल देता है. साथ ही, Android और iOS पर सीपीयू, जीपीयू, और एनपीयू ऐक्सेलरेट करने की सुविधा देता है.
  • MediaPipe LLM Inference API: यह अलग-अलग प्लैटफ़ॉर्म पर काम करने वाले ऐप्लिकेशन में Gemma को इंटिग्रेट करने का सबसे आसान तरीका है. यह एक हाई-लेवल एपीआई उपलब्ध कराता है. यह Android, iOS, और वेब पर काम करता है.

4. क्लाउड और प्रोडक्शन डिप्लॉयमेंट

हज़ारों उपयोगकर्ताओं के लिए अपने ऐप्लिकेशन को स्केल करने या कंप्यूटिंग की ज़्यादा क्षमता को ऐक्सेस करने के लिए मैनेज की गई सेवाएं.

  • Vertex AI: Google Cloud का पूरी तरह से मैनेज किया गया एआई प्लैटफ़ॉर्म. एसएलए और स्केलिंग की सुविधा की ज़रूरत वाले एंटरप्राइज़ ऐप्लिकेशन के लिए सबसे सही.
  • Google Cloud Kubernetes Engine (GKE): इसका इस्तेमाल, अपने सर्विंग क्लस्टर को व्यवस्थित करने के लिए किया जाता है.
  • vLLM: यह एक ऐसा इंजन है जो तेज़ी से और कम मेमोरी में अनुमान लगाता है और सेवा देता है. इसका इस्तेमाल अक्सर क्लाउड डिप्लॉयमेंट में किया जाता है.

पक्का करें कि आपने जिस फ़्रेमवर्क को चुना है वह Gemma मॉडल के उस फ़ॉर्मैट के साथ काम करता हो जिसे आपको डिप्लॉय करना है. जैसे, Keras का बिल्ट-इन फ़ॉर्मैट, Safetensors या GGUF.

Gemma का कोई वैरिएंट चुनें

Gemma मॉडल, कई वर्शन और साइज़ में उपलब्ध हैं. इनमें फ़ाउंडेशन या कोर Gemma मॉडल के साथ-साथ, PaliGemma और DataGemma जैसे ज़्यादा खास मॉडल वर्शन शामिल हैं. इसके अलावा, एआई डेवलपर कम्यूनिटी ने Kaggle और Hugging Face जैसी साइटों पर कई वर्शन बनाए हैं. अगर आपको यह नहीं पता कि किस वैरिएंट से शुरुआत करनी चाहिए, तो पैरामीटर की सबसे कम संख्या वाला, निर्देश के मुताबिक फ़ाइन-ट्यून किया गया (आईटी) Gemma core का नया मॉडल चुनें. इस तरह के Gemma मॉडल के लिए, कम कंप्यूटिंग पावर की ज़रूरत होती है. साथ ही, यह अलग-अलग तरह के प्रॉम्प्ट के जवाब दे सकता है. इसके लिए, इसे ज़्यादा डेवलप करने की ज़रूरत नहीं होती.

Gemma का कोई वैरिएंट चुनते समय, इन बातों का ध्यान रखें:

  • Gemma Core और अन्य वैरिएंट फ़ैमिली, जैसे कि PaliGemma, CodeGemma: Gemma (Core) का सुझाव दें. Gemma के मुख्य वर्शन के अलावा, अन्य वैरिएंट का आर्किटेक्चर मुख्य मॉडल जैसा ही होता है. इन्हें खास टास्क को बेहतर तरीके से पूरा करने के लिए ट्रेन किया जाता है. अगर आपका ऐप्लिकेशन या लक्ष्य, Gemma के किसी खास वैरिएंट की विशेषज्ञता के मुताबिक नहीं है, तो सबसे अच्छा तरीका यह है कि आप Gemma के कोर या बेस मॉडल से शुरुआत करें.
  • निर्देशों के मुताबिक तैयार किया गया (आईटी), पहले से ट्रेन किया गया (पीटी), फ़ाइन-ट्यून किया गया (एफ़टी), मिक्स (मिक्स): आईटी का सुझाव दें.
    • निर्देशों के मुताबिक काम करने वाले (आईटी) Gemma के वैरिएंट ऐसे मॉडल हैं जिन्हें इंसानी भाषा में दिए गए अलग-अलग निर्देशों या अनुरोधों का जवाब देने के लिए ट्रेन किया गया है. इन मॉडल वैरिएंट से शुरुआत करना सबसे सही है, क्योंकि ये मॉडल को ट्रेनिंग दिए बिना ही प्रॉम्प्ट के जवाब दे सकते हैं.
    • प्री-ट्रेन किए गए (पीटी) Gemma के वैरिएंट ऐसे मॉडल होते हैं जिन्हें भाषा या अन्य डेटा के बारे में अनुमान लगाने के लिए ट्रेन किया गया है. हालांकि, इन्हें इंसानों के निर्देशों का पालन करने के लिए ट्रेन नहीं किया गया है. इन मॉडल को टास्क को असरदार तरीके से पूरा करने के लिए, अतिरिक्त ट्रेनिंग या ट्यूनिंग की ज़रूरत होती है. ये मॉडल, शोधकर्ताओं या डेवलपर के लिए बनाए गए हैं. ये लोग, मॉडल और उसके आर्किटेक्चर की क्षमताओं का अध्ययन करना या उन्हें डेवलप करना चाहते हैं.
    • फ़ाइन-ट्यून किए गए (FT) Gemma के वैरिएंट को आईटी वैरिएंट माना जा सकता है. हालांकि, इन्हें आम तौर पर किसी खास टास्क को पूरा करने या जनरेटिव एआई के किसी खास बेंचमार्क पर बेहतर परफ़ॉर्म करने के लिए ट्रेन किया जाता है. PaliGemma वैरिएंट फ़ैमिली में, कई FT वैरिएंट शामिल हैं.
    • मिक्स (मिक्स) Gemma वैरिएंट, PaliGemma मॉडल के ऐसे वर्शन हैं जिन्हें अलग-अलग तरह के निर्देशों के साथ ट्यून किया गया है. ये सामान्य इस्तेमाल के लिए सही हैं.
  • पैरामीटर: सबसे कम उपलब्ध संख्या का सुझाव दें. आम तौर पर, किसी मॉडल में जितने ज़्यादा पैरामीटर होते हैं वह उतना ही बेहतर होता है. हालांकि, बड़े मॉडल को चलाने के लिए, बड़े और ज़्यादा जटिल कंप्यूट संसाधनों की ज़रूरत होती है. साथ ही, इससे आम तौर पर एआई ऐप्लिकेशन के डेवलपमेंट की प्रोसेस धीमी हो जाती है. अगर आपको लगता है कि Gemma का छोटा मॉडल आपकी ज़रूरतों को पूरा नहीं कर सकता, तो कम पैरामीटर वाला मॉडल चुनें.
  • क्वांटाइज़ेशन लेवल: ट्यूनिंग को छोड़कर, हाफ़ प्रिसिशन (16-बिट) का सुझाव दिया जाता है. क्वांटाइज़ेशन एक मुश्किल विषय है. यह इस बात पर निर्भर करता है कि डेटा का साइज़ और सटीक जानकारी कितनी है. साथ ही, जनरेटिव एआई मॉडल, कैलकुलेशन करने और जवाब जनरेट करने के लिए कितनी मेमोरी का इस्तेमाल करता है. जब किसी मॉडल को ज़्यादा सटीक डेटा के साथ ट्रेन किया जाता है, तो आम तौर पर यह 32-बिट फ़्लोटिंग पॉइंट डेटा होता है. इसके बाद, Gemma जैसे मॉडल में बदलाव करके, कम सटीक डेटा का इस्तेमाल किया जा सकता है. जैसे, 16, 8 या 4-बिट साइज़. क्वांटाइज़ किए गए ये Gemma मॉडल, अब भी अच्छी परफ़ॉर्मेंस दे सकते हैं. हालांकि, यह इस बात पर निर्भर करता है कि टास्क कितना मुश्किल है. साथ ही, ये मॉडल कंप्यूट और मेमोरी के संसाधनों का इस्तेमाल काफ़ी कम करते हैं. हालांकि, क्वान्टाइज़ किए गए मॉडल को ट्यून करने के लिए टूल सीमित हैं. साथ ही, हो सकता है कि वे एआई डेवलपमेंट के लिए चुने गए फ़्रेमवर्क में उपलब्ध न हों. आम तौर पर, आपको Gemma जैसे मॉडल को पूरी सटीकता के साथ फ़ाइन-ट्यून करना होगा. इसके बाद, नतीजे के तौर पर मिले मॉडल को क्वांटाइज़ करना होगा.

Google के पब्लिश किए गए मुख्य Gemma मॉडल की सूची देखने के लिए, Gemma मॉडल इस्तेमाल करना शुरू करें लेख में दी गई Gemma मॉडल की सूची देखें.

जनरेशन और अनुमान के अनुरोधों को पूरा करना

एआई एक्ज़ीक्यूशन फ़्रेमवर्क और Gemma का कोई वैरिएंट चुनने के बाद, मॉडल को चलाना शुरू किया जा सकता है. साथ ही, उसे कॉन्टेंट जनरेट करने या टास्क पूरे करने के लिए प्रॉम्प्ट किया जा सकता है. किसी फ़्रेमवर्क के साथ Gemma को चलाने के तरीके के बारे में ज़्यादा जानने के लिए, कोई फ़्रेमवर्क चुनें सेक्शन में दिए गए लिंक पर जाएं.

प्रॉम्प्ट फ़ॉर्मैट करना

निर्देशों के मुताबिक तैयार किए गए Gemma के सभी वैरिएंट के लिए, प्रॉम्प्ट फ़ॉर्मैट करने से जुड़ी कुछ खास ज़रूरी शर्तें हैं. फ़ॉर्मैटिंग से जुड़ी इनमें से कुछ ज़रूरी शर्तों को, Gemma मॉडल चलाने के लिए इस्तेमाल किया जाने वाला फ़्रेमवर्क अपने-आप पूरा कर देता है. हालांकि, प्रॉम्प्ट डेटा को सीधे तौर पर टोकनाइज़र को भेजते समय, आपको कुछ टैग जोड़ने होंगे. साथ ही, टैग करने से जुड़ी ज़रूरी शर्तें, इस्तेमाल किए जा रहे Gemma के वर्शन के हिसाब से बदल सकती हैं. Gemma के अलग-अलग वर्शन के लिए प्रॉम्प्ट फ़ॉर्मैट करने और सिस्टम के निर्देशों के बारे में जानकारी पाने के लिए, यहां दी गई गाइड देखें: