Gemma मॉडल कार्ड को एम्बेड करना

मॉडल पेज: EmbeddingGemma

संसाधन और तकनीकी दस्तावेज़:

इस्तेमाल की शर्तें: शर्तें

लेखक: Google DeepMind

मॉडल की जानकारी

इनपुट और आउटपुट के बारे में कम शब्दों में जानकारी और परिभाषा.

ब्यौरा

EmbeddingGemma, Google का एक ओपन एम्बेडिंग मॉडल है. इसमें 30 करोड़ पैरामीटर हैं. यह अपने साइज़ के हिसाब से बेहतरीन मॉडल है. इसे Gemma 3 (T5Gemma के साथ) से बनाया गया है. साथ ही, इसमें Gemini मॉडल में इस्तेमाल की गई रिसर्च और टेक्नोलॉजी का इस्तेमाल किया गया है. EmbeddingGemma, टेक्स्ट के वेक्टर बनाता है. इसलिए, यह खोज और जानकारी वापस पाने से जुड़े कामों के लिए सबसे सही है. जैसे, क्लासिफ़िकेशन, क्लस्टरिंग, और सिमैंटिक सिमिलैरिटी सर्च. इस मॉडल को 100 से ज़्यादा भाषाओं में उपलब्ध डेटा का इस्तेमाल करके ट्रेन किया गया है.

इसका साइज़ छोटा है और यह डिवाइस पर ही काम करता है. इसलिए, इसे मोबाइल फ़ोन, लैपटॉप या डेस्कटॉप जैसे सीमित संसाधनों वाले डिवाइसों पर भी इस्तेमाल किया जा सकता है. इससे, सभी को बेहतरीन एआई मॉडल का ऐक्सेस मिलता है और इनोवेशन को बढ़ावा मिलता है.

ज़्यादा तकनीकी जानकारी के लिए, हमारा यह पेपर पढ़ें: EmbeddingGemma: Powerful and Lightweight Text Representations.

इनपुट और आउटपुट

  • इनपुट:

    • टेक्स्ट स्ट्रिंग, जैसे कि कोई सवाल, प्रॉम्प्ट या एम्बेड किया जाने वाला दस्तावेज़
    • इनपुट कॉन्टेक्स्ट की ज़्यादा से ज़्यादा लंबाई 2K
  • आउटपुट:

    • इनपुट किए गए टेक्स्ट डेटा के संख्यात्मक वेक्टर रिप्रज़ेंटेशन
    • आउटपुट एम्बेडिंग डाइमेंशन का साइज़ 768 है. Matryoshka Representation Learning (MRL) के ज़रिए, छोटे साइज़ (512, 256 या 128) के विकल्प उपलब्ध हैं. MRL की मदद से, उपयोगकर्ता आउटपुट एम्बेडिंग को 768 से अपने हिसाब से साइज़ में काट सकते हैं. इसके बाद, बेहतर और सटीक तरीके से दिखाने के लिए, इसे फिर से सामान्य कर सकते हैं.

उद्धरण

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

मॉडल डेटा

ट्रेनिंग के लिए इस्तेमाल किया गया डेटासेट

इस मॉडल को टेक्स्ट डेटा के एक डेटासेट पर ट्रेन किया गया था. इसमें अलग-अलग सोर्स से लिया गया डेटा शामिल है. इसमें कुल मिलाकर करीब 320 अरब टोकन हैं. यहां मुख्य कॉम्पोनेंट दिए गए हैं:

  • वेब दस्तावेज़: वेब टेक्स्ट के अलग-अलग कलेक्शन से यह पक्का होता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में जानकारी मिले. ट्रेनिंग डेटासेट में, 100 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
  • कोड और तकनीकी दस्तावेज़: मॉडल को कोड और तकनीकी दस्तावेज़ों के बारे में जानकारी देने से, उसे प्रोग्रामिंग भाषाओं के स्ट्रक्चर और पैटर्न के साथ-साथ खास वैज्ञानिक कॉन्टेंट के बारे में जानने में मदद मिलती है. इससे, उसे कोड और तकनीकी सवालों को बेहतर तरीके से समझने में मदद मिलती है.
  • सिंथेटिक और टास्क के हिसाब से डेटा: सिंथेटिक ट्रेनिंग डेटा से, मॉडल को खास कौशल सिखाने में मदद मिलती है. इसमें जानकारी हासिल करना, क्लासिफ़िकेशन, और भावनाओं का विश्लेषण जैसे टास्क के लिए तैयार किया गया डेटा शामिल है. इससे, सामान्य एम्बेडिंग ऐप्लिकेशन के लिए इसकी परफ़ॉर्मेंस को बेहतर बनाने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स को मिलाकर, एक ऐसा मल्टीलिंग्वल एम्बेडिंग मॉडल तैयार किया जाता है जो कई तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा प्रीप्रोसेसिंग

ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:

  • सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रक्रिया लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
  • संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमैटिक तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
  • अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

मॉडल डेवलपमेंट

हार्डवेयर

EmbeddingGemma को टेंसर प्रोसेसिंग यूनिट (टीपीयू) के नए जनरेशन (TPUv5e) के हार्डवेयर का इस्तेमाल करके ट्रेन किया गया है. ज़्यादा जानकारी के लिए, Gemma 3 मॉडल कार्ड देखें.

सॉफ़्टवेयर

इस मॉडल को JAX और ML Pathways का इस्तेमाल करके ट्रेन किया गया है. ज़्यादा जानकारी के लिए, Gemma 3 मॉडल कार्ड देखें.

आकलन

बेंचमार्क के नतीजे

टेक्स्ट को समझने के अलग-अलग पहलुओं को कवर करने के लिए, मॉडल का आकलन अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था.

पूरी सटीक जानकारी वाला चेकपॉइंट

MTEB (Multilingual, v2)
डाइमेंशन की संख्या Mean (Task) Mean (TaskType)
768 दिन 61.15 54.31
512 दिन 60.71 53.89
256 दिन 59.68 53.01
128 दिन 58.23 51.77
MTEB (अंग्रेज़ी, v2)
डाइमेंशन की संख्या Mean (Task) Mean (TaskType)
768 दिन 69.67 65.11
512 दिन 69.18 64.59
256 दिन 68.37 64.02
128 दिन 66.66 62.70
MTEB (Code, v1)
डाइमेंशन की संख्या Mean (Task) Mean (TaskType)
768 दिन 68.76 68.76
512 दिन 68.48 68.48
256 दिन 66.74 66.74
128 दिन 62.96 62.96

QAT चेकपॉइंट

MTEB (Multilingual, v2)
क्वांट कॉन्फ़िगरेशन (डाइमेंशनलिटी) Mean (Task) Mean (TaskType)
मिक्स्ड प्रीसिज़न* (768d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB (अंग्रेज़ी, v2)
क्वांट कॉन्फ़िगरेशन (डाइमेंशनलिटी) Mean (Task) Mean (TaskType)
मिक्स्ड प्रीसिज़न* (768d) 69.32 64.82
Q8_0 (768d) 69.49 64.84
Q4_0 (768d) 69.31 64.65
MTEB (Code, v1)
क्वांट कॉन्फ़िगरेशन (डाइमेंशनलिटी) Mean (Task) Mean (TaskType)
मिक्स्ड प्रीसिज़न* (768d) 68.03 68.03
Q8_0 (768d) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* मिक्स्ड प्रिसिशन का मतलब है कि एम्बेडिंग, फ़ीडफ़ॉरवर्ड, और प्रोजेक्शन लेयर के लिए int4 और अटेंशन के लिए int8 के साथ, हर चैनल के हिसाब से क्वांटाइज़ेशन (e4_a8_f4_p4).

प्रॉम्प्ट के निर्देश

EmbeddingGemma, इस्तेमाल के अलग-अलग उदाहरणों के लिए ऑप्टिमाइज़ किए गए एम्बेडिंग जनरेट कर सकता है. जैसे, दस्तावेज़ ढूंढना, सवालों के जवाब देना, और तथ्यों की पुष्टि करना. इसके अलावा, यह खास तरह के इनपुट के लिए भी एम्बेडिंग जनरेट कर सकता है. जैसे, क्वेरी या दस्तावेज़. इसके लिए, यह ऐसे प्रॉम्प्ट का इस्तेमाल करता है जिन्हें इनपुट स्ट्रिंग से पहले जोड़ा जाता है.

क्वेरी प्रॉम्प्ट, task: {task description} | query: फ़ॉर्मैट में होते हैं. इसमें टास्क का ब्यौरा, इस्तेमाल के उदाहरण के हिसाब से अलग-अलग होता है. डिफ़ॉल्ट टास्क का ब्यौरा search result होता है. दस्तावेज़ के स्टाइल वाले प्रॉम्प्ट, इस फ़ॉर्मैट में होते हैं title: {title | "none"} | text:. इसमें टाइटल, none (डिफ़ॉल्ट) या दस्तावेज़ का असली टाइटल होता है. ध्यान दें कि अगर कोई टाइटल उपलब्ध है, तो उसे देने से दस्तावेज़ के प्रॉम्प्ट के लिए मॉडल की परफ़ॉर्मेंस बेहतर होगी. हालांकि, इसके लिए आपको मैन्युअल तरीके से फ़ॉर्मैटिंग करनी पड़ सकती है.

इस्तेमाल के उदाहरण और इनपुट डेटा टाइप के आधार पर, यहां दिए गए प्रॉम्प्ट का इस्तेमाल करें. ये विकल्प, आपके चुने गए मॉडलिंग फ़्रेमवर्क में EmbeddingGemma के कॉन्फ़िगरेशन में पहले से उपलब्ध हो सकते हैं.


इस्तेमाल का उदाहरण (टास्क टाइप ईनम)

ब्यौरा

सुझाया गया प्रॉम्प्ट

जानकारी पाना (क्वेरी)

इस कुकी का इस्तेमाल, ऐसे एम्बेडिंग जनरेट करने के लिए किया जाता है जिन्हें दस्तावेज़ खोजने या जानकारी पाने के लिए ऑप्टिमाइज़ किया गया हो

टास्क: खोज के नतीजे | क्वेरी: {content}

डेटा वापस पाना (दस्तावेज़)

title: {title | "none"} | text: {content}

सवाल के जवाब देना

टास्क: सवालों के जवाब देना | क्वेरी: {content}

तथ्यों की पुष्टि करना

टास्क: तथ्यों की जांच करना | क्वेरी: {content}

कैटगरी

इस कुकी का इस्तेमाल, एम्बेड किए गए ऐसे कॉन्टेंट को जनरेट करने के लिए किया जाता है जिसे पहले से तय किए गए लेबल के हिसाब से टेक्स्ट को कैटगरी में बांटने के लिए ऑप्टिमाइज़ किया गया हो

टास्क: कैटगरी तय करना | क्वेरी: {content}

क्लस्टरिंग

इस कुकी का इस्तेमाल, ऐसे एम्बेडिंग जनरेट करने के लिए किया जाता है जिन्हें समानता के आधार पर टेक्स्ट को क्लस्टर करने के लिए ऑप्टिमाइज़ किया जाता है

task: clustering | query: {content}

मिलते-जुलते मतलब

इसका इस्तेमाल, ऐसे एम्बेडिंग जनरेट करने के लिए किया जाता है जिन्हें टेक्स्ट की समानता का आकलन करने के लिए ऑप्टिमाइज़ किया गया है. इसे डेटा वापस पाने के लिए नहीं बनाया गया है.

टास्क: वाक्य की समानता | क्वेरी: {content}

कोड वापस पाना

इस कुकी का इस्तेमाल, आम भाषा में की गई क्वेरी के आधार पर कोड ब्लॉक को वापस पाने के लिए किया जाता है. जैसे, ऐरे को क्रम से लगाएं या लिंक की गई सूची को उलटें. कोड ब्लॉक की एम्बेडिंग, retrieval_document का इस्तेमाल करके कैलकुलेट की जाती हैं.

task: code retrieval | query: {content}

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

ओपन एम्बेडिंग मॉडल का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में किया जा सकता है. इस्तेमाल के संभावित उदाहरणों की यह सूची पूरी नहीं है. इस सूची का मकसद, मॉडल के इस्तेमाल के संभावित उदाहरणों के बारे में जानकारी देना है. मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान इन उदाहरणों को ध्यान में रखा था.

  • मिलते-जुलते मतलब: टेक्स्ट की समानता का आकलन करने के लिए, ऑप्टिमाइज़ किए गए एम्बेडिंग. जैसे, सुझाव देने वाले सिस्टम और डुप्लीकेट का पता लगाने की सुविधा
  • क्लासिफ़िकेशन: एम्बेडिंग को पहले से सेट किए गए लेबल के हिसाब से टेक्स्ट को क्लासिफ़ाई करने के लिए ऑप्टिमाइज़ किया जाता है. जैसे, भावना का विश्लेषण करना और स्पैम का पता लगाना
  • क्लस्टरिंग: एम्बेडिंग को इस तरह से ऑप्टिमाइज़ किया जाता है कि वे टेक्स्ट को उनकी समानता के आधार पर क्लस्टर कर सकें. जैसे, दस्तावेज़ व्यवस्थित करना, मार्केट रिसर्च करना, और गड़बड़ी का पता लगाना
  • जानकारी पाना

    • दस्तावेज़: दस्तावेज़ खोजने के लिए ऑप्टिमाइज़ की गई एम्बेडिंग. जैसे, खोज के लिए लेख, किताबें या वेब पेज इंडेक्स करना
    • क्वेरी: सामान्य खोज क्वेरी के लिए ऑप्टिमाइज़ किए गए एम्बेडिंग, जैसे कि कस्टम सर्च
    • कोड क्वेरी: ये एम्बेडिंग, कोड ब्लॉक को वापस पाने के लिए ऑप्टिमाइज़ की जाती हैं. ये कोड ब्लॉक, नैचुरल लैंग्वेज क्वेरी पर आधारित होते हैं. जैसे, कोड के सुझाव और खोज
  • सवाल के जवाब देना: सवाल-जवाब वाले सिस्टम में सवालों के लिए एम्बेडिंग. इन्हें ऐसे दस्तावेज़ ढूंढने के लिए ऑप्टिमाइज़ किया जाता है जिनमें सवाल का जवाब दिया गया हो. जैसे, चैटबॉक्स.

  • तथ्यों की पुष्टि करना: ऐसे बयानों के लिए एम्बेडिंग जिनकी पुष्टि करना ज़रूरी है. इन्हें ऐसे दस्तावेज़ों को वापस पाने के लिए ऑप्टिमाइज़ किया जाता है जिनमें बयान की पुष्टि करने या उसका खंडन करने के सबूत शामिल होते हैं. जैसे, तथ्यों की अपने-आप जांच करने वाले सिस्टम.

सीमाएं

  • ट्रेनिंग के लिए डेटा

    • ट्रेनिंग डेटा की क्वालिटी और विविधता, मॉडल की क्षमताओं पर काफ़ी असर डालती है. ट्रेनिंग वाले डेटा में पक्षपात या कोई जानकारी मौजूद न होने से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
    • ट्रेनिंग डेटासेट का स्कोप यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
  • भाषा से जुड़ी अस्पष्टता और बारीकियां

    • नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.

नैतिक तौर पर अहम बातें और जोखिम

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

  • पूर्वाग्रहों को बढ़ावा मिलना: मॉडल को ट्रेनिंग देने, फ़ाइन-ट्यून करने, और अन्य इस्तेमाल के मामलों के दौरान, लगातार मॉनिटर करने (आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा का इस्तेमाल करके) और पूर्वाग्रहों को कम करने की तकनीकों का इस्तेमाल करने का सुझाव दिया जाता है.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: तकनीकी सीमाओं और डेवलपर और उपयोगकर्ता को जानकारी देने से, एम्बेडिंग के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने में मदद मिल सकती है. लोगों को शिक्षा से जुड़े संसाधन और शिकायत करने के तरीके उपलब्ध कराए जाते हैं, ताकि वे इस सुविधा के गलत इस्तेमाल की शिकायत कर सकें. Gemma मॉडल के इस्तेमाल पर पाबंदी से जुड़ी जानकारी, Gemma के इस्तेमाल पर पाबंदी से जुड़ी नीति में दी गई है.
  • निजता के उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटा दिया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता के कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.

फ़ायदे

रिलीज़ के समय, मॉडल के इस फ़ैमिली में, बेहतर परफ़ॉर्मेंस देने वाले ओपन एम्बेडिंग मॉडल के ऐसे वर्शन उपलब्ध हैं जिन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, नए सिरे से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर परफ़ॉर्म करते हैं. इस दस्तावेज़ में बताई गई बेंचमार्क के आकलन की मेट्रिक का इस्तेमाल करके, इन मॉडल ने अन्य ओपन मॉडल की तुलना में बेहतर परफ़ॉर्मेंस दिखाई है.