Gemini API में एम्बेड करने की सेवा, शब्दों, वाक्यांशों, और वाक्यों के लिए बेहतरीन एम्बेडिंग जनरेट करती है. इसके बाद, एम्बेड किए गए इसका इस्तेमाल एनएलपी के कई कामों में किया जा सकता है. जैसे, सिमैंटिक खोज, टेक्स्ट की कैटगरी तय करना, और क्लस्टरिंग. इस पेज पर बताया गया है कि एम्बेड करना क्या होता है. साथ ही, इसमें एम्बेड करने की सेवा शुरू करने के लिए, इस्तेमाल के कुछ मुख्य उदाहरणों को भी हाइलाइट किया गया है.
एम्बेड करना क्या होता है?
टेक्स्ट एम्बेड करना, नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) की तकनीक है, जो टेक्स्ट को न्यूमेरिक वेक्टर में बदल देती है. एम्बेड करने से सिमैंटिक मतलब और संदर्भ कैप्चर होता है. जिस वजह से मिलते-जुलते मतलब वाले टेक्स्ट में करीब-करीब एक-दूसरे को एम्बेड किया जाता है. उदाहरण के लिए, "मैं अपने कुत्ते को पशु चिकित्सक के पास ले गया" और "मैं अपनी बिल्ली को पशु चिकित्सक के पास ले गया" वाक्य में ऐसे एम्बेड हो सकते थे जो वेक्टर स्पेस में एक-दूसरे के करीब हों, क्योंकि वे दोनों एक जैसे संदर्भ को बताते हैं.
यह ज़रूरी है, क्योंकि इससे ऐसे कई एल्गोरिदम अनलॉक हो जाते हैं जो वेक्टर पर तो काम कर सकते हैं, लेकिन सीधे टेक्स्ट पर नहीं.
अलग-अलग टेक्स्ट की तुलना करने और यह समझने के लिए कि वे आपस में कैसे जुड़े हैं, इन एम्बेडिंग या वेक्टर का इस्तेमाल किया जा सकता है. उदाहरण के लिए, अगर टेक्स्ट "बिल्ली" और "कुत्ते" का एम्बेड किया गया हिस्सा एक-दूसरे के करीब है, तो इससे यह अनुमान लगाया जा सकता है कि इन शब्दों का मतलब या कॉन्टेक्स्ट या दोनों एक जैसे हैं. इस सुविधा को इस्तेमाल करने के अलग-अलग मामलों की जानकारी दी जाती है. इस बारे में अगले सेक्शन में बताया गया है.
इस्तेमाल के उदाहरण
टेक्स्ट एम्बेड करने से, एनएलपी को कई तरह से इस्तेमाल किया जा सकता है. उदाहरण के लिए:
- जानकारी वापस पाना: इसका मकसद इनपुट टेक्स्ट के तौर पर एक जैसे टेक्स्ट को फिर से हासिल करना होता है. जानकारी इकट्ठा करने वाले सिस्टम के साथ कई तरह के ऐप्लिकेशन काम कर सकते हैं. जैसे- सिमैंटिक खोज, सवालों के जवाब देना या कम शब्दों में जानकारी देना. उदाहरण के लिए, दस्तावेज़ सर्च नोटबुक देखें.
- क्लासिफ़िकेशन: दस्तावेज़ों को कैटगरी में बांटने के लिए, मॉडल को ट्रेनिंग देने के लिए एम्बेड करने की सुविधा का इस्तेमाल किया जा सकता है. उदाहरण के लिए, अगर आपको उपयोगकर्ता की टिप्पणियों को नेगेटिव या पॉज़िटिव के तौर पर मार्क करना है, तो एम्बेड करने की सेवा का इस्तेमाल करें. इससे क्लासिफ़ायर को ट्रेनिंग देने के लिए, हर टिप्पणी का वेक्टर दिखाया जाएगा. ज़्यादा जानकारी के लिए, Gemini क्लासिफ़िकेशन टूल का उदाहरण देखें.
- क्लस्टरिंग: टेक्स्ट के वेक्टर की तुलना करने से यह पता चल सकता है कि वे कितने मिलते-जुलते हैं या अलग-अलग हैं. इस सुविधा का इस्तेमाल, ऐसे क्लस्टरिंग मॉडल को ट्रेनिंग देने के लिए किया जा सकता है जो मिलते-जुलते टेक्स्ट या दस्तावेज़ों को एक साथ ग्रुप करता है. साथ ही, अपने डेटा में गड़बड़ियों का पता लगाने के लिए भी इस सुविधा का इस्तेमाल किया जा सकता है.
- वेक्टर DB: आप अपने NLP ऐप्लिकेशन की सटीकता और क्षमता को बेहतर बनाने के लिए अपने जनरेट किए गए एम्बेड को वेक्टर DB में स्टोर कर सकते हैं. टेक्स्ट प्रॉम्प्ट को संख्या वाले वेक्टर में अनुवाद करने के लिए, वेक्टर DB इस्तेमाल करने का तरीका जानने के लिए यह पेज देखें.
इलास्टिक एम्बेड करना
Gemini टेक्स्ट एम्बेडिंग मॉडल की शुरुआत text-embedding-004
से होगी. इस मॉडल में 768 से कम इलास्टिक एम्बेडिंग साइज़ उपलब्ध हैं. इलास्टिक एम्बेडिंग का इस्तेमाल करके, छोटे आउटपुट डाइमेंशन जनरेट किए जा सकते हैं. इससे, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ कंप्यूटिंग और स्टोरेज की लागत में भी बचत की जा सकती है.
आगे क्या करना है
- अगर आप डेवलप करने के लिए तैयार हैं, तो Python, Go, Node.js, और Dart (Flutter) के लिए क्विकस्टार्ट में आपको पूरा रन करने लायक कोड मिल जाएगा.