MediaPipe के इंटरैक्टिव इमेज सेगमेंटर टास्क की मदद से, किसी इमेज को दो क्षेत्रों में बांटा जा सकता है: चुना गया ऑब्जेक्ट और बाकी सब कुछ. यह टास्क, इमेज में मौजूद जगह की जानकारी लेता है. साथ ही, उस जगह पर मौजूद किसी ऑब्जेक्ट की सीमाओं का अनुमान लगाता है और ऑब्जेक्ट के इलाके के बारे में बताने वाला इमेज डेटा दिखाता है. इस टास्क का इस्तेमाल, इमेज में मौजूद किसी ऑब्जेक्ट को इंटरैक्टिव तरीके से चुनने के लिए किया जा सकता है. साथ ही, आउटपुट का इस्तेमाल इमेज पर इफ़ेक्ट लागू करने के लिए किया जा सकता है. जैसे, ऑब्जेक्ट को हाइलाइट करने या उसके आस-पास के बैकग्राउंड को धुंधला करने के लिए रंग ओवरले. यह टास्क, मशीन लर्निंग (एमएल) मॉडल वाली इमेज डेटा से जुड़ा होता है. इसका इस्तेमाल किसी एक इमेज, वीडियो फ़ाइल या लगातार वीडियो स्ट्रीम पर किया जा सकता है.
शुरू करें
अपने टारगेट प्लैटफ़ॉर्म के लिए, इनमें से किसी एक को लागू करने की गाइड का पालन करके इस टास्क का इस्तेमाल शुरू करें. इन प्लैटफ़ॉर्म की गाइड में, इस टास्क को लागू करने की बुनियादी जानकारी दी जाती है. इसमें, सुझाए गए मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड के उदाहरण भी शामिल होते हैं:
- Android - कोड का उदाहरण - गाइड
- Python - कोड का उदाहरण - गाइड
- वेब - कोड का उदाहरण - गाइड
टास्क की जानकारी
इस सेक्शन में इस टास्क की क्षमताओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.
सुविधाएं
- इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में, इमेज को घुमाना, उसका साइज़ बदलना, नॉर्मलाइज़ेशन, और कलर स्पेस में बदलाव करना शामिल है.
टास्क के इनपुट | टास्क के आउटपुट |
---|---|
|
इंटरैक्टिव इमेज सेगमेंटर, अलग-अलग सेगमेंट की इमेज का डेटा देता है. इसमें, आपके सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर,
इनमें से कोई एक या दोनों शामिल हो सकते हैं:
|
कॉन्फ़िगरेशन के विकल्प
इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:
विकल्प का नाम | ब्यौरा | वैल्यू रेंज | डिफ़ॉल्ट मान |
---|---|---|---|
output_category_mask |
अगर इसे True पर सेट किया जाता है, तो आउटपुट में uint8 इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. यहां हर पिक्सल वैल्यू से पता चलता है कि पिक्सल पसंद की जगह पर मौजूद ऑब्जेक्ट का हिस्सा है या नहीं. |
{True, False } |
False |
output_confidence_masks |
अगर इसे True पर सेट किया जाता है, तो आउटपुट में सेगमेंटेशन मास्क
को फ़्लोट वैल्यू इमेज के तौर पर शामिल किया जाता है. यहां हर फ़्लोट वैल्यू से यह पता चलता है कि
पिक्सल, पसंदीदा जगह पर मौजूद ऑब्जेक्ट का हिस्सा है. |
{True, False } |
True |
display_names_locale |
अगर यह उपलब्ध हो, तो टास्क के मॉडल के मेटाडेटा में दिए गए डिसप्ले नेम के लिए, लेबल की भाषा सेट करता है. अंग्रेज़ी के लिए डिफ़ॉल्ट रूप से en
है. TensorFlow Lite Metadata Writer API का इस्तेमाल करके, कस्टम मॉडल के मेटाडेटा में
स्थानीय भाषा के हिसाब से लेबल जोड़े जा सकते हैं
| स्थान-भाषा का कोड | en |
मॉडल
इंटरैक्टिव इमेज सेगमेंटर को एक से ज़्यादा एमएल मॉडल के साथ इस्तेमाल किया जा सकता है. इस टास्क के साथ डेवलप करना शुरू करने पर, अपने टारगेट प्लैटफ़ॉर्म के लिए सुझाए गए डिफ़ॉल्ट मॉडल से शुरुआत करें. आम तौर पर, अन्य उपलब्ध मॉडल में परफ़ॉर्मेंस, सटीक होने, रिज़ॉल्यूशन, और संसाधन की ज़रूरी शर्तों के बीच ट्रेड-ऑफ़ होता है. कुछ मामलों में, अतिरिक्त सुविधाएं शामिल होती हैं.
MagicTouch मॉडल (सुझाया गया)
यह मॉडल, उन सेगमेंट की पहचान करता है जिनमें पसंद की जगह के लिए इमेज कोऑर्डिनेट दिए गए हैं. इस मॉडल में, पसंद के मुताबिक बनाए गए डिकोडर वाले MobileNetV3 आर्किटेक्चर की तरह ही, कन्वोलूशनल न्यूरल नेटवर्क का इस्तेमाल किया जाता है.
मॉडल का नाम | इनपुट का आकार | क्वांटाइज़ेशन का टाइप | मॉडल कार्ड | वर्शन |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | कोई नहीं (फ़्लोट32) | जानकारी | नए |
टास्क के मानदंड
यहां पहले से ट्रेन किए गए मॉडल पर आधारित पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. इंतज़ार के समय का नतीजा यह पता चलता है कि Pixel 6 को सीपीयू / जीपीयू का इस्तेमाल करके औसतन इंतज़ार किया जा सकता है.
मॉडल का नाम | सीपीयू (CPU) के इस्तेमाल में होने वाला समय | जीपीयू इंतज़ार का समय |
---|---|---|
MagicTouch | 130.11 मि॰से॰ | 67.25 मि॰से॰ |