इंटरैक्टिव इमेज सेगमेंटेशन के लिए टास्क गाइड

MediaPipe के इंटरैक्टिव इमेज सेगमेंटर टास्क की मदद से, किसी इमेज को दो क्षेत्रों में बांटा जा सकता है: चुना गया ऑब्जेक्ट और बाकी सब कुछ. यह टास्क, इमेज में मौजूद जगह की जानकारी लेता है. साथ ही, उस जगह पर मौजूद किसी ऑब्जेक्ट की सीमाओं का अनुमान लगाता है और ऑब्जेक्ट के इलाके के बारे में बताने वाला इमेज डेटा दिखाता है. इस टास्क का इस्तेमाल, इमेज में मौजूद किसी ऑब्जेक्ट को इंटरैक्टिव तरीके से चुनने के लिए किया जा सकता है. साथ ही, आउटपुट का इस्तेमाल इमेज पर इफ़ेक्ट लागू करने के लिए किया जा सकता है. जैसे, ऑब्जेक्ट को हाइलाइट करने या उसके आस-पास के बैकग्राउंड को धुंधला करने के लिए रंग ओवरले. यह टास्क, मशीन लर्निंग (एमएल) मॉडल वाली इमेज डेटा से जुड़ा होता है. इसका इस्तेमाल किसी एक इमेज, वीडियो फ़ाइल या लगातार वीडियो स्ट्रीम पर किया जा सकता है.

इसे आज़माएं!

शुरू करें

अपने टारगेट प्लैटफ़ॉर्म के लिए, इनमें से किसी एक को लागू करने की गाइड का पालन करके इस टास्क का इस्तेमाल शुरू करें. इन प्लैटफ़ॉर्म की गाइड में, इस टास्क को लागू करने की बुनियादी जानकारी दी जाती है. इसमें, सुझाए गए मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड के उदाहरण भी शामिल होते हैं:

टास्क की जानकारी

इस सेक्शन में इस टास्क की क्षमताओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.

सुविधाएं

  • इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में, इमेज को घुमाना, उसका साइज़ बदलना, नॉर्मलाइज़ेशन, और कलर स्पेस में बदलाव करना शामिल है.
टास्क के इनपुट टास्क के आउटपुट
  • किसी इमेज में मौजूद किसी ऑब्जेक्ट के लिए लोकप्रिय जगह के निर्देशांक
  • प्रोसेस की जाने वाली इमेज फ़ाइल
इंटरैक्टिव इमेज सेगमेंटर, अलग-अलग सेगमेंट की इमेज का डेटा देता है. इसमें, आपके सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर, इनमें से कोई एक या दोनों शामिल हो सकते हैं:
  • CATEGORY_MASK: ऐसी सूची जिसमें सेगमेंट किया गया मास्क uint8 फ़ॉर्मैट इमेज के तौर पर मौजूद है. हर पिक्सल की वैल्यू से पता चलता है कि यह पसंद की जगह पर मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.
  • CONFIDENCE_MASK: उन चैनलों की सूची जिनमें पिक्सल वैल्यू वाले सेगमेंट किए हुए मास्क हों और फ़्लोट32 फ़ॉर्मैट में हों. हर पिक्सल की वैल्यू कॉन्फ़िडेंस लेवल के बारे में बताती है कि यह पसंद की जगह पर मौजूद ऑब्जेक्ट का हिस्सा है.

कॉन्फ़िगरेशन के विकल्प

इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:

विकल्प का नाम ब्यौरा वैल्यू रेंज डिफ़ॉल्ट मान
output_category_mask अगर इसे True पर सेट किया जाता है, तो आउटपुट में uint8 इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. यहां हर पिक्सल वैल्यू से पता चलता है कि पिक्सल पसंद की जगह पर मौजूद ऑब्जेक्ट का हिस्सा है या नहीं. {True, False} False
output_confidence_masks अगर इसे True पर सेट किया जाता है, तो आउटपुट में सेगमेंटेशन मास्क को फ़्लोट वैल्यू इमेज के तौर पर शामिल किया जाता है. यहां हर फ़्लोट वैल्यू से यह पता चलता है कि पिक्सल, पसंदीदा जगह पर मौजूद ऑब्जेक्ट का हिस्सा है. {True, False} True
display_names_locale अगर यह उपलब्ध हो, तो टास्क के मॉडल के मेटाडेटा में दिए गए डिसप्ले नेम के लिए, लेबल की भाषा सेट करता है. अंग्रेज़ी के लिए डिफ़ॉल्ट रूप से en है. TensorFlow Lite Metadata Writer API का इस्तेमाल करके, कस्टम मॉडल के मेटाडेटा में स्थानीय भाषा के हिसाब से लेबल जोड़े जा सकते हैं स्थान-भाषा का कोड en

मॉडल

इंटरैक्टिव इमेज सेगमेंटर को एक से ज़्यादा एमएल मॉडल के साथ इस्तेमाल किया जा सकता है. इस टास्क के साथ डेवलप करना शुरू करने पर, अपने टारगेट प्लैटफ़ॉर्म के लिए सुझाए गए डिफ़ॉल्ट मॉडल से शुरुआत करें. आम तौर पर, अन्य उपलब्ध मॉडल में परफ़ॉर्मेंस, सटीक होने, रिज़ॉल्यूशन, और संसाधन की ज़रूरी शर्तों के बीच ट्रेड-ऑफ़ होता है. कुछ मामलों में, अतिरिक्त सुविधाएं शामिल होती हैं.

यह मॉडल, उन सेगमेंट की पहचान करता है जिनमें पसंद की जगह के लिए इमेज कोऑर्डिनेट दिए गए हैं. इस मॉडल में, पसंद के मुताबिक बनाए गए डिकोडर वाले MobileNetV3 आर्किटेक्चर की तरह ही, कन्वोलूशनल न्यूरल नेटवर्क का इस्तेमाल किया जाता है.

मॉडल का नाम इनपुट का आकार क्वांटाइज़ेशन का टाइप मॉडल कार्ड वर्शन
MagicTouch 512 x 512 x 4 कोई नहीं (फ़्लोट32) जानकारी नए

टास्क के मानदंड

यहां पहले से ट्रेन किए गए मॉडल पर आधारित पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. इंतज़ार के समय का नतीजा यह पता चलता है कि Pixel 6 को सीपीयू / जीपीयू का इस्तेमाल करके औसतन इंतज़ार किया जा सकता है.

मॉडल का नाम सीपीयू (CPU) के इस्तेमाल में होने वाला समय जीपीयू इंतज़ार का समय
MagicTouch 130.11 मि॰से॰ 67.25 मि॰से॰