पेश है Google AI Edge Portal: बड़े पैमाने पर एज एआई का बेंचमार्क. निजी झलक के दौरान ऐक्सेस का अनुरोध करने के लिए, साइन-अप करें.

इंटरैक्टिव इमेज सेगमेंटेशन के लिए टास्क गाइड

एक-दूसरे के बगल में मौजूद इमेज, जिनमें एक इमेज में कुर्सी की फ़ोटो और दूसरी इमेज में उसी फ़ोटो में कुर्सी को हाइलाइट किया गया है. इससे पता चलता है कि मॉडल ने कुर्सी का पता लगाया है

MediaPipe इंटरैक्टिव इमेज सेगमेंटर टास्क की मदद से, किसी इमेज को दो हिस्सों में बांटा जा सकता है: चुना गया ऑब्जेक्ट और बाकी हिस्सा. यह टास्क, किसी इमेज में किसी जगह को चुनता है और उस जगह पर मौजूद ऑब्जेक्ट की सीमाओं का अनुमान लगाता है. साथ ही, ऑब्जेक्ट के एरिया की जानकारी देने वाली इमेज का डेटा दिखाता है. इस टास्क का इस्तेमाल करके, किसी इमेज में किसी ऑब्जेक्ट को इंटरैक्टिव तरीके से चुना जा सकता है. साथ ही, इमेज पर इफ़ेक्ट लागू करने के लिए, आउटपुट का इस्तेमाल किया जा सकता है. जैसे, ऑब्जेक्ट को हाइलाइट करने वाले कलर ओवरले या उसके आस-पास के बैकग्राउंड को धुंधला करना. यह टास्क, मशीन लर्निंग (एमएल) मॉडल की मदद से इमेज डेटा पर काम करता है. इसका इस्तेमाल, एक इमेज, वीडियो फ़ाइल या लगातार चलने वाली वीडियो स्ट्रीम पर किया जा सकता है.

इसे आज़माएं!

शुरू करें

अपने टारगेट प्लैटफ़ॉर्म के लिए, लागू करने से जुड़ी इनमें से किसी एक गाइड का पालन करके, इस टास्क का इस्तेमाल शुरू करें. प्लैटफ़ॉर्म के हिसाब से बनी इन गाइड में, इस टास्क को लागू करने का बुनियादी तरीका बताया गया है. इनमें सुझाया गया मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड का उदाहरण भी शामिल है:

टास्क की जानकारी

इस सेक्शन में, इस टास्क की सुविधाओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.

सुविधाएं

इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में इमेज को घुमाना, उसका साइज़ बदलना, सामान्य करना, और कलर स्पेस कन्वर्ज़न शामिल है.

टास्क के इनपुट टास्क के आउटपुट

टास्क के इनपुट	टास्क के आउटपुट
इमेज में मौजूद किसी ऑब्जेक्ट के लिए, पॉइंट ऑफ़ इंटरेस्ट के निर्देशांक प्रोसेस की जाने वाली इमेज फ़ाइल	इंटरैक्टिव इमेज सेगमेंटर, सेगमेंट की गई इमेज का डेटा दिखाता है. इसमें, सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर, इनमें से एक या दोनों शामिल हो सकते हैं: `CATEGORY_MASK`: एक सूची, जिसमें uint8 फ़ॉर्मैट की इमेज के तौर पर, सेगमेंट वाला मास्क शामिल है. हर पिक्सल वैल्यू से पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं. `CONFIDENCE_MASK`: चैनलों की सूची, जिसमें फ़्लोट32 फ़ॉर्मैट में पिक्सल वैल्यू वाला सेगमेंटेड मास्क शामिल है. हर पिक्सल वैल्यू से यह पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

इमेज में मौजूद किसी ऑब्जेक्ट के लिए, पॉइंट ऑफ़ इंटरेस्ट के निर्देशांक
प्रोसेस की जाने वाली इमेज फ़ाइल

इंटरैक्टिव इमेज सेगमेंटर, सेगमेंट की गई इमेज का डेटा दिखाता है. इसमें, सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर, इनमें से एक या दोनों शामिल हो सकते हैं:

CATEGORY_MASK: एक सूची, जिसमें uint8 फ़ॉर्मैट की इमेज के तौर पर, सेगमेंट वाला मास्क शामिल है. हर पिक्सल वैल्यू से पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

CONFIDENCE_MASK: चैनलों की सूची, जिसमें फ़्लोट32 फ़ॉर्मैट में पिक्सल वैल्यू वाला सेगमेंटेड मास्क शामिल है. हर पिक्सल वैल्यू से यह पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

कॉन्फ़िगरेशन के विकल्प

इस टास्क के लिए, कॉन्फ़िगरेशन के ये विकल्प उपलब्ध हैं:

विकल्प का नाम	ब्यौरा	वैल्यू की रेंज	डिफ़ॉल्ट मान
`output_category_mask`	अगर इसे `True` पर सेट किया जाता है, तो आउटपुट में uint8 इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. इसमें हर पिक्सल की वैल्यू से पता चलता है कि पिक्सल, दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.	{`True, False`}	`False`
`output_confidence_masks`	अगर `True` पर सेट किया जाता है, तो आउटपुट में फ़्लोट वैल्यू वाली इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. इसमें हर फ़्लोट वैल्यू, इस बात की संभावना दिखाती है कि पिक्सल, दिलचस्पी के इलाके में मौजूद ऑब्जेक्ट का हिस्सा है.	{`True, False`}	`True`
`display_names_locale`	टास्क के मॉडल के मेटाडेटा में दिए गए डिसप्ले नेम के लिए, लेबल की भाषा सेट करता है. हालांकि, ऐसा तब ही किया जाता है, जब वह भाषा उपलब्ध हो. अंग्रेज़ी के लिए, डिफ़ॉल्ट तौर पर `en` होता है. TensorFlow Lite मेटाडेटा राइटर एपीआई का इस्तेमाल करके, कस्टम मॉडल के मेटाडेटा में स्थानीय भाषा के लेबल जोड़े जा सकते हैं	स्थानीय भाषा का कोड	en

मॉडल

इंटरैक्टिव इमेज सेगमेंटर का इस्तेमाल, एक से ज़्यादा एमएल मॉडल के साथ किया जा सकता है. इस टास्क के साथ डेवलपमेंट शुरू करते समय, अपने टारगेट प्लैटफ़ॉर्म के लिए डिफ़ॉल्ट और सुझाए गए मॉडल का इस्तेमाल करें. आम तौर पर, उपलब्ध अन्य मॉडल में परफ़ॉर्मेंस, सटीक जानकारी, रिज़ॉल्यूशन, और संसाधनों की ज़रूरतों के बीच समझौता किया जाता है. साथ ही, कुछ मामलों में इनमें अतिरिक्त सुविधाएं भी शामिल होती हैं.

MagicTouch मॉडल (सुझाया गया)

यह मॉडल, किसी खास इलाके के लिए इमेज के निर्देशांकों के आधार पर सेगमेंट की पहचान करता है. यह मॉडल, कस्टमाइज़ किए गए डिकोडर के साथ, MobileNetV3 आर्किटेक्चर की तरह ही कॉन्वोल्यूशनल न्यूरल नेटवर्क का इस्तेमाल करता है.

मॉडल का नाम	इनपुट का आकार	क्वांटाइज़ेशन का टाइप	मॉडल कार्ड	वर्शन
MagicTouch	512 x 512 x 4	कोई नहीं (float32)	info	हाल ही के अपडेट

टास्क के मानदंड

यहां पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. ये मानदंड, ऊपर दिए गए पहले से ट्रेन किए गए मॉडल पर आधारित हैं. इंतज़ार का समय, सीपीयू / जीपीयू का इस्तेमाल करके Pixel 6 पर औसत इंतज़ार का समय होता है.

मॉडल का नाम	सीपीयू के इंतज़ार का समय	जीपीयू में इंतज़ार का समय
MagicTouch	130.11 मिलीसेकंड	67.25 मिलीसेकंड