पेश है LiteRT: यह, डिवाइस में मौजूद एआई के लिए Google की बेहतरीन परफ़ॉर्मेंस वाला रनटाइम है. इसे पहले TensorFlow Lite के नाम से जाना जाता था.

इस पेज का अनुवाद Cloud Translation API से किया गया है.

इंटरैक्टिव इमेज सेगमेंटेशन के लिए टास्क गाइड

एक-दूसरे के बगल में मौजूद इमेज, जिनमें एक इमेज में कुर्सी की फ़ोटो और दूसरी इमेज में उसी फ़ोटो में कुर्सी को हाइलाइट किया गया है. इससे पता चलता है कि मॉडल ने कुर्सी का पता लगाया है

MediaPipe इंटरैक्टिव इमेज सेगमेंटर टास्क की मदद से, किसी इमेज को दो हिस्सों में बांटा जा सकता है: चुना गया ऑब्जेक्ट और बाकी हिस्सा. यह टास्क, किसी इमेज में किसी जगह को चुनता है और उस जगह पर मौजूद ऑब्जेक्ट की सीमाओं का अनुमान लगाता है. साथ ही, ऑब्जेक्ट के एरिया की जानकारी देने वाली इमेज का डेटा दिखाता है. इस टास्क का इस्तेमाल करके, किसी इमेज में किसी ऑब्जेक्ट को इंटरैक्टिव तरीके से चुना जा सकता है. साथ ही, इमेज पर इफ़ेक्ट लागू करने के लिए, आउटपुट का इस्तेमाल किया जा सकता है. जैसे, ऑब्जेक्ट को हाइलाइट करने वाले कलर ओवरले या उसके आस-पास के बैकग्राउंड को धुंधला करना. यह टास्क, मशीन लर्निंग (एमएल) मॉडल की मदद से इमेज डेटा पर काम करता है. इसका इस्तेमाल, एक इमेज, वीडियो फ़ाइल या लगातार चलने वाली वीडियो स्ट्रीम पर किया जा सकता है.

इसे आज़माएं!

शुरू करें

अपने टारगेट प्लैटफ़ॉर्म के लिए, लागू करने से जुड़ी इनमें से किसी एक गाइड का पालन करके, इस टास्क का इस्तेमाल शुरू करें. प्लैटफ़ॉर्म के हिसाब से बनी इन गाइड में, इस टास्क को लागू करने का बुनियादी तरीका बताया गया है. इनमें सुझाया गया मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड का उदाहरण भी शामिल है:

टास्क की जानकारी

इस सेक्शन में, इस टास्क की सुविधाओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.

सुविधाएं

इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में इमेज को घुमाना, उसका साइज़ बदलना, सामान्य करना, और कलर स्पेस कन्वर्ज़न शामिल है.

टास्क के इनपुट टास्क के आउटपुट

टास्क के इनपुट	टास्क के आउटपुट
इमेज में मौजूद किसी ऑब्जेक्ट के लिए, पॉइंट ऑफ़ इंटरेस्ट के निर्देशांक प्रोसेस की जाने वाली इमेज फ़ाइल	इंटरैक्टिव इमेज सेगमेंटर, सेगमेंट की गई इमेज का डेटा दिखाता है. इसमें, सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर, इनमें से एक या दोनों शामिल हो सकते हैं: `CATEGORY_MASK`: एक सूची, जिसमें uint8 फ़ॉर्मैट की इमेज के तौर पर, सेगमेंट वाला मास्क शामिल है. हर पिक्सल वैल्यू से पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं. `CONFIDENCE_MASK`: चैनलों की सूची, जिसमें फ़्लोट32 फ़ॉर्मैट में पिक्सल वैल्यू वाला सेगमेंटेड मास्क शामिल है. हर पिक्सल वैल्यू से यह पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

इमेज में मौजूद किसी ऑब्जेक्ट के लिए, पॉइंट ऑफ़ इंटरेस्ट के निर्देशांक
प्रोसेस की जाने वाली इमेज फ़ाइल

इंटरैक्टिव इमेज सेगमेंटर, सेगमेंट की गई इमेज का डेटा दिखाता है. इसमें, सेट किए गए कॉन्फ़िगरेशन के विकल्पों के आधार पर, इनमें से एक या दोनों शामिल हो सकते हैं:

CATEGORY_MASK: एक सूची, जिसमें uint8 फ़ॉर्मैट की इमेज के तौर पर, सेगमेंट वाला मास्क शामिल है. हर पिक्सल वैल्यू से पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

CONFIDENCE_MASK: चैनलों की सूची, जिसमें फ़्लोट32 फ़ॉर्मैट में पिक्सल वैल्यू वाला सेगमेंटेड मास्क शामिल है. हर पिक्सल वैल्यू से यह पता चलता है कि वह दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.

कॉन्फ़िगरेशन के विकल्प

इस टास्क के लिए, कॉन्फ़िगरेशन के ये विकल्प उपलब्ध हैं:

विकल्प का नाम	ब्यौरा	वैल्यू की रेंज	डिफ़ॉल्ट मान
`output_category_mask`	अगर इसे `True` पर सेट किया जाता है, तो आउटपुट में uint8 इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. इसमें हर पिक्सल की वैल्यू से पता चलता है कि पिक्सल, दिलचस्पी के क्षेत्र में मौजूद ऑब्जेक्ट का हिस्सा है या नहीं.	{`True, False`}	`False`
`output_confidence_masks`	अगर `True` पर सेट किया जाता है, तो आउटपुट में फ़्लोट वैल्यू वाली इमेज के तौर पर सेगमेंटेशन मास्क शामिल होता है. इसमें हर फ़्लोट वैल्यू, इस बात की संभावना दिखाती है कि पिक्सल, दिलचस्पी के इलाके में मौजूद ऑब्जेक्ट का हिस्सा है.	{`True, False`}	`True`
`display_names_locale`	टास्क के मॉडल के मेटाडेटा में दिए गए डिसप्ले नेम के लिए, लेबल की भाषा सेट करता है. हालांकि, ऐसा तब ही किया जाता है, जब वह भाषा उपलब्ध हो. अंग्रेज़ी के लिए, डिफ़ॉल्ट तौर पर `en` होता है. TensorFlow Lite मेटाडेटा राइटर एपीआई का इस्तेमाल करके, कस्टम मॉडल के मेटाडेटा में स्थानीय भाषा के लेबल जोड़े जा सकते हैं	स्थानीय भाषा का कोड	en

मॉडल

इंटरैक्टिव इमेज सेगमेंटर का इस्तेमाल, एक से ज़्यादा एमएल मॉडल के साथ किया जा सकता है. इस टास्क के साथ डेवलपमेंट शुरू करते समय, अपने टारगेट प्लैटफ़ॉर्म के लिए डिफ़ॉल्ट और सुझाए गए मॉडल का इस्तेमाल करें. आम तौर पर, उपलब्ध अन्य मॉडल में परफ़ॉर्मेंस, सटीक जानकारी, रिज़ॉल्यूशन, और संसाधनों की ज़रूरतों के बीच समझौता किया जाता है. साथ ही, कुछ मामलों में इनमें अतिरिक्त सुविधाएं भी शामिल होती हैं.

MagicTouch मॉडल (सुझाया गया)

यह मॉडल, किसी खास इलाके के लिए इमेज के निर्देशांकों के आधार पर सेगमेंट की पहचान करता है. यह मॉडल, कस्टमाइज़ किए गए डिकोडर के साथ, MobileNetV3 आर्किटेक्चर की तरह ही कॉन्वोल्यूशनल न्यूरल नेटवर्क का इस्तेमाल करता है.

मॉडल का नाम	इनपुट का आकार	क्वांटाइज़ेशन का टाइप	मॉडल कार्ड	वर्शन
MagicTouch	512 x 512 x 4	कोई नहीं (float32)	info	हाल ही के अपडेट

टास्क के मानदंड

यहां पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. ये मानदंड, ऊपर दिए गए पहले से ट्रेन किए गए मॉडल पर आधारित हैं. इंतज़ार का समय, सीपीयू / जीपीयू का इस्तेमाल करके Pixel 6 पर औसत इंतज़ार का समय होता है.

मॉडल का नाम	सीपीयू के इंतज़ार का समय	जीपीयू में इंतज़ार का समय
MagicTouch	130.11 मिलीसेकंड	67.25 मिलीसेकंड