MediaPipe Face Detector टास्क की मदद से, किसी इमेज या वीडियो में मौजूद चेहरों का पता लगाया जा सकता है. इस टास्क का इस्तेमाल, एक फ़्रेम में चेहरों और चेहरे के हाव-भाव का पता लगाने के लिए किया जा सकता है. इस टास्क में मशीन लर्निंग (एमएल) मॉडल का इस्तेमाल किया जाता है. यह मॉडल एक इमेज या लगातार स्ट्रीम होने वाली इमेज के साथ काम करता है. इस टास्क में, चेहरे की जगह की जानकारी के साथ-साथ चेहरे की जानकारी भी दिखाई जाती है: बायां आंख, दाहिनी आंख, नाक की नोक, मुंह, बाईं आंख की ट्रैजिशन, और दाहिनी आंख की ट्रैजिशन.
शुरू करें
अपने टारगेट प्लैटफ़ॉर्म के लिए, इनमें से किसी एक को लागू करने की गाइड का पालन करके इस टास्क का इस्तेमाल शुरू करें. इन प्लैटफ़ॉर्म की गाइड में, इस टास्क को लागू करने की बुनियादी जानकारी दी जाती है. इसमें, सुझाए गए मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड के उदाहरण भी शामिल होते हैं:
- Android - कोड उदाहरण - गाइड
- Python - कोड का उदाहरण- गाइड
- वेब - कोड का उदाहरण - गाइड
- iOS - कोड का उदाहरण - गाइड
टास्क की जानकारी
इस सेक्शन में इस टास्क की क्षमताओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.
सुविधाएं
- इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में, इमेज को घुमाना, उसका साइज़ बदलना, उसे नॉर्मलाइज़ेशन, और कलर स्पेस में बदलाव करना शामिल होता है.
- स्कोर थ्रेशोल्ड - अनुमान के स्कोर के आधार पर नतीजों को फ़िल्टर करें.
टास्क के इनपुट | टास्क के आउटपुट |
---|---|
फ़ेस डिटेक्टर, इनमें से किसी एक तरह के डेटा के इनपुट को स्वीकार करता है:
|
चेहरे की पहचान करने वाले टूल से ये नतीजे मिलते हैं:
|
कॉन्फ़िगरेशन के विकल्प
इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:
विकल्प का नाम | ब्यौरा | वैल्यू रेंज | डिफ़ॉल्ट मान |
---|---|---|---|
running_mode |
टास्क के लिए, रनिंग मोड सेट करता है. इसके तीन मोड होते हैं: इमेज: सिंगल इमेज इनपुट के लिए मोड. वीडियो: वीडियो के डिकोड किए गए फ़्रेम का मोड. LIVE_STREAM: इनपुट डेटा की लाइव स्ट्रीम का मोड, जैसे कि कैमरे से स्ट्रीम किया जाने वाला मोड. इस मोड में, रिज़ल्ट पहचानकर्ता को लिसनर को सेट अप करने के लिए कॉल किया जाना चाहिए, ताकि वह एसिंक्रोनस तरीके से नतीजे पा सके. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
min_detection_confidence |
चेहरे की पहचान के लिए ज़रूरी सबसे कम कॉन्फ़िडेंस स्कोर. इस स्कोर को बेहतर माना जाता है. | Float [0,1] |
0.5 |
min_suppression_threshold |
चेहरे की पहचान के लिए, नॉन-ज़्यादा से ज़्यादा सप्रेशन की सीमा, ताकि उसे ओवरलैप माना जा सके. | Float [0,1] |
0.3 |
result_callback |
जब फ़ेस डिटेक्टर लाइव स्ट्रीम मोड में हो, तो नतीजे लिसनर को
पहचान के नतीजों को एसिंक्रोनस तरीके से पाने के लिए सेट करता है. इसे सिर्फ़ तब इस्तेमाल किया जा सकता है, जब रनिंग मोड LIVE_STREAM पर सेट हो. |
N/A |
Not set |
मॉडल
चेहरे की पहचान करने वाले मॉडल, अपने इस्तेमाल के उदाहरण के हिसाब से अलग-अलग हो सकते हैं. जैसे- कम रेंज और लंबी दूरी की पहचान. आम तौर पर, मॉडल में परफ़ॉर्मेंस, सटीक होने, रिज़ॉल्यूशन, और संसाधन की ज़रूरतों के बीच संतुलन बनाने का विकल्प होता है. कुछ मामलों में, अतिरिक्त सुविधाएं भी शामिल की जाती हैं.
इस सेक्शन में दिए गए मॉडल BlazeFace के वैरिएंट हैं, जो मोबाइल जीपीयू अनुमान के लिए ऑप्टिमाइज़ किया गया लाइटवेट और सटीक फ़ेस डिटेक्टर है. BlazeFace मॉडल ऐप्लिकेशन के लिए सही है. जैसे, 3D कीपॉइंट का अनुमान लगाना, चेहरे पर अलग-अलग हाव-भाव दिखाना, और चेहरे के हिसाब से सेगमेंट बनाना. BlazeFace, MobileNetV1/V2 से मिलते-जुलते लाइटवेट सुविधा एक्सट्रैक्शन नेटवर्क का इस्तेमाल करता है.
BlazeFace (कम-रेंज)
यह एक लाइटवेट मॉडल है, जो स्मार्टफ़ोन कैमरे या वेबकैम से ली गई सेल्फ़ी जैसी तस्वीरों में से एक या एक से ज़्यादा चेहरों की पहचान करता है. इस मॉडल को, छोटी रेंज में सामने वाले फ़ोन के कैमरे से ली गई इमेज के लिए ऑप्टिमाइज़ किया गया है. इस मॉडल में, कस्टम एन्कोडर के साथ सिंगल शॉट डिटेक्टर (एसएसडी) कॉन्वलूशनल नेटवर्क तकनीक का इस्तेमाल किया जाता है. ज़्यादा जानकारी के लिए, सिंगल शॉट मल्टीबॉक्स डिटेक्टर पर रिसर्च पेपर देखें.
मॉडल का नाम | इनपुट का आकार | क्वांटाइज़ेशन का टाइप | मॉडल कार्ड | वर्शन |
---|---|---|---|---|
BlazeFace (कम रेंज वाले) | 128 x 128 | फ़्लोट 16 | जानकारी | नए |
BlazeFace (फ़ुल-रेंज)
यह एक हल्का मॉडल है, जो स्मार्टफ़ोन कैमरे या वेबकैम से ली गई इमेज में एक या एक से ज़्यादा चेहरों की पहचान करता है. इस मॉडल को पूरी रेंज वाली इमेज के लिए ऑप्टिमाइज़ किया गया है. जैसे, फ़ोन के पीछे वाले कैमरे से ली गई इमेज. मॉडल आर्किटेक्चर, कस्टम एन्कोडर के साथ CenterNet कॉन्वलूशनल नेटवर्क से मिलती-जुलती तकनीक का इस्तेमाल करता है.
मॉडल का नाम | इनपुट का आकार | क्वांटाइज़ेशन का टाइप | मॉडल कार्ड | वर्शन |
---|---|---|---|---|
BlazeFace (फ़ुल-रेंज) | 128 x 128 | फ़्लोट 16 | जानकारी | जल्द आ रहा है |
BlazeFace Sprse (फ़ुल-रेंज)
सामान्य, पूरी रेंज वाले BlazeFace मॉडल का हल्का वर्शन, जो साइज़ में करीब 60% छोटा होता है. इस मॉडल को पूरी रेंज वाली इमेज के लिए ऑप्टिमाइज़ किया गया है, जैसे कि फ़ोन के पीछे वाले कैमरे से ली गई इमेज. मॉडल आर्किटेक्चर में, कस्टम एन्कोडर के साथ CenterNet कॉन्वलूशनल नेटवर्क से मिलती-जुलती तकनीक का इस्तेमाल किया जाता है.
मॉडल का नाम | इनपुट का आकार | क्वांटाइज़ेशन का टाइप | मॉडल कार्ड | वर्शन |
---|---|---|---|---|
BlazeFace Sprse (फ़ुल-रेंज) | 128 x 128 | फ़्लोट 16 | जानकारी | जल्द आ रहा है |
टास्क के मानदंड
यहां पहले से ट्रेन किए गए मॉडल पर आधारित पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. इंतज़ार के समय का नतीजा यह पता चलता है कि Pixel 6 को सीपीयू / जीपीयू का इस्तेमाल करके औसतन इंतज़ार किया जा सकता है.
मॉडल का नाम | सीपीयू (CPU) के इस्तेमाल में होने वाला समय | जीपीयू इंतज़ार का समय |
---|---|---|
BlazeFace (कम-रेंज) | 2.94 मिलीसेकंड | 7.41 मि॰से॰ |