चेहरे की पहचान गाइड

MediaPipe Face Detector टास्क की मदद से, किसी इमेज या वीडियो में मौजूद चेहरों का पता लगाया जा सकता है. इस टास्क का इस्तेमाल, एक फ़्रेम में चेहरों और चेहरे के हाव-भाव का पता लगाने के लिए किया जा सकता है. इस टास्क में मशीन लर्निंग (एमएल) मॉडल का इस्तेमाल किया जाता है. यह मॉडल एक इमेज या लगातार स्ट्रीम होने वाली इमेज के साथ काम करता है. इस टास्क में, चेहरे की जगह की जानकारी के साथ-साथ चेहरे की जानकारी भी दिखाई जाती है: बायां आंख, दाहिनी आंख, नाक की नोक, मुंह, बाईं आंख की ट्रैजिशन, और दाहिनी आंख की ट्रैजिशन.

इसे आज़माएं!

शुरू करें

अपने टारगेट प्लैटफ़ॉर्म के लिए, इनमें से किसी एक को लागू करने की गाइड का पालन करके इस टास्क का इस्तेमाल शुरू करें. इन प्लैटफ़ॉर्म की गाइड में, इस टास्क को लागू करने की बुनियादी जानकारी दी जाती है. इसमें, सुझाए गए मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्पों के साथ कोड के उदाहरण भी शामिल होते हैं:

टास्क की जानकारी

इस सेक्शन में इस टास्क की क्षमताओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के विकल्पों के बारे में बताया गया है.

सुविधाएं

  • इनपुट इमेज प्रोसेसिंग - प्रोसेसिंग में, इमेज को घुमाना, उसका साइज़ बदलना, उसे नॉर्मलाइज़ेशन, और कलर स्पेस में बदलाव करना शामिल होता है.
  • स्कोर थ्रेशोल्ड - अनुमान के स्कोर के आधार पर नतीजों को फ़िल्टर करें.
टास्क के इनपुट टास्क के आउटपुट
फ़ेस डिटेक्टर, इनमें से किसी एक तरह के डेटा के इनपुट को स्वीकार करता है:
  • स्टिल इमेज
  • डिकोड किए गए वीडियो फ़्रेम
  • लाइव वीडियो फ़ीड
चेहरे की पहचान करने वाले टूल से ये नतीजे मिलते हैं:
  • इमेज फ़्रेम में, पहचाने गए चेहरों के लिए बाउंडिंग बॉक्स.
  • पहचाने गए प्रत्येक चेहरे के लिए 6 चेहरा लैंडमार्क के लिए निर्देशांक.

कॉन्फ़िगरेशन के विकल्प

इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:

विकल्प का नाम ब्यौरा वैल्यू रेंज डिफ़ॉल्ट मान
running_mode टास्क के लिए, रनिंग मोड सेट करता है. इसके तीन मोड होते हैं:

इमेज: सिंगल इमेज इनपुट के लिए मोड.

वीडियो: वीडियो के डिकोड किए गए फ़्रेम का मोड.

LIVE_STREAM: इनपुट डेटा की लाइव स्ट्रीम का मोड, जैसे कि कैमरे से स्ट्रीम किया जाने वाला मोड. इस मोड में, रिज़ल्ट पहचानकर्ता को लिसनर को सेट अप करने के लिए कॉल किया जाना चाहिए, ताकि वह एसिंक्रोनस तरीके से नतीजे पा सके.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
min_detection_confidence चेहरे की पहचान के लिए ज़रूरी सबसे कम कॉन्फ़िडेंस स्कोर. इस स्कोर को बेहतर माना जाता है. Float [0,1] 0.5
min_suppression_threshold चेहरे की पहचान के लिए, नॉन-ज़्यादा से ज़्यादा सप्रेशन की सीमा, ताकि उसे ओवरलैप माना जा सके. Float [0,1] 0.3
result_callback जब फ़ेस डिटेक्टर लाइव स्ट्रीम मोड में हो, तो नतीजे लिसनर को पहचान के नतीजों को एसिंक्रोनस तरीके से पाने के लिए सेट करता है. इसे सिर्फ़ तब इस्तेमाल किया जा सकता है, जब रनिंग मोड LIVE_STREAM पर सेट हो. N/A Not set

मॉडल

चेहरे की पहचान करने वाले मॉडल, अपने इस्तेमाल के उदाहरण के हिसाब से अलग-अलग हो सकते हैं. जैसे- कम रेंज और लंबी दूरी की पहचान. आम तौर पर, मॉडल में परफ़ॉर्मेंस, सटीक होने, रिज़ॉल्यूशन, और संसाधन की ज़रूरतों के बीच संतुलन बनाने का विकल्प होता है. कुछ मामलों में, अतिरिक्त सुविधाएं भी शामिल की जाती हैं.

इस सेक्शन में दिए गए मॉडल BlazeFace के वैरिएंट हैं, जो मोबाइल जीपीयू अनुमान के लिए ऑप्टिमाइज़ किया गया लाइटवेट और सटीक फ़ेस डिटेक्टर है. BlazeFace मॉडल ऐप्लिकेशन के लिए सही है. जैसे, 3D कीपॉइंट का अनुमान लगाना, चेहरे पर अलग-अलग हाव-भाव दिखाना, और चेहरे के हिसाब से सेगमेंट बनाना. BlazeFace, MobileNetV1/V2 से मिलते-जुलते लाइटवेट सुविधा एक्सट्रैक्शन नेटवर्क का इस्तेमाल करता है.

BlazeFace (कम-रेंज)

यह एक लाइटवेट मॉडल है, जो स्मार्टफ़ोन कैमरे या वेबकैम से ली गई सेल्फ़ी जैसी तस्वीरों में से एक या एक से ज़्यादा चेहरों की पहचान करता है. इस मॉडल को, छोटी रेंज में सामने वाले फ़ोन के कैमरे से ली गई इमेज के लिए ऑप्टिमाइज़ किया गया है. इस मॉडल में, कस्टम एन्कोडर के साथ सिंगल शॉट डिटेक्टर (एसएसडी) कॉन्वलूशनल नेटवर्क तकनीक का इस्तेमाल किया जाता है. ज़्यादा जानकारी के लिए, सिंगल शॉट मल्टीबॉक्स डिटेक्टर पर रिसर्च पेपर देखें.

मॉडल का नाम इनपुट का आकार क्वांटाइज़ेशन का टाइप मॉडल कार्ड वर्शन
BlazeFace (कम रेंज वाले) 128 x 128 फ़्लोट 16 जानकारी नए

BlazeFace (फ़ुल-रेंज)

यह एक हल्का मॉडल है, जो स्मार्टफ़ोन कैमरे या वेबकैम से ली गई इमेज में एक या एक से ज़्यादा चेहरों की पहचान करता है. इस मॉडल को पूरी रेंज वाली इमेज के लिए ऑप्टिमाइज़ किया गया है. जैसे, फ़ोन के पीछे वाले कैमरे से ली गई इमेज. मॉडल आर्किटेक्चर, कस्टम एन्कोडर के साथ CenterNet कॉन्वलूशनल नेटवर्क से मिलती-जुलती तकनीक का इस्तेमाल करता है.

मॉडल का नाम इनपुट का आकार क्वांटाइज़ेशन का टाइप मॉडल कार्ड वर्शन
BlazeFace (फ़ुल-रेंज) 128 x 128 फ़्लोट 16 जानकारी जल्द आ रहा है

BlazeFace Sprse (फ़ुल-रेंज)

सामान्य, पूरी रेंज वाले BlazeFace मॉडल का हल्का वर्शन, जो साइज़ में करीब 60% छोटा होता है. इस मॉडल को पूरी रेंज वाली इमेज के लिए ऑप्टिमाइज़ किया गया है, जैसे कि फ़ोन के पीछे वाले कैमरे से ली गई इमेज. मॉडल आर्किटेक्चर में, कस्टम एन्कोडर के साथ CenterNet कॉन्वलूशनल नेटवर्क से मिलती-जुलती तकनीक का इस्तेमाल किया जाता है.

मॉडल का नाम इनपुट का आकार क्वांटाइज़ेशन का टाइप मॉडल कार्ड वर्शन
BlazeFace Sprse (फ़ुल-रेंज) 128 x 128 फ़्लोट 16 जानकारी जल्द आ रहा है

टास्क के मानदंड

यहां पहले से ट्रेन किए गए मॉडल पर आधारित पूरी पाइपलाइन के लिए टास्क के मानदंड दिए गए हैं. इंतज़ार के समय का नतीजा यह पता चलता है कि Pixel 6 को सीपीयू / जीपीयू का इस्तेमाल करके औसतन इंतज़ार किया जा सकता है.

मॉडल का नाम सीपीयू (CPU) के इस्तेमाल में होने वाला समय जीपीयू इंतज़ार का समय
BlazeFace (कम-रेंज) 2.94 मिलीसेकंड 7.41 मि॰से॰