MediaPipe इमेज क्लासिफ़ायर टास्क की मदद से आप इमेज को क्लासिफ़िकेशन कर सकते हैं. इस टास्क का इस्तेमाल करके, यह पता किया जा सकता है कि ट्रेनिंग के दौरान बताई गई कैटगरी के सेट में से, कौनसी इमेज सही है. ये निर्देश आपको Python के साथ इमेज क्लासिफ़ायर इस्तेमाल करने का तरीका बताते हैं.
वेब डेमो में जाकर, इस टास्क को देखा जा सकता है. इस टास्क की क्षमताओं, मॉडल, और कॉन्फ़िगरेशन विकल्पों के बारे में ज़्यादा जानकारी के लिए, खास जानकारी देखें.
कोड का उदाहरण
इमेज क्लासिफ़ायर के लिए उदाहरण कोड में आपके रेफ़रंस के लिए Python में इस टास्क को पूरी तरह से लागू करने का तरीका बताया गया है. यह कोड इस टास्क को टेस्ट करने और इमेज क्लासिफ़ायर बनाने का काम शुरू करने में आपकी मदद करता है. आप बस अपने वेब ब्राउज़र का इस्तेमाल करके, Image Classifier उदाहरण कोड को देख सकते हैं, चला सकते हैं, और उसमें बदलाव कर सकते हैं.
अगर Raspबेरी Pi के लिए इमेज क्लासिफ़ायर लागू किया जा रहा है, तो Raspबेरी Pi का उदाहरण ऐप्लिकेशन देखें.
सेटअप
इस सेक्शन में, डेवलपमेंट एनवायरमेंट को सेट अप करने के मुख्य चरणों के बारे में बताया गया है. साथ ही, ऐसे कोड प्रोजेक्ट के बारे में भी बताया गया है जो खास तौर पर इमेज क्लासिफ़ायर इस्तेमाल करने के लिए इस्तेमाल किए जाते हैं. MediaPipe टास्क का इस्तेमाल करने के लिए अपने डेवलपमेंट एनवायरमेंट को सेट अप करने से जुड़ी सामान्य जानकारी के लिए, Python के लिए सेटअप गाइड देखें. इसमें प्लैटफ़ॉर्म के वर्शन की ज़रूरी शर्तों के साथ-साथ काम करने के तरीके भी शामिल हैं.
पैकेज
इमेज क्लासिफ़ायर, MediaPipe पीआईपी पैकेज का टास्क करता है. इन चीज़ों के साथ डिपेंडेंसी इंस्टॉल की जा सकती है:
$ python -m pip install mediapipe
इंपोर्ट
इमेज क्लासिफ़ायर टास्क फ़ंक्शन ऐक्सेस करने के लिए, नीचे दी गई क्लास इंपोर्ट करें:
import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision
मॉडल
MediaPipe इमेज क्लासिफ़ायर टास्क को एक प्रशिक्षित मॉडल की ज़रूरत होती है, जो इस टास्क के साथ काम कर सके. इमेज क्लासिफ़ायर के लिए उपलब्ध ट्रेनिंग मॉडल के बारे में ज़्यादा जानकारी के लिए, टास्क की खास जानकारी मॉडल सेक्शन देखें.
कोई मॉडल चुनें और उसे डाउनलोड करें. इसके बाद, उसे किसी लोकल डायरेक्ट्री में सेव करें. आपके पास सुझाया गया PerformanceNet-Lite0 मॉडल इस्तेमाल करने का विकल्प है.
model_path = '/absolute/path/to/efficientnet_lite0_int8_2.tflite'
मॉडल के नाम वाले पैरामीटर में, मॉडल का पाथ बताएं, जैसा कि यहां दिखाया गया है:
base_options = BaseOptions(model_asset_path=model_path)
टास्क बनाएं
टास्क बनाने के लिए, create_from_options
फ़ंक्शन का इस्तेमाल करें. create_from_options
फ़ंक्शन, कॉन्फ़िगरेशन के विकल्प स्वीकार करता है. इनमें रनिंग मोड, डिसप्ले नेम की स्थान-भाषा, नतीजों की ज़्यादा से ज़्यादा संख्या, कॉन्फ़िडेंस थ्रेशोल्ड, अनुमति वाली कैटगरी, और अस्वीकार की सूची जैसी कॉन्फ़िगरेशन शामिल हैं. कॉन्फ़िगरेशन के विकल्पों के बारे में ज़्यादा जानकारी के लिए,
कॉन्फ़िगरेशन की खास जानकारी देखें.
इमेज क्लासिफ़ायर टास्क में तीन तरह के इनपुट डेटा टाइप काम करते हैं: स्टिल इमेज, वीडियो फ़ाइलें, और लाइव वीडियो स्ट्रीम. टास्क बनाने और अनुमान लगाने का तरीका देखने के लिए, अपने इनपुट डेटा टाइप के हिसाब से टैब चुनें.
Image
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions ImageClassifier = mp.tasks.vision.ImageClassifier ImageClassifierOptions = mp.tasks.vision.ImageClassifierOptions VisionRunningMode = mp.tasks.vision.RunningMode options = ImageClassifierOptions( base_options=BaseOptions(model_asset_path='/path/to/model.tflite'), max_results=5, running_mode=VisionRunningMode.IMAGE) with ImageClassifier.create_from_options(options) as classifier: # The classifier is initialized. Use it here. # ...
वीडियो
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions ImageClassifier = mp.tasks.vision.ImageClassifier ImageClassifierOptions = mp.tasks.vision.ImageClassifierOptions VisionRunningMode = mp.tasks.vision.RunningMode options = ImageClassifierOptions( base_options=BaseOptions(model_asset_path='/path/to/model.tflite'), max_results=5, running_mode=VisionRunningMode.VIDEO) with ImageClassifier.create_from_options(options) as classifier: # The classifier is initialized. Use it here. # ...
लाइव स्ट्रीम
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions ImageClassifierResult = mp.tasks.vision.ImageClassifier.ImageClassifierResult ImageClassifier = mp.tasks.vision.ImageClassifier ImageClassifierOptions = mp.tasks.vision.ImageClassifierOptions VisionRunningMode = mp.tasks.vision.RunningMode def print_result(result: ImageClassifierResult, output_image: mp.Image, timestamp_ms: int): print('ImageClassifierResult result: {}'.format(result)) options = ImageClassifierOptions( base_options=BaseOptions(model_asset_path='/path/to/model.tflite'), running_mode=VisionRunningMode.LIVE_STREAM, max_results=5, result_callback=print_result) with ImageClassifier.create_from_options(options) as classifier: # The classifier is initialized. Use it here. # ...
इमेज के साथ इस्तेमाल करने के लिए, इमेज क्लासिफ़ायर बनाने का पूरा उदाहरण देखने के लिए, कोड का उदाहरण देखें.
कॉन्फ़िगरेशन विकल्प
इस टास्क में Python ऐप्लिकेशन के लिए कॉन्फ़िगरेशन के ये विकल्प मौजूद हैं:
विकल्प का नाम | ब्यौरा | वैल्यू रेंज | डिफ़ॉल्ट मान |
---|---|---|---|
running_mode |
टास्क के लिए, रनिंग मोड सेट करता है. इसके तीन मोड होते हैं: इमेज: सिंगल इमेज इनपुट के लिए मोड. वीडियो: वीडियो के डिकोड किए गए फ़्रेम का मोड. LIVE_STREAM: इनपुट डेटा की लाइव स्ट्रीम का मोड, जैसे कि कैमरे से स्ट्रीम किया जाने वाला मोड. इस मोड में, रिज़ल्ट पहचानकर्ता को लिसनर को सेट अप करने के लिए कॉल किया जाना चाहिए, ताकि वह एसिंक्रोनस तरीके से नतीजे पा सके. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
display_names_locale |
अगर यह उपलब्ध हो, तो टास्क के मॉडल के मेटाडेटा में दिए गए डिसप्ले नेम के लिए, लेबल की भाषा सेट करता है. अंग्रेज़ी के लिए डिफ़ॉल्ट रूप से en
है. TensorFlow Lite Metadata Writer API का इस्तेमाल करके, कस्टम मॉडल के मेटाडेटा में
स्थानीय भाषा के हिसाब से लेबल जोड़े जा सकते हैं |
स्थान-भाषा का कोड | en |
max_results |
यह विकल्प, टॉप-स्कोर किए गए क्लासिफ़िकेशन के नतीजों की ज़्यादा से ज़्यादा संख्या को सेट करता है, ताकि नतीजे दिखाए जा सकें. अगर < 0 है, तो सभी उपलब्ध नतीजे दिखाए जाएंगे. | कोई भी पॉज़िटिव नंबर | -1 |
score_threshold |
अनुमान के स्कोर का थ्रेशोल्ड सेट करता है, जो मॉडल मेटाडेटा (अगर कोई है) में दिए गए स्कोर को बदलता है. इस वैल्यू से कम के नतीजे अस्वीकार कर दिए गए हैं. | कोई भी फ़्लोट | सेट नहीं किया गया है |
category_allowlist |
अनुमति वाली कैटगरी के नामों की वैकल्पिक सूची सेट करता है. अगर यह खाली नहीं है, तो कैटगरी के जिन नतीजों की कैटगरी का नाम इस सेट में नहीं होगा उन्हें फ़िल्टर कर दिया जाएगा. श्रेणी के डुप्लीकेट या अज्ञात नामों पर ध्यान नहीं दिया जाता है.
यह विकल्प category_denylist के साथ म्यूचुअली एक्सक्लूसिव है और दोनों नतीजों का इस्तेमाल करने में गड़बड़ी है. |
कोई भी स्ट्रिंग | सेट नहीं किया गया है |
category_denylist |
उन कैटगरी के नामों की वैकल्पिक सूची सेट करता है जिनकी अनुमति नहीं है. अगर
यह फ़ील्ड खाली नहीं है, तो कैटगरी के जिन नतीजों की कैटगरी का नाम इस सेट में होगा उन्हें फ़िल्टर करके
बाहर कर दिया जाएगा. श्रेणी के डुप्लीकेट या अज्ञात नामों पर ध्यान नहीं दिया जाता है. यह विकल्प category_allowlist के साथ म्यूचुअली एक्सक्लूसिव है और इसका इस्तेमाल करने पर दोनों में गड़बड़ी होगी. |
कोई भी स्ट्रिंग | सेट नहीं किया गया है |
result_callback |
जब इमेज क्लासिफ़ायर, लाइव स्ट्रीम मोड में होता है, तो इससे नतीजे के लिसनर को क्लासिफ़िकेशन के नतीजों को एसिंक्रोनस तरीके से पाने के लिए सेट किया जाता है. सिर्फ़ तब इस्तेमाल किया जा सकता है, जब रनिंग मोड LIVE_STREAM पर सेट हो |
लागू नहीं | सेट नहीं किया गया है |
डेटा तैयार करना
अपने इनपुट को इमेज फ़ाइल या numpy कलेक्शन के तौर पर तैयार करें. इसके बाद, उसे mediapipe.Image
ऑब्जेक्ट में बदलें. अगर आपका इनपुट, वेबकैम से कोई वीडियो फ़ाइल या लाइव स्ट्रीम है, तो OpenCV जैसी बाहरी लाइब्रेरी का इस्तेमाल करके, अपने इनपुट फ़्रेम को सुन्न कलेक्शन के तौर पर लोड किया जा सकता है.
यहां दिए गए उदाहरणों में बताया गया है कि हर उपलब्ध डेटा टाइप के लिए, डेटा को प्रोसेसिंग के लिए कैसे तैयार किया जाता है
Image
import mediapipe as mp # Load the input image from an image file. mp_image = mp.Image.create_from_file('/path/to/image') # Load the input image from a numpy array. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)
वीडियो
import mediapipe as mp # Use OpenCV’s VideoCapture to load the input video. # Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS # You’ll need it to calculate the timestamp for each frame. # Loop through each frame in the video using VideoCapture#read() # Convert the frame received from OpenCV to a MediaPipe’s Image object. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
लाइव स्ट्रीम
import mediapipe as mp # Use OpenCV’s VideoCapture to start capturing from the webcam. # Create a loop to read the latest frame from the camera using VideoCapture#read() # Convert the frame received from OpenCV to a MediaPipe’s Image object. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
टास्क चलाएं
अनुमान ट्रिगर करने के लिए, अपने रनिंग मोड के हिसाब से क्लासिफ़ाइड फ़ंक्शन को कॉल किया जा सकता है. इमेज क्लासिफ़ायर एपीआई, इनपुट इमेज या फ़्रेम में ऑब्जेक्ट के लिए संभावित कैटगरी दिखाएगा.
Image
# Perform image classification on the provided single image. classification_result = classifier.classify(mp_image)
वीडियो
# Calculate the timestamp of the current frame frame_timestamp_ms = 1000 * frame_index / video_file_fps # Perform image classification on the video frame. classification_result = classifier.classify_for_video(mp_image, frame_timestamp_ms)
लाइव स्ट्रीम
# Send the latest frame to perform image classification. # Results are sent to the `result_callback` provided in the `ImageClassifierOptions`. classifier.classify_async(mp_image, frame_timestamp_ms)
निम्न पर ध्यान दें:
- वीडियो मोड या लाइव स्ट्रीम मोड में चलाते समय, आपको इमेज क्लासिफ़ायर टास्क को इनपुट फ़्रेम का टाइमस्टैंप भी देना होगा.
- इमेज या वीडियो मॉडल में चलते समय, इमेज क्लासिफ़ायर टास्क मौजूदा थ्रेड को तब तक ब्लॉक रखेगा, जब तक कि वह इनपुट इमेज या फ़्रेम की प्रोसेसिंग पूरी नहीं कर लेता.
- लाइव स्ट्रीम मोड में चलाते समय, इमेज क्लासिफ़ायर टास्क मौजूदा थ्रेड को ब्लॉक नहीं करता है. हालांकि, वह तुरंत वापस आ जाता है. जब भी इनपुट फ़्रेम की प्रोसेसिंग पूरी होगी, तब यह, क्लासिफ़िकेशन के नतीजे के साथ अपने रिज़ल्ट
लिसनर को शुरू करेगा. अगर
classifyAsync
फ़ंक्शन को तब कॉल किया जाता है, जब इमेज क्लासिफ़ायर टास्क किसी दूसरे फ़्रेम को प्रोसेस करने में व्यस्त हो, तो यह टास्क नए इनपुट फ़्रेम को अनदेखा कर देता है.
इमेज के साथ इस्तेमाल करने के लिए, इमेज क्लासिफ़ायर बनाने का पूरा उदाहरण देखने के लिए, कोड का उदाहरण देखें.
नतीजे मैनेज करें और दिखाएं
अनुमान चलाने पर, इमेज की कैटगरी तय करने वाला टास्क एक ImageClassifierResult
ऑब्जेक्ट दिखाता है. इस ऑब्जेक्ट में, इनपुट इमेज या फ़्रेम में मौजूद ऑब्जेक्ट के लिए संभावित कैटगरी की सूची होती है.
इस टास्क के आउटपुट डेटा का एक उदाहरण यहां दिया गया है:
ImageClassifierResult:
Classifications #0 (single classification head):
head index: 0
category #0:
category name: "/m/01bwb9"
display name: "Passer domesticus"
score: 0.91406
index: 671
category #1:
category name: "/m/01bwbt"
display name: "Passer montanus"
score: 0.00391
index: 670
यह नतीजा, Bird Classifier को इन डिवाइस पर चलाकर हासिल किया गया है:
इमेज क्लासिफ़ायर के उदाहरण वाले कोड में बताया गया है कि टास्क से लौटाए गए, क्लासिफ़िकेशन के नतीजे कैसे दिखाए जाएं. ज़्यादा जानकारी के लिए कोड का उदाहरण देखें.