MediaPipe ইমেজ ক্লাসিফায়ার টাস্ক আপনাকে ইমেজের শ্রেণীবিভাগ করতে দেয়। প্রশিক্ষণের সময় সংজ্ঞায়িত বিভাগের একটি সেটের মধ্যে একটি চিত্র কী প্রতিনিধিত্ব করে তা সনাক্ত করতে আপনি এই কাজটি ব্যবহার করতে পারেন। এই নির্দেশাবলী আপনাকে দেখায় কিভাবে Android অ্যাপের সাথে ইমেজ ক্লাসিফায়ার ব্যবহার করতে হয়। এই নির্দেশাবলীতে বর্ণিত কোড নমুনা GitHub এ উপলব্ধ।
আপনি ওয়েব ডেমো দেখে এই কাজটি কার্যকর দেখতে পারেন। এই কাজের ক্ষমতা, মডেল এবং কনফিগারেশন বিকল্প সম্পর্কে আরও তথ্যের জন্য, ওভারভিউ দেখুন।
কোড উদাহরণ
MediaPipe টাস্কের উদাহরণ কোড হল Android এর জন্য একটি ইমেজ ক্লাসিফায়ার অ্যাপের একটি সহজ বাস্তবায়ন। উদাহরণটি একটি ভৌত অ্যান্ড্রয়েড ডিভাইসে ক্যামেরা ব্যবহার করে বস্তুগুলিকে ক্রমাগত শ্রেণীবদ্ধ করতে, এবং বস্তুগুলিকে স্থিরভাবে শ্রেণীবদ্ধ করতে ডিভাইস গ্যালারি থেকে ছবি এবং ভিডিওগুলিও ব্যবহার করতে পারে৷
আপনি অ্যাপটিকে আপনার নিজের অ্যান্ড্রয়েড অ্যাপের জন্য একটি সূচনা পয়েন্ট হিসাবে ব্যবহার করতে পারেন, বা একটি বিদ্যমান অ্যাপ পরিবর্তন করার সময় এটি উল্লেখ করতে পারেন। ইমেজ ক্লাসিফায়ার উদাহরণ কোডটি গিটহাবে হোস্ট করা হয়েছে।
কোডটি ডাউনলোড করুন
নিম্নলিখিত নির্দেশাবলী আপনাকে দেখায় কিভাবে গিট কমান্ড লাইন টুল ব্যবহার করে উদাহরণ কোডের একটি স্থানীয় অনুলিপি তৈরি করতে হয়।
উদাহরণ কোড ডাউনলোড করতে:
- নিম্নলিখিত কমান্ড ব্যবহার করে গিট সংগ্রহস্থল ক্লোন করুন:
git clone https://github.com/google-ai-edge/mediapipe-samples
- ঐচ্ছিকভাবে, স্পার্স চেকআউট ব্যবহার করার জন্য আপনার গিট ইনস্ট্যান্স কনফিগার করুন, যাতে আপনার কাছে শুধুমাত্র ইমেজ ক্লাসিফায়ার উদাহরণ অ্যাপের জন্য ফাইল থাকে:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/image_classification/android
উদাহরণ কোডের একটি স্থানীয় সংস্করণ তৈরি করার পরে, আপনি প্রকল্পটি অ্যান্ড্রয়েড স্টুডিওতে আমদানি করতে এবং অ্যাপটি চালাতে পারেন। নির্দেশাবলীর জন্য, Android এর জন্য সেটআপ গাইড দেখুন।
মূল উপাদান
নিম্নলিখিত ফাইলগুলিতে এই চিত্র শ্রেণিবিন্যাসের উদাহরণ অ্যাপ্লিকেশনের জন্য গুরুত্বপূর্ণ কোড রয়েছে:
- ImageClassifierHelper.kt - ইমেজ ক্লাসিফায়ার শুরু করে এবং মডেল ও প্রতিনিধি নির্বাচন পরিচালনা করে।
- MainActivity.kt -
ImageClassificationHelper
এবংClassificationResultsAdapter
কল করা সহ অ্যাপ্লিকেশনটি প্রয়োগ করে। - ClassificationResultsAdapter.kt - ফলাফলগুলি পরিচালনা করে এবং ফর্ম্যাট করে।
সেটআপ
এই বিভাগটি আপনার ডেভেলপমেন্ট এনভায়রনমেন্ট এবং ইমেজ ক্লাসিফায়ার ব্যবহার করার জন্য কোড প্রোজেক্ট সেট আপ করার জন্য মূল ধাপগুলি বর্ণনা করে। প্ল্যাটফর্ম সংস্করণ প্রয়োজনীয়তা সহ MediaPipe কার্যগুলি ব্যবহার করার জন্য আপনার বিকাশের পরিবেশ সেট আপ করার বিষয়ে সাধারণ তথ্যের জন্য, Android এর জন্য সেটআপ নির্দেশিকা দেখুন৷
নির্ভরতা
ইমেজ ক্লাসিফায়ার com.google.mediapipe:tasks-vision
লাইব্রেরি ব্যবহার করে। আপনার Android অ্যাপ ডেভেলপমেন্ট প্রজেক্টের build.gradle
ফাইলে এই নির্ভরতা যোগ করুন। নিম্নলিখিত কোড সহ প্রয়োজনীয় নির্ভরতা আমদানি করুন:
dependencies {
...
implementation 'com.google.mediapipe:tasks-vision:latest.release'
}
মডেল
MediaPipe ইমেজ ক্লাসিফায়ার টাস্কের জন্য একটি প্রশিক্ষিত মডেল প্রয়োজন যা এই টাস্কের সাথে সামঞ্জস্যপূর্ণ। ইমেজ ক্লাসিফায়ারের জন্য উপলব্ধ প্রশিক্ষিত মডেল সম্পর্কে আরও তথ্যের জন্য, টাস্ক ওভারভিউ মডেল বিভাগটি দেখুন।
মডেল নির্বাচন করুন এবং ডাউনলোড করুন, এবং তারপর আপনার প্রকল্প ডিরেক্টরির মধ্যে এটি সংরক্ষণ করুন:
<dev-project-root>/src/main/assets
মডেল দ্বারা ব্যবহৃত পথ নির্দিষ্ট করতে BaseOptions.Builder.setModelAssetPath()
পদ্ধতি ব্যবহার করুন। এই পদ্ধতিটি পরবর্তী বিভাগে কোড উদাহরণে উল্লেখ করা হয়েছে।
ইমেজ ক্লাসিফায়ার উদাহরণ কোডে , মডেলটিকে ImageClassifierHelper.kt
ফাইলে সংজ্ঞায়িত করা হয়েছে।
টাস্ক তৈরি করুন
আপনি টাস্ক তৈরি করতে createFromOptions
ফাংশন ব্যবহার করতে পারেন। createFromOptions
ফাংশন রানিং মোড, ডিসপ্লে নেম লোকেল, ফলাফলের সর্বোচ্চ সংখ্যা, আস্থা থ্রেশহোল্ড এবং একটি ক্যাটাগরির অনুমতি তালিকা বা তালিকা অস্বীকার সহ কনফিগারেশন বিকল্পগুলি গ্রহণ করে। কনফিগারেশন বিকল্প সম্পর্কে আরও তথ্যের জন্য, কনফিগারেশন ওভারভিউ দেখুন।
ইমেজ ক্লাসিফায়ার টাস্ক 3টি ইনপুট ডেটা টাইপ সমর্থন করে: স্টিল ইমেজ, ভিডিও ফাইল এবং লাইভ ভিডিও স্ট্রিম। টাস্ক তৈরি করার সময় আপনাকে আপনার ইনপুট ডেটা টাইপের সাথে সম্পর্কিত চলমান মোড নির্দিষ্ট করতে হবে। কীভাবে টাস্ক তৈরি করতে হয় এবং অনুমান চালাতে হয় তা দেখতে আপনার ইনপুট ডেটা টাইপের সাথে সম্পর্কিত ট্যাবটি বেছে নিন।
ছবি
ImageClassifierOptions options = ImageClassifierOptions.builder() .setBaseOptions( BaseOptions.builder().setModelAssetPath("model.tflite").build()) .setRunningMode(RunningMode.IMAGE) .setMaxResults(5) .build(); imageClassifier = ImageClassifier.createFromOptions(context, options);
ভিডিও
ImageClassifierOptions options = ImageClassifierOptions.builder() .setBaseOptions( BaseOptions.builder().setModelAssetPath("model.tflite").build()) .setRunningMode(RunningMode.VIDEO) .setMaxResults(5) .build(); imageClassifier = ImageClassifier.createFromOptions(context, options);
লাইভ স্ট্রিম
ImageClassifierOptions options = ImageClassifierOptions.builder() .setBaseOptions( BaseOptions.builder().setModelAssetPath("model.tflite").build()) .setRunningMode(RunningMode.LIVE_STREAM) .setMaxResults(5) .setResultListener((result, inputImage) -> { // Process the classification result here. }) .setErrorListener((result, inputImage) -> { // Process the classification errors here. }) .build() imageClassifier = ImageClassifier.createFromOptions(context, options)
ইমেজ ক্লাসিফায়ার উদাহরণ কোড বাস্তবায়ন ব্যবহারকারীকে প্রক্রিয়াকরণ মোডের মধ্যে স্যুইচ করতে দেয়। পদ্ধতিটি টাস্ক তৈরির কোডটিকে আরও জটিল করে তোলে এবং আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত নাও হতে পারে। আপনি ImageClassifierHelper.kt
ফাইলের setupImageClassifier()
ফাংশনে এই কোডটি দেখতে পারেন।
কনফিগারেশন বিকল্প
এই টাস্কে Android অ্যাপের জন্য নিম্নলিখিত কনফিগারেশন বিকল্প রয়েছে:
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
runningMode | টাস্কের জন্য চলমান মোড সেট করে। তিনটি মোড আছে: IMAGE: একক ইমেজ ইনপুট জন্য মোড. ভিডিও: একটি ভিডিওর ডিকোড করা ফ্রেমের মোড। লাইভ_স্ট্রিম: ইনপুট ডেটার লাইভস্ট্রিমের মোড, যেমন ক্যামেরা থেকে। এই মোডে, ফলাফল শ্রোতাকে অ্যাসিঙ্ক্রোনাসভাবে ফলাফল পেতে একটি শ্রোতা সেট আপ করতে কল করতে হবে। | { IMAGE, VIDEO, LIVE_STREAM } | IMAGE |
displayNamesLocale | টাস্কের মডেলের মেটাডেটাতে প্রদত্ত প্রদর্শন নামের জন্য ব্যবহার করার জন্য লেবেলের ভাষা সেট করে, যদি উপলব্ধ থাকে। ইংরেজির জন্য ডিফল্ট হল en । আপনি TensorFlow Lite Metadata Writer API ব্যবহার করে একটি কাস্টম মডেলের মেটাডেটাতে স্থানীয় লেবেল যোগ করতে পারেন | স্থানীয় কোড | en |
maxResults | ফিরতে সর্বোচ্চ স্কোর করা শ্রেণীবিভাগ ফলাফলের ঐচ্ছিক সর্বোচ্চ সংখ্যা সেট করে। <0 হলে, সমস্ত উপলব্ধ ফলাফল ফেরত দেওয়া হবে। | যেকোনো ইতিবাচক সংখ্যা | -1 |
scoreThreshold | ভবিষ্যদ্বাণী স্কোর থ্রেশহোল্ড সেট করে যা মডেল মেটাডেটাতে প্রদত্ত একটিকে ওভাররাইড করে (যদি থাকে)। এই মানের নিচের ফলাফল প্রত্যাখ্যান করা হয়। | কোন ভাসা | সেট করা হয়নি |
categoryAllowlist | অনুমোদিত বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যাদের বিভাগের নাম এই সেটে নেই সেগুলি ফিল্টার আউট করা হবে৷ সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryDenylist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। | কোনো স্ট্রিং | সেট করা হয়নি |
categoryDenylist | অনুমোদিত নয় এমন বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যার বিভাগের নাম এই সেটে আছে তা ফিল্টার আউট করা হবে। সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryAllowlist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। | কোনো স্ট্রিং | সেট করা হয়নি |
resultListener | ইমেজ ক্লাসিফায়ার যখন লাইভ স্ট্রিম মোডে থাকে তখন ফলাফল শ্রোতাকে অ্যাসিঙ্ক্রোনাসভাবে শ্রেণীবিভাগের ফলাফল পেতে সেট করে। চলমান মোড LIVE_STREAM এ সেট করা থাকলেই কেবল ব্যবহার করা যাবে৷ | N/A | সেট করা হয়নি |
errorListener | একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে। | N/A | সেট করা হয়নি |
ডেটা প্রস্তুত করুন
ইমেজ ক্লাসিফায়ার ইমেজ, ভিডিও ফাইল এবং লাইভ স্ট্রিম ভিডিও নিয়ে কাজ করে। টাস্কটি ডেটা ইনপুট প্রিপ্রসেসিং পরিচালনা করে, যার মধ্যে আকার পরিবর্তন, ঘূর্ণন এবং মান স্বাভাবিককরণ সহ।
ইমেজ ক্লাসিফায়ারে পাস করার আগে আপনাকে ইনপুট ইমেজ বা ফ্রেমটিকে একটি com.google.mediapipe.framework.image.MPImage
অবজেক্টে রূপান্তর করতে হবে।
ছবি
import com.google.mediapipe.framework.image.BitmapImageBuilder; import com.google.mediapipe.framework.image.MPImage; // Load an image on the user’s device as a Bitmap object using BitmapFactory. // Convert an Android’s Bitmap object to a MediaPipe’s Image object. Image mpImage = new BitmapImageBuilder(bitmap).build();
ভিডিও
import com.google.mediapipe.framework.image.BitmapImageBuilder; import com.google.mediapipe.framework.image.MPImage; // Load a video file on the user's device using MediaMetadataRetriever // From the video’s metadata, load the METADATA_KEY_DURATION and // METADATA_KEY_VIDEO_FRAME_COUNT value. You’ll need them // to calculate the timestamp of each frame later. // Loop through the video and load each frame as a Bitmap object. // Convert the Android’s Bitmap object to a MediaPipe’s Image object. Image mpImage = new BitmapImageBuilder(frame).build();
লাইভ স্ট্রিম
import com.google.mediapipe.framework.image.MediaImageBuilder; import com.google.mediapipe.framework.image.MPImage; // Create a CameraX’s ImageAnalysis to continuously receive frames // from the device’s camera. Configure it to output frames in RGBA_8888 // format to match with what is required by the model. // For each Android’s ImageProxy object received from the ImageAnalysis, // extract the encapsulated Android’s Image object and convert it to // a MediaPipe’s Image object. android.media.Image mediaImage = imageProxy.getImage() Image mpImage = new MediaImageBuilder(mediaImage).build();
ইমেজ ক্লাসিফায়ার উদাহরণ কোডে, ডেটা প্রস্তুতি ImageClassifierHelper.kt
ফাইলে পরিচালনা করা হয়।
টাস্ক চালান
অনুমানগুলি ট্রিগার করতে আপনি আপনার চলমান মোডের সাথে সম্পর্কিত classify
ফাংশনটিকে কল করতে পারেন। ইমেজ ক্লাসিফায়ার এপিআই ইনপুট ইমেজ বা ফ্রেমের মধ্যে অবজেক্টের জন্য সম্ভাব্য বিভাগ প্রদান করে।
ছবি
ImageClassifierResult classifierResult = imageClassifier.classify(image);
ভিডিও
// Calculate the timestamp in milliseconds of the current frame. long frame_timestamp_ms = 1000 * video_duration * frame_index / frame_count; // Run inference on the frame. ImageClassifierResult classifierResult = imageClassifier.classifyForVideo(image, frameTimestampMs);
লাইভ স্ট্রিম
// Run inference on the frame. The classifications results will be available // via the `resultListener` provided in the `ImageClassifierOptions` when // the image classifier was created. imageClassifier.classifyAsync(image, frameTimestampMs);
নিম্নলিখিত নোট করুন:
- ভিডিও মোড বা লাইভ স্ট্রিম মোডে চলাকালীন, আপনাকে অবশ্যই ইমেজ ক্লাসিফায়ার টাস্কে ইনপুট ফ্রেমের টাইমস্ট্যাম্প প্রদান করতে হবে।
- ইমেজ বা ভিডিও মোডে চলার সময়, ইমেজ ক্লাসিফায়ার টাস্ক বর্তমান থ্রেডটিকে ব্লক করে যতক্ষণ না এটি ইনপুট ইমেজ বা ফ্রেম প্রক্রিয়াকরণ শেষ করে। ইউজার ইন্টারফেস ব্লক করা এড়াতে, একটি ব্যাকগ্রাউন্ড থ্রেডে প্রসেসিং চালান।
- লাইভ স্ট্রিম মোডে চলার সময়, ইমেজ ক্লাসিফায়ার টাস্ক বর্তমান থ্রেডকে ব্লক করে না কিন্তু অবিলম্বে ফিরে আসে। এটি প্রতিবার একটি ইনপুট ফ্রেম প্রক্রিয়াকরণ শেষ করার সময় সনাক্তকরণের ফলাফল সহ ফলাফল শ্রোতাকে আহ্বান করবে। ইমেজ ক্লাসিফায়ার টাস্কটি অন্য ফ্রেমের প্রক্রিয়াকরণে ব্যস্ত থাকলে
classifyAsync
ফাংশনটি কল করা হলে, টাস্কটি নতুন ইনপুট ফ্রেমটিকে উপেক্ষা করে।
ইমেজ ক্লাসিফায়ার উদাহরণ কোডে, classify
ফাংশনগুলি ImageClassifierHelper.kt
ফাইলে সংজ্ঞায়িত করা হয়েছে।
হ্যান্ডেল এবং প্রদর্শন ফলাফল
ইনফরেন্স চালানোর পরে, ইমেজ ক্লাসিফায়ার টাস্কটি একটি ImageClassifierResult
অবজেক্ট রিটার্ন করে যা ইনপুট ইমেজ বা ফ্রেমের মধ্যে থাকা অবজেক্টের সম্ভাব্য ক্যাটাগরির তালিকা ধারণ করে।
নিম্নলিখিত এই টাস্ক থেকে আউটপুট ডেটার একটি উদাহরণ দেখায়:
ImageClassifierResult:
Classifications #0 (single classification head):
head index: 0
category #0:
category name: "/m/01bwb9"
display name: "Passer domesticus"
score: 0.91406
index: 671
category #1:
category name: "/m/01bwbt"
display name: "Passer montanus"
score: 0.00391
index: 670
এই ফলাফলে বার্ড ক্লাসিফায়ার চালানোর মাধ্যমে প্রাপ্ত হয়েছে:
ইমেজ ক্লাসিফায়ার উদাহরণ কোডে, ClassificationResultsAdapter.kt
ফাইলের ClassificationResultsAdapter
ক্লাস ফলাফলগুলি পরিচালনা করে:
fun updateResults(imageClassifierResult: ImageClassifierResult? = null) {
categories = MutableList(adapterSize) { null }
if (imageClassifierResult != null) {
val sortedCategories = imageClassifierResult.classificationResult()
.classifications()[0].categories().sortedBy { it.index() }
val min = kotlin.math.min(sortedCategories.size, categories.size)
for (i in 0 until min) {
categories[i] = sortedCategories[i]
}
}
}