Tugas Image Classifier memungkinkan Anda melakukan klasifikasi pada gambar. Anda dapat menggunakan tugas ini untuk mengidentifikasi apa yang direpresentasikan oleh gambar di antara serangkaian kategori yang ditentukan pada waktu pelatihan. Petunjuk ini menunjukkan cara menggunakan Pengklasifikasi Gambar di aplikasi iOS. Contoh kode yang dijelaskan dalam petunjuk ini tersedia di GitHub.
Anda dapat melihat cara kerja tugas ini dengan melihat Demo web ini. Untuk mengetahui informasi selengkapnya tentang kemampuan, model, dan opsi konfigurasi tugas ini, lihat Ringkasan.
Contoh kode
Kode contoh Tugas MediaPipe adalah implementasi dasar aplikasi Pengklasifikasi Gambar untuk iOS. Contoh ini menggunakan kamera di perangkat iOS fisik untuk terus mengklasifikasikan objek, dan juga dapat menggunakan gambar dan video dari galeri perangkat untuk mengklasifikasikan objek secara statis.
Anda dapat menggunakan aplikasi ini sebagai titik awal untuk aplikasi iOS Anda sendiri, atau merujuknya saat mengubah aplikasi yang ada. Kode contoh Image Classifier dihosting di GitHub.
Mendownload kode
Petunjuk berikut menunjukkan cara membuat salinan lokal contoh kode menggunakan alat command line git.
Untuk mendownload kode contoh:
Clone repositori git menggunakan perintah berikut:
git clone https://github.com/google-ai-edge/mediapipe-samples
Secara opsional, konfigurasikan instance git untuk menggunakan checkout jarang, sehingga Anda hanya memiliki file untuk aplikasi contoh Image Classifier:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/image_classification/ios/
Setelah membuat versi lokal kode contoh, Anda dapat menginstal library tugas MediaPipe, membuka project menggunakan Xcode, dan menjalankan aplikasi. Untuk petunjuk, lihat Panduan Penyiapan untuk iOS.
Komponen utama
File berikut berisi kode penting untuk aplikasi contoh Pengklasifikasi Gambar:
- ImageClassifierService.swift: Melakukan inisialisasi Pengklasifikasi Gambar, menangani pemilihan model, dan menjalankan inferensi pada data input.
- CameraViewController.swift: Mengimplementasikan UI untuk mode input feed kamera live dan memvisualisasikan hasilnya.
- MediaLibraryViewController.swift Mengimplementasikan UI untuk mode input file gambar diam dan video serta memvisualisasikan hasilnya.
Penyiapan
Bagian ini menjelaskan langkah-langkah utama untuk menyiapkan lingkungan pengembangan dan project kode agar dapat menggunakan Pengklasifikasi Gambar. Untuk informasi umum tentang cara menyiapkan lingkungan pengembangan untuk menggunakan tugas MediaPipe, termasuk persyaratan versi platform, lihat Panduan penyiapan untuk iOS.
Dependensi
Image Classifier menggunakan library MediaPipeTasksVision
, yang harus diinstal
menggunakan CocoaPods. Library ini kompatibel dengan aplikasi Swift dan Objective-C,
dan tidak memerlukan penyiapan khusus bahasa tambahan.
Untuk petunjuk menginstal CocoaPods di macOS, lihat panduan penginstalan
CocoaPods.
Untuk mengetahui petunjuk cara membuat Podfile
dengan pod yang diperlukan untuk
aplikasi Anda, lihat Menggunakan
CocoaPods.
Tambahkan pod MediaPipeTasksVision di Podfile
menggunakan kode berikut:
target 'MyImageClassifierApp' do
use_frameworks!
pod 'MediaPipeTasksVision'
end
Jika aplikasi Anda menyertakan target pengujian unit, lihat Panduan Penyiapan untuk iOS guna mengetahui informasi tambahan tentang cara menyiapkan Podfile
.
Model
Tugas MediaPipe Image Classifier memerlukan model terlatih yang kompatibel dengan tugas ini. Untuk mengetahui informasi selengkapnya tentang model terlatih yang tersedia untuk Klasifikasi Gambar, lihat bagian Model ringkasan tugas.
Pilih dan download model, lalu tambahkan ke direktori project Anda menggunakan Xcode. Untuk mengetahui petunjuk cara menambahkan file ke project Xcode, lihat Mengelola file dan folder di project Xcode.
Gunakan properti BaseOptions.modelAssetPath
untuk menentukan jalur ke model
dalam app bundle Anda. Untuk contoh kode, lihat bagian berikutnya.
Membuat tugas
Anda dapat membuat tugas Image Classifier dengan memanggil salah satu penginisialisasinya. Penginisialisasi
ImageClassifier(options:)
menetapkan nilai untuk opsi konfigurasi
termasuk mode berjalan, lokalitas nama tampilan, jumlah maksimum hasil, nilai minimum
kepercayaan, daftar yang diizinkan dan daftar yang ditolak kategori.
Jika tidak memerlukan Pengklasifikasi Gambar yang diinisialisasi dengan opsi konfigurasi
yang disesuaikan, Anda dapat menggunakan penginisialisasi ImageClassifier(modelPath:)
untuk membuat
Pengklasifikasi Gambar dengan opsi default. Untuk informasi selengkapnya tentang opsi konfigurasi, lihat Ringkasan Konfigurasi.
Tugas Pengklasifikasi Gambar mendukung 3 jenis data input: gambar diam, file video,
dan streaming video live. Secara default, ImageClassifier(modelPath:)
melakukan inisialisasi
tugas untuk gambar diam. Jika Anda ingin tugas diinisialisasi untuk memproses file video atau streaming video live, gunakan ImageClassifier(options:)
untuk menentukan mode video atau livestream yang berjalan. Mode live stream juga memerlukan
opsi konfigurasi imageClassifierLiveStreamDelegate
tambahan, yang
memungkinkan Pengklasifikasi Gambar mengirimkan hasil klasifikasi gambar ke
delegasi secara asinkron.
Pilih tab yang sesuai dengan mode operasi Anda untuk melihat cara membuat tugas dan menjalankan inferensi.
Swift
Gambar
import MediaPipeTasksVision let modelPath = Bundle.main.path(forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .image options.maxResults = 5 let imageClassifier = try ImageClassifier(options: options)
Video
import MediaPipeTasksVision let modelPath = Bundle.main.path(forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .video options.maxResults = 5 let imageClassifier = try ImageClassifier(options: options)
Livestream
import MediaPipeTasksVision // Class that conforms to the `ImageClassifierLiveStreamDelegate` protocol and // implements the method that the image classifier calls once it // finishes performing classification on each input frame. class ImageClassifierResultProcessor: NSObject, ImageClassifierLiveStreamDelegate { func imageClassifier( _ imageClassifier: ImageClassifier, didFinishClassification result: ImageClassifierResult?, timestampInMilliseconds: Int, error: Error?) { // Process the image classifier result or errors here. } } let modelPath = Bundle.main.path( forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .liveStream options.maxResults = 5 // Assign an object of the class to the `imageClassifierLiveStreamDelegate` // property. let processor = ImageClassifierResultProcessor() options.imageClassifierLiveStreamDelegate = processor let imageClassifier = try ImageClassifier(options: options)
Objective-C
Gambar
@import MediaPipeTasksVision; NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeImage; options.maxResults = 5; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Video
@import MediaPipeTasksVision; NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeVideo; options.maxResults = 5; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Livestream
@import MediaPipeTasksVision; // Class that conforms to the `MPPImageClassifierLiveStreamDelegate` protocol // and implements the method that the image classifier calls once it finishes // performing classification on each input frame. @interface APPImageClassifierResultProcessor : NSObject@end @implementation APPImageClassifierResultProcessor - (void)imageClassifier:(MPPImageClassifier *)imageClassifier didFinishClassificationWithResult:(MPPImageClassifierResult *)imageClassifierResult timestampInMilliseconds:(NSInteger)timestampInMilliseconds error:(NSError *)error { // Process the image classifier result or errors here. } @end NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeLiveStream; options.maxResults = 5; // Assign an object of the class to the `imageClassifierLiveStreamDelegate` // property. APPImageClassifierResultProcessor *processor = [APPImageClassifierResultProcessor new]; options.imageClassifierLiveStreamDelegate = processor; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Opsi konfigurasi
Tugas ini memiliki opsi konfigurasi berikut untuk aplikasi iOS:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
runningMode |
Menetapkan mode berjalan untuk tugas. Ada tiga
mode: GAMBAR: Mode untuk input gambar tunggal. VIDEO: Mode untuk frame video yang didekode. LIVE_STREAM: Mode untuk live stream data input, seperti dari kamera. Dalam mode ini, resultListener harus dipanggil untuk menyiapkan pemroses agar menerima hasil secara asinkron. |
{RunningMode.image, RunningMode.video, RunningMode.liveStream } |
RunningMode.image |
displayNamesLocale |
Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam
metadata model tugas, jika tersedia. Default-nya adalah en untuk
bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom
menggunakan TensorFlow Lite Metadata Writer API |
Kode lokalitas | id |
maxResults |
Menetapkan jumlah maksimum opsional dari hasil klasifikasi dengan skor tertinggi untuk ditampilkan. Jika < 0, semua hasil yang tersedia akan ditampilkan. | Semua angka positif | -1 |
scoreThreshold |
Menetapkan ambang batas skor prediksi yang menggantikan nilai yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini akan ditolak. | Float apa pun | Tidak ditetapkan |
categoryAllowlist |
Menetapkan daftar opsional nama kategori yang diizinkan. Jika tidak kosong,
hasil klasifikasi yang nama kategorinya tidak ada dalam kumpulan ini akan
difilter. Nama kategori duplikat atau tidak dikenal akan diabaikan.
Opsi ini saling eksklusif dengan categoryDenylist dan menggunakan
keduanya akan mengakibatkan error. |
String apa pun | Tidak ditetapkan |
categoryDenylist |
Menetapkan daftar opsional nama kategori yang tidak diizinkan. Jika
tidak kosong, hasil klasifikasi yang nama kategorinya ada dalam set ini akan difilter
keluar. Nama kategori duplikat atau tidak dikenal akan diabaikan. Opsi ini sama
eksklusif dengan categoryAllowlist dan menggunakan keduanya akan menghasilkan error. |
String apa pun | Tidak ditetapkan |
resultListener |
Menetapkan pemroses hasil untuk menerima hasil klasifikasi secara asinkron saat Pengklasifikasi Gambar berada dalam mode live stream. Hanya dapat digunakan saat mode lari disetel ke LIVE_STREAM |
T/A | Tidak ditetapkan |
Konfigurasi livestream
Jika mode berjalan disetel ke livestream, Image Classifier memerlukan
opsi konfigurasi imageClassifierLiveStreamDelegate
tambahan, yang
memungkinkan pengklasifikasi mengirimkan hasil klasifikasi secara asinkron. Delegasi
mengimplementasikan
metode imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:)
, yang dipanggil Image Classifier setelah memproses hasil
klasifikasi untuk setiap frame.
Nama opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
imageClassifierLiveStreamDelegate |
Memungkinkan Pengklasifikasi Gambar menerima hasil klasifikasi secara asinkron
dalam mode live stream. Class yang instance-nya ditetapkan ke properti ini harus
menerapkan
metode
imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:) . |
Tidak berlaku | Tidak ditetapkan |
Menyiapkan data
Anda perlu mengonversi gambar atau frame input menjadi objek MPImage
sebelum
meneruskannya ke Pengklasifikasi Gambar. MPImage
mendukung berbagai jenis format gambar iOS, dan dapat menggunakannya dalam mode berjalan apa pun untuk inferensi. Untuk informasi
selengkapnya tentang MPImage
, lihat
MPImage API.
Pilih format gambar iOS berdasarkan kasus penggunaan dan mode operasi yang diperlukan
aplikasi Anda.MPImage
menerima format gambar iOS UIImage
, CVPixelBuffer
, dan
CMSampleBuffer
.
UIImage
Format UIImage
sangat cocok untuk mode operasi berikut:
Gambar: gambar dari app bundle, galeri pengguna, atau sistem file yang diformat sebagai gambar
UIImage
dapat dikonversi menjadi objekMPImage
.Video: gunakan AVAssetImageGenerator untuk mengekstrak frame video ke format CGImage, lalu konversikan ke gambar
UIImage
.
Swift
// Load an image on the user's device as an iOS `UIImage` object. // Convert the `UIImage` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(uiImage: image)
Objective-C
// Load an image on the user's device as an iOS `UIImage` object. // Convert the `UIImage` object to a MediaPipe's Image object having the default // orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
Contoh ini menginisialisasi MPImage
dengan orientasi
UIImage.Orientation.Up
default. Anda dapat menginisialisasi MPImage
dengan salah satu nilai
UIImage.Orientation
yang didukung. Pengklasifikasi Gambar tidak mendukung orientasi yang diduplikasi seperti .upMirrored
,
.downMirrored
, .leftMirrored
, .rightMirrored
.
Untuk mengetahui informasi selengkapnya tentang UIImage
, lihat Dokumentasi Developer Apple
UIImage.
CVPixelBuffer
Format CVPixelBuffer
sangat cocok untuk aplikasi yang menghasilkan frame
dan menggunakan framework CoreImage
iOS untuk pemrosesan.
Format CVPixelBuffer
sangat cocok untuk mode operasi berikut:
Gambar: aplikasi yang menghasilkan gambar
CVPixelBuffer
setelah beberapa pemrosesan menggunakan frameworkCoreImage
iOS dapat dikirim ke Pengklasifikasi Gambar dalam mode gambar yang berjalan.Video: frame video dapat dikonversi ke format
CVPixelBuffer
untuk pemrosesan, lalu dikirim ke Pengklasifikasi Gambar dalam mode video.livestream: aplikasi yang menggunakan kamera iOS untuk membuat frame dapat dikonversi ke format
CVPixelBuffer
untuk diproses sebelum dikirim ke Klasifikasi Gambar dalam mode livestream.
Swift
// Obtain a CVPixelBuffer. // Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(pixelBuffer: pixelBuffer)
Objective-C
// Obtain a CVPixelBuffer. // Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the // default orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
Untuk mengetahui informasi selengkapnya tentang CVPixelBuffer
, lihat Dokumentasi
Developer Apple CVPixelBuffer.
CMSampleBuffer
Format CMSampleBuffer
menyimpan sampel media dari jenis media yang seragam, dan
sangat cocok untuk mode operasi live stream. Frame live dari kamera iOS
dikirim secara asinkron dalam format CMSampleBuffer
oleh iOS
AVCaptureVideoDataOutput.
Swift
// Obtain a CMSampleBuffer. // Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(sampleBuffer: sampleBuffer)
Objective-C
// Obtain a `CMSampleBuffer`. // Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the // default orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithSampleBuffer:sampleBuffer error:nil];
Untuk mengetahui informasi selengkapnya tentang CMSampleBuffer
, lihat Dokumentasi Developer Apple
CMSampleBuffer.
Menjalankan tugas
Untuk menjalankan Image Classifier, gunakan metode classify()
yang khusus untuk mode
running yang ditetapkan:
- Gambar diam:
classify(image:)
- Video:
classify(videoFrame:timestampInMilliseconds:)
- livestream:
classifyAsync(image:timestampInMilliseconds:)
Pengklasifikasi Gambar menampilkan kemungkinan kategori untuk objek dalam gambar atau frame input.
Contoh kode berikut menunjukkan contoh dasar cara menjalankan Image Classifier dalam berbagai mode operasi ini:
Swift
Gambar
let result = try imageClassifier.classify(image: image)
Video
let result = try imageClassifier.classify( videoFrame: image, timestampInMilliseconds: timestamp)
Livestream
try imageClassifier.classifyAsync( image: image, timestampInMilliseconds: timestamp)
Objective-C
Gambar
MPPImageClassifierResult *result = [imageClassifier classifyImage:image error:nil];
Video
MPPImageClassifierResult *result = [imageClassifier classifyVideoFrame:image timestampInMilliseconds:timestamp error:nil];
Livestream
BOOL success = [imageClassifier classifyAsyncImage:image timestampInMilliseconds:timestamp error:nil];
Contoh kode Pengklasifikasi Gambar menunjukkan implementasi setiap mode ini
secara lebih mendetail classify(image:)
,
classify(videoFrame:timestampInMilliseconds:)
, dan
classifyAsync(image:timestampInMilliseconds:)
. Kode contoh memungkinkan
pengguna beralih di antara mode pemrosesan yang mungkin tidak diperlukan untuk kasus
penggunaan Anda.
Perhatikan hal berikut:
Saat berjalan dalam mode video atau mode live stream, Anda juga harus memberikan stempel waktu frame input ke tugas Image Classifier.
Saat berjalan dalam mode gambar atau video, tugas Pengklasifikasi Gambar akan memblokir thread saat ini hingga selesai memproses gambar atau frame input. Untuk menghindari pemblokiran thread saat ini, jalankan pemrosesan di thread latar belakang menggunakan framework Dispatch atau NSOperation iOS.
Saat berjalan dalam mode live stream, tugas Image Classifier akan segera ditampilkan dan tidak memblokir thread saat ini. Metode ini memanggil metode
imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:)
dengan hasil klasifikasi setelah memproses setiap frame input. Pengklasifikasi Gambar memanggil metode ini secara asinkron pada antrean pengiriman serial khusus. Untuk menampilkan hasil di antarmuka pengguna, kirimkan hasil ke antrean utama setelah memproses hasil. Jika fungsiclassifyAsync
dipanggil saat tugas Image Classifier sedang sibuk memproses frame lain, Image Classifier akan mengabaikan frame input baru.
Menangani dan menampilkan hasil
Setelah menjalankan inferensi, tugas Image Classifier akan menampilkan objek ImageClassifierResult
yang berisi daftar kemungkinan kategori untuk objek dalam gambar atau frame input.
Berikut adalah contoh data output dari tugas ini:
ImageClassifierResult:
Classifications #0 (single classification head):
head index: 0
category #0:
category name: "/m/01bwb9"
display name: "Passer domesticus"
score: 0.91406
index: 671
category #1:
category name: "/m/01bwbt"
display name: "Passer montanus"
score: 0.00391
index: 670
Hasil ini diperoleh dengan menjalankan Bird Classifier di:
Kode contoh Pengklasifikasi Gambar menunjukkan cara menampilkan hasil klasifikasi yang ditampilkan dari tugas, lihat contoh kode untuk mengetahui detailnya.