Tugas Pengklasifikasi Gambar memungkinkan Anda melakukan klasifikasi pada gambar. Anda dapat menggunakan tugas ini untuk mengidentifikasi apa yang diwakili oleh suatu gambar di antara serangkaian kategori yang ditentukan pada waktu pelatihan. Petunjuk ini menunjukkan cara menggunakan Pengklasifikasi Gambar dalam aplikasi iOS. Contoh kode yang dijelaskan dalam petunjuk ini tersedia di GitHub.
Anda dapat melihat cara kerja tugas ini dengan membuka Web demo. Sebagai informasi lebih lanjut tentang kemampuan, model, dan opsi konfigurasi dari untuk tugas ini, lihat Ringkasan.
Contoh kode
Kode contoh Tugas MediaPipe adalah implementasi dasar dari Pengklasifikasi Gambar untuk iOS. Contoh ini menggunakan kamera pada perangkat iOS fisik untuk terus mengklasifikasikan objek, dan juga dapat menggunakan gambar dan video dari galeri perangkat untuk mengklasifikasikan objek secara statis.
Anda dapat menggunakan aplikasi ini sebagai titik awal untuk aplikasi iOS Anda sendiri, atau merujuk ke sana saat memodifikasi aplikasi yang ada. Kode contoh Pengklasifikasi Gambar dihosting di GitHub.
Mendownload kode
Petunjuk berikut menunjukkan cara membuat salinan lokal dari contoh kode menggunakan alat command line git.
Untuk mendownload kode contoh:
Clone repositori git menggunakan perintah berikut:
git clone https://github.com/google-ai-edge/mediapipe-samples
Secara opsional, konfigurasikan instance git Anda untuk menggunakan checkout sparse, sehingga Anda memiliki hanya file untuk aplikasi contoh Pengklasifikasi Gambar:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/image_classification/ios/
Setelah membuat versi lokal dari kode contoh, Anda dapat menginstal Library tugas MediaPipe, buka project menggunakan Xcode dan jalankan aplikasi. Sebagai lihat Panduan Penyiapan untuk iOS.
Komponen utama
File berikut berisi kode penting untuk contoh Pengklasifikasi Gambar aplikasi:
- ImageClassifierService.swift: Melakukan inisialisasi Pengklasifikasi Gambar, menangani pemilihan model, dan menjalankan inferensi pada data input.
- CameraViewController.swift: Menerapkan UI untuk mode input feed kamera live dan memvisualisasikan hasilnya.
- MediaLibraryViewController.swift Mengimplementasikan UI untuk mode input file video dan gambar diam serta memvisualisasikan hasilnya.
Penyiapan
Bagian ini menjelaskan langkah-langkah utama untuk menyiapkan lingkungan pengembangan dan mengkodekan project untuk menggunakan Pengklasifikasi Gambar. Untuk informasi umum tentang penyiapan lingkungan pengembangan untuk menggunakan tugas MediaPipe, termasuk versi platform persyaratan, lihat Panduan penyiapan untuk iOS.
Dependensi
Pengklasifikasi Gambar menggunakan library MediaPipeTasksVision
, yang harus diinstal
menggunakan CocoaPods. Library ini kompatibel dengan aplikasi Swift dan Objective-C
dan tidak memerlukan penyiapan tambahan khusus bahasa.
Untuk petunjuk menginstal CocoaPods di macOS, lihat CocoaPods
panduan pemasangan kami.
Untuk mendapatkan petunjuk cara membuat Podfile
dengan pod yang diperlukan untuk
aplikasi, lihat Menggunakan
CocoaPods.
Tambahkan pod MediaPipeTasksVision di Podfile
menggunakan kode berikut:
target 'MyImageClassifierApp' do
use_frameworks!
pod 'MediaPipeTasksVision'
end
Jika aplikasi Anda menyertakan target pengujian unit, lihat Panduan Penyiapan untuk
iOS untuk informasi tambahan terkait penyiapan
Podfile
Anda.
Model
Tugas Pengklasifikasi Gambar MediaPipe memerlukan model terlatih yang kompatibel dengan tugas ini. Untuk informasi lebih lanjut tentang model terlatih yang tersedia Pengklasifikasi Gambar, lihat ringkasan tugas Model bagian.
Pilih dan download model, lalu tambahkan ke direktori project Anda menggunakan Xcode. Untuk instruksi tentang cara menambahkan file ke proyek Xcode Anda, lihat Mengelola dan folder di Xcode Anda project Anda.
Gunakan properti BaseOptions.modelAssetPath
untuk menentukan jalur ke model
dalam app bundle Anda. Untuk contoh kode, lihat bagian berikutnya.
Membuat tugas
Anda dapat membuat tugas Pengklasifikasi Gambar dengan memanggil salah satu penginisialisasinya. Tujuan
Penginisialisasi ImageClassifier(options:)
menetapkan nilai untuk opsi konfigurasi
termasuk mode berjalan, lokal nama tampilan, jumlah hasil maksimal, tingkat keyakinan
nilai minimum, daftar kategori yang diizinkan, dan daftar tolak.
Jika Anda tidak memerlukan Pengklasifikasi Gambar yang diinisialisasi dengan konfigurasi yang disesuaikan
Anda dapat menggunakan penginisialisasi ImageClassifier(modelPath:)
untuk membuat
Pengklasifikasi Gambar dengan opsi default. Untuk informasi selengkapnya tentang konfigurasi
opsi, lihat Ringkasan Konfigurasi.
Tugas Pengklasifikasi Gambar mendukung 3 jenis data input: file video dan gambar diam
dan streaming video live. Secara default, ImageClassifier(modelPath:)
menginisialisasi
untuk gambar diam. Jika Anda ingin tugas Anda diinisialisasi untuk memproses video
file atau streaming video live, gunakan ImageClassifier(options:)
untuk menentukan
mode video atau livestream berjalan. Mode livestream juga memerlukan
opsi konfigurasi imageClassifierLiveStreamDelegate
tambahan, yang
memungkinkan Pengklasifikasi Gambar mengirimkan hasil klasifikasi gambar ke
delegasikan secara asinkron.
Pilih tab yang sesuai dengan mode lari Anda untuk melihat cara membuat tugas dan menjalankan inferensi.
Swift
Gambar
import MediaPipeTasksVision let modelPath = Bundle.main.path(forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .image options.maxResults = 5 let imageClassifier = try ImageClassifier(options: options)
Video
import MediaPipeTasksVision let modelPath = Bundle.main.path(forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .video options.maxResults = 5 let imageClassifier = try ImageClassifier(options: options)
Livestream
import MediaPipeTasksVision // Class that conforms to the `ImageClassifierLiveStreamDelegate` protocol and // implements the method that the image classifier calls once it // finishes performing classification on each input frame. class ImageClassifierResultProcessor: NSObject, ImageClassifierLiveStreamDelegate { func imageClassifier( _ imageClassifier: ImageClassifier, didFinishClassification result: ImageClassifierResult?, timestampInMilliseconds: Int, error: Error?) { // Process the image classifier result or errors here. } } let modelPath = Bundle.main.path( forResource: "model", ofType: "tflite") let options = ImageClassifierOptions() options.baseOptions.modelAssetPath = modelPath options.runningMode = .liveStream options.maxResults = 5 // Assign an object of the class to the `imageClassifierLiveStreamDelegate` // property. let processor = ImageClassifierResultProcessor() options.imageClassifierLiveStreamDelegate = processor let imageClassifier = try ImageClassifier(options: options)
Objective-C
Gambar
@import MediaPipeTasksVision; NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeImage; options.maxResults = 5; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Video
@import MediaPipeTasksVision; NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeVideo; options.maxResults = 5; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Livestream
@import MediaPipeTasksVision; // Class that conforms to the `MPPImageClassifierLiveStreamDelegate` protocol // and implements the method that the image classifier calls once it finishes // performing classification on each input frame. @interface APPImageClassifierResultProcessor : NSObject@end @implementation APPImageClassifierResultProcessor - (void)imageClassifier:(MPPImageClassifier *)imageClassifier didFinishClassificationWithResult:(MPPImageClassifierResult *)imageClassifierResult timestampInMilliseconds:(NSInteger)timestampInMilliseconds error:(NSError *)error { // Process the image classifier result or errors here. } @end NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model" ofType:@"tflite"]; MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init]; options.baseOptions.modelAssetPath = modelPath; options.runningMode = MPPRunningModeLiveStream; options.maxResults = 5; // Assign an object of the class to the `imageClassifierLiveStreamDelegate` // property. APPImageClassifierResultProcessor *processor = [APPImageClassifierResultProcessor new]; options.imageClassifierLiveStreamDelegate = processor; MPPImageClassifier *imageClassifier = [[MPPImageClassifier alloc] initWithOptions:options error:nil];
Opsi konfigurasi
Tugas ini memiliki opsi konfigurasi berikut untuk aplikasi iOS:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
runningMode |
Menetapkan mode berjalan untuk tugas. Ada tiga
moda: IMAGE: Mode untuk input gambar tunggal. VIDEO: Mode untuk frame video yang didekode. LIVE_STREAM: Mode untuk live stream input besar, seperti dari kamera. Dalam mode ini, resultListener harus dipanggil untuk menyiapkan pemroses yang akan menerima hasil secara asinkron. |
{RunningMode.image, RunningMode.video, RunningMode.liveStream } |
RunningMode.image |
displayNamesLocale |
Menyetel bahasa label yang akan digunakan untuk nama tampilan yang diberikan di
metadata model tugas, jika tersedia. Defaultnya adalah en untuk
Bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom
menggunakan TensorFlow Lite Metadata Writer API |
Kode lokal | id |
maxResults |
Menetapkan jumlah maksimum opsional untuk hasil klasifikasi dengan skor tertinggi ke kembali. Jika < 0, semua hasil yang tersedia akan ditampilkan. | Semua angka positif | -1 |
scoreThreshold |
Menetapkan ambang batas skor prediksi yang menggantikan skor yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini ditolak. | Float mana pun | Tidak ditetapkan |
categoryAllowlist |
Menetapkan daftar opsional untuk nama kategori yang diizinkan. Jika tidak kosong,
hasil klasifikasi yang nama kategorinya tidak ada dalam kumpulan ini akan
disaring. Nama kategori duplikat atau yang tidak diketahui akan diabaikan.
Opsi ini sama-sama bersifat eksklusif dengan categoryDenylist dan menggunakan
keduanya akan menghasilkan {i>error<i}. |
String apa pun | Tidak ditetapkan |
categoryDenylist |
Menetapkan daftar opsional nama kategori yang tidak diizinkan. Jika
hasil klasifikasi yang tidak kosong, yang nama kategorinya dalam rangkaian ini akan difilter
posisi-posisi ini. Nama kategori duplikat atau yang tidak diketahui akan diabaikan. Opsi ini sama-sama
eksklusif dengan categoryAllowlist dan menggunakan keduanya akan menyebabkan error. |
String apa pun | Tidak ditetapkan |
resultListener |
Menyetel pemroses hasil untuk menerima hasil klasifikasi
secara asinkron saat Pengklasifikasi Gambar berada dalam live stream
mode. Hanya dapat digunakan saat mode lari disetel ke LIVE_STREAM |
T/A | Tidak ditetapkan |
Konfigurasi livestream
Jika mode lari disetel ke livestream, Pengklasifikasi Gambar memerlukan
opsi konfigurasi imageClassifierLiveStreamDelegate
tambahan, yang
memungkinkan pengklasifikasi untuk memberikan hasil klasifikasi secara asinkron. Tujuan
delegasi mengimplementasikan
imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:)
, yang dipanggil Pengklasifikasi Gambar setelah memproses klasifikasi
hasil untuk setiap {i>frame<i}.
Nama opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
imageClassifierLiveStreamDelegate |
Mengaktifkan Pengklasifikasi Gambar untuk menerima hasil klasifikasi secara asinkron
dalam mode livestream. Kelas yang instance-nya disetel ke properti ini harus
menerapkan
imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:)
. |
Tidak berlaku | Tidak ditetapkan |
Menyiapkan data
Anda harus mengonversi gambar atau bingkai input menjadi objek MPImage
sebelum
meneruskannya ke Pengklasifikasi Gambar. MPImage
mendukung berbagai jenis image iOS
format, dan dapat menggunakannya dalam mode
berjalan apa pun untuk inferensi. Untuk selengkapnya
informasi tentang MPImage
, lihat
MPImage API
Pilih format gambar iOS berdasarkan kasus penggunaan dan mode lari yang
aplikasi diperlukan.MPImage
menerima UIImage
, CVPixelBuffer
, dan
CMSampleBuffer
Format gambar iOS.
UIImage
Format UIImage
sangat cocok untuk mode berjalan berikut:
Gambar: gambar dari app bundle, galeri pengguna, atau sistem file yang diformat sebagai Gambar
UIImage
dapat dikonversi menjadi objekMPImage
.Video: menggunakan AVAssetImageGenerator untuk mengekstrak frame video ke CGImage baru, lalu konversikan menjadi gambar
UIImage
.
Swift
// Load an image on the user's device as an iOS `UIImage` object. // Convert the `UIImage` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(uiImage: image)
Objective-C
// Load an image on the user's device as an iOS `UIImage` object. // Convert the `UIImage` object to a MediaPipe's Image object having the default // orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
Contoh ini menginisialisasi MPImage
dengan
UIImage.Orientation.Up
orientasi. Anda dapat menginisialisasi MPImage
dengan metode
UIImage.Orientation
masing-masing. Pengklasifikasi Gambar tidak mendukung orientasi yang dicerminkan seperti .upMirrored
,
.downMirrored
, .leftMirrored
, .rightMirrored
.
Untuk informasi selengkapnya tentang UIImage
, lihat UIImage Apple Developer
Dokumentasi.
CVPixelBuffer
Format CVPixelBuffer
sangat cocok untuk aplikasi yang membuat frame
dan menggunakan CoreImage iOS
untuk pemrosesan.
Format CVPixelBuffer
sangat cocok untuk mode berjalan berikut:
Gambar: aplikasi yang membuat gambar
CVPixelBuffer
setelah beberapa pemrosesan menggunakan frameworkCoreImage
iOS dapat dikirim ke Pengklasifikasi Gambar di mode image running.Video: frame video dapat dikonversi ke format
CVPixelBuffer
untuk diproses, lalu dikirim ke Pengklasifikasi Gambar dalam mode video.livestream: aplikasi yang menggunakan kamera iOS untuk membuat frame dapat dikonversi ke dalam format
CVPixelBuffer
untuk diproses sebelum dikirim ke Pengklasifikasi Gambar dalam mode livestream.
Swift
// Obtain a CVPixelBuffer. // Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(pixelBuffer: pixelBuffer)
Objective-C
// Obtain a CVPixelBuffer. // Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the // default orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
Untuk informasi selengkapnya tentang CVPixelBuffer
, lihat CVPixelBuffer Apple
Pengembang
Dokumentasi.
CMSampleBuffer
Format CMSampleBuffer
menyimpan sampel media dari jenis media yang seragam, dan
sangat cocok untuk mode livestream yang sedang berjalan. {i>Live frame<i} dari kamera iOS
dikirim secara asinkron dalam format CMSampleBuffer
oleh iOS
AVCaptureVideoDataOutput.
Swift
// Obtain a CMSampleBuffer. // Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the default // orientation `UIImage.Orientation.up`. let image = try MPImage(sampleBuffer: sampleBuffer)
Objective-C
// Obtain a `CMSampleBuffer`. // Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the // default orientation `UIImageOrientationUp`. MPImage *image = [[MPPImage alloc] initWithSampleBuffer:sampleBuffer error:nil];
Untuk informasi selengkapnya tentang CMSampleBuffer
, lihat CMSampleBuffer Apple
Pengembang
Dokumentasi.
Menjalankan tugas
Untuk menjalankan Pengklasifikasi Gambar, gunakan metode classify()
khusus untuk
mode lari:
- Gambar diam:
classify(image:)
- Video:
classify(videoFrame:timestampInMilliseconds:)
- livestream:
classifyAsync(image:timestampInMilliseconds:)
Pengklasifikasi Gambar mengembalikan kategori-kategori yang memungkinkan untuk objek dalam gambar atau bingkai input.
Contoh kode berikut menunjukkan contoh dasar cara menjalankan Pengklasifikasi Gambar dalam mode lari yang berbeda:
Swift
Gambar
let result = try imageClassifier.classify(image: image)
Video
let result = try imageClassifier.classify( videoFrame: image, timestampInMilliseconds: timestamp)
Livestream
try imageClassifier.classifyAsync( image: image, timestampInMilliseconds: timestamp)
Objective-C
Gambar
MPPImageClassifierResult *result = [imageClassifier classifyImage:image error:nil];
Video
MPPImageClassifierResult *result = [imageClassifier classifyVideoFrame:image timestampInMilliseconds:timestamp error:nil];
Livestream
BOOL success = [imageClassifier classifyAsyncImage:image timestampInMilliseconds:timestamp error:nil];
Contoh kode Pengklasifikasi Gambar menunjukkan implementasi setiap mode ini
secara lebih detail classify(image:)
,
classify(videoFrame:timestampInMilliseconds:)
dan
classifyAsync(image:timestampInMilliseconds:)
. Kode contoh memungkinkan
pengguna untuk beralih di antara mode pemrosesan yang mungkin tidak diperlukan untuk penggunaan Anda
ini masalahnya atau bukan.
Perhatikan hal berikut:
Saat berjalan dalam mode video atau mode livestream, Anda juga harus menyediakan stempel waktu frame input ke tugas Pengklasifikasi Gambar.
Saat dijalankan dalam mode gambar atau video, tugas Pengklasifikasi Gambar memblokir thread saat ini hingga selesai memproses gambar atau bingkai input. Kepada menghindari pemblokiran thread saat ini, jalankan pemrosesan di latar belakang thread menggunakan iOS Dispatch atau NSOperation framework.
Saat berjalan dalam mode livestream, tugas Pengklasifikasi Gambar akan segera ditampilkan dan tidak memblokir thread saat ini. Fungsi ini memanggil
imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:)
dengan hasil klasifikasi setelah memproses setiap bingkai input. Tujuan Pengklasifikasi Gambar memanggil metode ini secara asinkron pada rangkaian khusus antrean pengiriman. Untuk menampilkan hasil pada antarmuka pengguna, kirim hasil ke antrean utama setelah memproses hasilnya. Jika FungsiclassifyAsync
dipanggil saat tugas Pengklasifikasi Gambar sedang sibuk memproses bingkai lain, Pengklasifikasi Gambar mengabaikan bingkai input baru.
Menangani dan menampilkan hasil
Setelah menjalankan inferensi, tugas Pengklasifikasi Gambar mengembalikan
Objek ImageClassifierResult
yang berisi daftar kemungkinan kategori
untuk objek dalam gambar atau bingkai input.
Berikut ini contoh data output dari tugas ini:
ImageClassifierResult:
Classifications #0 (single classification head):
head index: 0
category #0:
category name: "/m/01bwb9"
display name: "Passer domesticus"
score: 0.91406
index: 671
category #1:
category name: "/m/01bwbt"
display name: "Passer montanus"
score: 0.00391
index: 670
Hasil ini diperoleh dengan menjalankan Bird Classifier pada:
Kode contoh Pengklasifikasi Gambar menunjukkan cara menampilkan klasifikasi hasil yang ditampilkan dari tugas, lihat kode contoh untuk mengetahui detailnya.