Panduan klasifikasi gambar untuk iOS

Tugas Pengklasifikasi Gambar memungkinkan Anda melakukan klasifikasi pada gambar. Anda dapat menggunakan tugas ini untuk mengidentifikasi apa yang direpresentasikan oleh gambar di antara serangkaian kategori yang ditentukan pada waktu pelatihan. Petunjuk ini menunjukkan cara menggunakan Pengklasifikasi Gambar di aplikasi iOS. Contoh kode yang dijelaskan dalam petunjuk ini tersedia di GitHub.

Anda dapat melihat cara kerja tugas ini dengan melihat Demo web ini. Untuk informasi selengkapnya tentang kemampuan, model, dan opsi konfigurasi tugas ini, lihat Ringkasan.

Contoh kode

Kode contoh Tugas MediaPipe adalah implementasi dasar aplikasi Pengklasifikasi Gambar untuk iOS. Contoh ini menggunakan kamera di perangkat iOS fisik untuk terus mengklasifikasikan objek, dan juga dapat menggunakan gambar dan video dari galeri perangkat untuk mengklasifikasikan objek secara statis.

Anda dapat menggunakan aplikasi sebagai titik awal untuk aplikasi iOS Anda sendiri, atau merujuknya saat mengubah aplikasi yang ada. Kode contoh Pengklasifikasi Gambar dihosting di GitHub.

Mendownload kode

Petunjuk berikut menunjukkan cara membuat salinan lokal dari kode contoh menggunakan alat command line git.

Untuk mendownload kode contoh:

  1. Clone repositori git menggunakan perintah berikut:

    git clone https://github.com/google-ai-edge/mediapipe-samples
    
  2. Jika ingin, konfigurasikan instance git Anda untuk menggunakan checkout sparse, sehingga Anda hanya memiliki file untuk aplikasi contoh Pengklasifikasi Gambar:

    cd mediapipe
    git sparse-checkout init --cone
    git sparse-checkout set examples/image_classification/ios/
    

Setelah membuat versi lokal kode contoh, Anda dapat menginstal library tugas MediaPipe, buka project menggunakan Xcode, lalu jalankan aplikasi. Untuk mengetahui petunjuknya, lihat Panduan Penyiapan untuk iOS.

Komponen utama

File berikut berisi kode penting untuk aplikasi contoh Pengklasifikasi Gambar:

Penyiapan

Bagian ini menjelaskan langkah-langkah utama untuk menyiapkan lingkungan pengembangan dan project kode agar dapat menggunakan Pengklasifikasi Gambar. Guna mengetahui informasi umum tentang cara menyiapkan lingkungan pengembangan untuk menggunakan tugas MediaPipe, termasuk persyaratan versi platform, lihat Panduan penyiapan untuk iOS.

Dependensi

Pengklasifikasi Gambar menggunakan library MediaPipeTasksVision, yang harus diinstal menggunakan CocoaPods. Library ini kompatibel dengan aplikasi Swift dan Objective-C dan tidak memerlukan penyiapan khusus bahasa tambahan.

Untuk petunjuk menginstal CocoaPods di macOS, lihat panduan penginstalan CocoaPods. Untuk mendapatkan petunjuk cara membuat Podfile dengan pod yang diperlukan untuk aplikasi Anda, lihat Menggunakan CocoaPods.

Tambahkan pod MediaPipeTasksVision di Podfile menggunakan kode berikut:

target 'MyImageClassifierApp' do
  use_frameworks!
  pod 'MediaPipeTasksVision'
end

Jika aplikasi Anda menyertakan target pengujian unit, lihat Panduan Penyiapan untuk iOS guna mengetahui informasi tambahan tentang cara menyiapkan Podfile.

Model

Tugas Pengklasifikasi Gambar MediaPipe memerlukan model terlatih yang kompatibel dengan tugas ini. Untuk mengetahui informasi selengkapnya tentang model terlatih yang tersedia untuk Pengklasifikasi Gambar, lihat ringkasan tugas di bagian Model.

Pilih dan download model, lalu tambahkan ke direktori project Anda menggunakan Xcode. Untuk mendapatkan petunjuk cara menambahkan file ke project Xcode Anda, lihat Mengelola file dan folder di project Xcode Anda.

Gunakan properti BaseOptions.modelAssetPath untuk menentukan jalur ke model di app bundle Anda. Untuk contoh kode, lihat bagian berikutnya.

Membuat tugas

Anda dapat membuat tugas Pengklasifikasi Gambar dengan memanggil salah satu penginisialisasinya. Penginisialisasi ImageClassifier(options:) menetapkan nilai untuk opsi konfigurasi, termasuk mode berjalan, lokal nama tampilan, jumlah hasil maksimal, batas keyakinan, daftar kategori yang diizinkan, dan daftar tolak.

Jika tidak memerlukan Pengklasifikasi Gambar yang diinisialisasi dengan opsi konfigurasi yang disesuaikan, Anda dapat menggunakan penginisialisasi ImageClassifier(modelPath:) untuk membuat Pengklasifikasi Gambar dengan opsi default. Untuk informasi selengkapnya tentang opsi konfigurasi, lihat Ringkasan Konfigurasi.

Tugas Pengklasifikasi Gambar mendukung 3 jenis data input: gambar diam, file video, dan streaming video live. Secara default, ImageClassifier(modelPath:) menginisialisasi tugas untuk gambar diam. Jika Anda ingin tugas diinisialisasi untuk memproses file video atau streaming video live, gunakan ImageClassifier(options:) untuk menentukan mode video atau livestream yang berjalan. Mode livestream juga memerlukan opsi konfigurasi imageClassifierLiveStreamDelegate tambahan, yang memungkinkan Pengklasifikasi Gambar mengirimkan hasil klasifikasi gambar ke delegasi secara asinkron.

Pilih tab yang sesuai dengan mode lari Anda untuk melihat cara membuat tugas dan menjalankan inferensi.

Swift

Gambar

import MediaPipeTasksVision

let modelPath = Bundle.main.path(forResource: "model",
                                      ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .image
options.maxResults = 5

let imageClassifier = try ImageClassifier(options: options)
    

Video

import MediaPipeTasksVision

let modelPath = Bundle.main.path(forResource: "model",
                                      ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .video
options.maxResults = 5

let imageClassifier = try ImageClassifier(options: options)
    

Livestream

import MediaPipeTasksVision

// Class that conforms to the `ImageClassifierLiveStreamDelegate` protocol and
// implements the method that the image classifier calls once it
// finishes performing classification on each input frame.
class ImageClassifierResultProcessor: NSObject, ImageClassifierLiveStreamDelegate {

   func imageClassifier(
    _ imageClassifier: ImageClassifier,
    didFinishClassification result: ImageClassifierResult?,
    timestampInMilliseconds: Int,
    error: Error?) {

    // Process the image classifier result or errors here.

  }
}

let modelPath = Bundle.main.path(
  forResource: "model",
  ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .liveStream
options.maxResults = 5

// Assign an object of the class to the `imageClassifierLiveStreamDelegate`
// property.
let processor = ImageClassifierResultProcessor()
options.imageClassifierLiveStreamDelegate = processor

let imageClassifier = try ImageClassifier(options: options)
    

Objective-C

Gambar

@import MediaPipeTasksVision;

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeImage;
options.maxResults = 5;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Video

@import MediaPipeTasksVision;

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeVideo;
options.maxResults = 5;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Livestream

@import MediaPipeTasksVision;

// Class that conforms to the `MPPImageClassifierLiveStreamDelegate` protocol
// and implements the method that the image classifier calls once it finishes
// performing classification on each input frame.

@interface APPImageClassifierResultProcessor : NSObject 

@end

@implementation APPImageClassifierResultProcessor

-   (void)imageClassifier:(MPPImageClassifier *)imageClassifier
    didFinishClassificationWithResult:(MPPImageClassifierResult *)imageClassifierResult
              timestampInMilliseconds:(NSInteger)timestampInMilliseconds
                                error:(NSError *)error {

    // Process the image classifier result or errors here.

}

@end

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeLiveStream;
options.maxResults = 5;

// Assign an object of the class to the `imageClassifierLiveStreamDelegate`
// property.
APPImageClassifierResultProcessor *processor = [APPImageClassifierResultProcessor new];
options.imageClassifierLiveStreamDelegate = processor;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut untuk aplikasi iOS:

Nama Opsi Deskripsi Rentang Nilai Nilai Default
runningMode Menetapkan mode berjalan untuk tugas. Ada tiga mode:

IMAGE: Mode untuk input gambar tunggal.

VIDEO: Mode untuk frame video yang didekode.

LIVE_STREAM: Mode untuk livestream data input, seperti dari kamera. Dalam mode ini, resultListener harus dipanggil untuk menyiapkan pemroses agar menerima hasil secara asinkron.
{RunningMode.image, RunningMode.video, RunningMode.liveStream} RunningMode.image
displayNamesLocale Menyetel bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam metadata model tugas, jika tersedia. Defaultnya adalah en untuk bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API Kode lokal id
maxResults Menetapkan jumlah maksimum opsional dari hasil klasifikasi dengan skor tertinggi untuk ditampilkan. Jika < 0, semua hasil yang tersedia akan ditampilkan. Semua angka positif -1
scoreThreshold Menetapkan nilai minimum skor prediksi yang menggantikan nilai yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini ditolak. Float mana pun Tidak ditetapkan
categoryAllowlist Menetapkan daftar opsional untuk nama kategori yang diizinkan. Jika tidak kosong, hasil klasifikasi yang nama kategorinya tidak ada dalam kumpulan ini akan difilter. Nama kategori duplikat atau yang tidak diketahui akan diabaikan. Opsi ini sama-sama bersifat eksklusif dengan categoryDenylist dan penggunaan keduanya akan menyebabkan error. String apa pun Tidak ditetapkan
categoryDenylist Menetapkan daftar opsional nama kategori yang tidak diizinkan. Jika tidak kosong, hasil klasifikasi dengan nama kategori yang ada dalam kumpulan ini akan difilter. Nama kategori duplikat atau yang tidak diketahui akan diabaikan. Opsi ini sama eksklusif dengan categoryAllowlist dan penggunaan keduanya akan menghasilkan error. String apa pun Tidak ditetapkan
resultListener Menetapkan pemroses hasil untuk menerima hasil klasifikasi secara asinkron saat Pengklasifikasi Gambar dalam mode live stream. Hanya dapat digunakan saat mode lari disetel ke LIVE_STREAM T/A Tidak ditetapkan

Konfigurasi livestream

Jika mode yang berjalan disetel ke livestream, Pengklasifikasi Gambar memerlukan opsi konfigurasi imageClassifierLiveStreamDelegate tambahan, yang memungkinkan pengklasifikasi mengirimkan hasil klasifikasi secara asinkron. Delegasi tersebut menerapkan metode imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:), yang dipanggil Pengklasifikasi Gambar setelah memproses hasil klasifikasi untuk setiap frame.

Nama opsi Deskripsi Rentang Nilai Nilai Default
imageClassifierLiveStreamDelegate Mengaktifkan Pengklasifikasi Gambar untuk menerima hasil klasifikasi secara asinkron dalam mode livestream. Class yang instance-nya ditetapkan ke properti ini harus mengimplementasikan metode imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:). Tidak berlaku Tidak ditetapkan

Menyiapkan data

Anda harus mengonversi gambar atau bingkai input menjadi objek MPImage sebelum meneruskannya ke Pengklasifikasi Gambar. MPImage mendukung berbagai jenis format gambar iOS, dan dapat menggunakannya dalam mode berjalan apa pun untuk inferensi. Untuk informasi selengkapnya tentang MPImage, lihat MPImage API

Pilih format image iOS berdasarkan kasus penggunaan dan mode yang diperlukan aplikasi Anda.MPImage menerima format image iOS UIImage, CVPixelBuffer, dan CMSampleBuffer.

UIImage

Format UIImage sangat cocok untuk mode berjalan berikut:

  • Gambar: gambar dari app bundle, galeri pengguna, atau sistem file yang diformat sebagai gambar UIImage dapat dikonversi menjadi objek MPImage.

  • Video: gunakan AVAssetImageGenerator untuk mengekstrak frame video ke format CGImage, lalu konversikan menjadi gambar UIImage.

Swift

// Load an image on the user's device as an iOS `UIImage` object.

// Convert the `UIImage` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(uiImage: image)
    

Objective-C

// Load an image on the user's device as an iOS `UIImage` object.

// Convert the `UIImage` object to a MediaPipe's Image object having the default
// orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
    

Contoh ini menginisialisasi MPImage dengan orientasi UIImage.Orientation.Up default. Anda dapat menginisialisasi MPImage dengan salah satu nilai UIImage.Orientation yang didukung. Pengklasifikasi Gambar tidak mendukung orientasi yang dicerminkan seperti .upMirrored, .downMirrored, .leftMirrored, .rightMirrored.

Untuk mengetahui informasi selengkapnya tentang UIImage, lihat Dokumentasi Developer Apple UIImage.

CVPixelBuffer

Format CVPixelBuffer sangat cocok untuk aplikasi yang membuat frame dan menggunakan framework CoreImage iOS untuk pemrosesan.

Format CVPixelBuffer sangat cocok untuk mode berjalan berikut:

  • Gambar: aplikasi yang menghasilkan gambar CVPixelBuffer setelah beberapa pemrosesan menggunakan framework CoreImage iOS dapat dikirim ke Pengklasifikasi Gambar dalam mode gambar yang berjalan.

  • Video: frame video dapat dikonversi ke format CVPixelBuffer untuk diproses, lalu dikirim ke Pengklasifikasi Gambar dalam mode video.

  • livestream: aplikasi yang menggunakan kamera iOS untuk membuat frame dapat dikonversi ke format CVPixelBuffer untuk diproses sebelum dikirim ke Pengklasifikasi Gambar dalam mode livestream.

Swift

// Obtain a CVPixelBuffer.

// Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(pixelBuffer: pixelBuffer)
    

Objective-C

// Obtain a CVPixelBuffer.

// Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the
// default orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
    

Untuk mengetahui informasi selengkapnya tentang CVPixelBuffer, lihat Dokumentasi Developer Apple CVPixelBuffer.

CMSampleBuffer

Format CMSampleBuffer menyimpan sampel media dari jenis media yang seragam, dan cocok untuk mode yang berjalan di livestream. Frame live dari kamera iOS dikirimkan secara asinkron dalam format CMSampleBuffer oleh AVCaptureVideoDataOutput iOS.

Swift

// Obtain a CMSampleBuffer.

// Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(sampleBuffer: sampleBuffer)
    

Objective-C

// Obtain a `CMSampleBuffer`.

// Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the
// default orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithSampleBuffer:sampleBuffer error:nil];
    

Untuk mengetahui informasi selengkapnya tentang CMSampleBuffer, lihat Dokumentasi Developer Apple CMSampleBuffer.

Menjalankan tugas

Untuk menjalankan Pengklasifikasi Gambar, gunakan metode classify() khusus untuk mode lari yang ditetapkan:

  • Gambar diam: classify(image:)
  • Video: classify(videoFrame:timestampInMilliseconds:)
  • livestream: classifyAsync(image:timestampInMilliseconds:)

Pengklasifikasi Gambar menampilkan kategori yang memungkinkan untuk objek dalam gambar atau frame input.

Contoh kode berikut menunjukkan contoh dasar cara menjalankan Pengklasifikasi Gambar dalam berbagai mode lari ini:

Swift

Gambar

let result = try imageClassifier.classify(image: image)
    

Video

let result = try imageClassifier.classify(
  videoFrame: image,
  timestampInMilliseconds: timestamp)
    

Livestream

try imageClassifier.classifyAsync(
  image: image,
  timestampInMilliseconds: timestamp)
    

Objective-C

Gambar

MPPImageClassifierResult *result = [imageClassifier classifyImage:image
                                                            error:nil];
    

Video

MPPImageClassifierResult *result = [imageClassifier classifyVideoFrame:image
                                               timestampInMilliseconds:timestamp
                                                                 error:nil];
    

Livestream

BOOL success = [imageClassifier classifyAsyncImage:image
                          timestampInMilliseconds:timestamp
                                            error:nil];
    

Contoh kode Pengklasifikasi Gambar menunjukkan implementasi setiap mode ini secara lebih mendetail classify(image:), classify(videoFrame:timestampInMilliseconds:), dan classifyAsync(image:timestampInMilliseconds:). Kode contoh memungkinkan pengguna beralih antarmode pemrosesan yang mungkin tidak diperlukan untuk kasus penggunaan Anda.

Perhatikan hal berikut:

  • Saat berjalan dalam mode video atau mode livestream, Anda juga harus memberikan stempel waktu frame input ke tugas Pengklasifikasi Gambar.

  • Saat berjalan dalam mode gambar atau video, tugas Pengklasifikasi Gambar memblokir thread saat ini hingga selesai memproses gambar atau bingkai input. Untuk menghindari pemblokiran thread saat ini, jalankan pemrosesan di thread latar belakang menggunakan framework Dispatch atau NSOperation iOS.

  • Saat berjalan dalam mode livestream, tugas Pengklasifikasi Gambar akan langsung ditampilkan dan tidak memblokir thread saat ini. Metode ini memanggil metode imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:) dengan hasil klasifikasi setelah memproses setiap frame input. Pengklasifikasi Gambar memanggil metode ini secara asinkron pada antrean pengiriman serial khusus. Untuk menampilkan hasil di antarmuka pengguna, kirim hasil ke antrean utama setelah memproses hasilnya. Jika fungsi classifyAsync dipanggil saat tugas Pengklasifikasi Gambar sedang sibuk memproses frame lain, Pengklasifikasi Gambar akan mengabaikan frame input baru.

Menangani dan menampilkan hasil

Setelah menjalankan inferensi, tugas Pengklasifikasi Gambar menampilkan objek ImageClassifierResult yang berisi daftar kategori yang memungkinkan untuk objek dalam gambar atau bingkai input.

Berikut ini contoh data output dari tugas ini:

ImageClassifierResult:
 Classifications #0 (single classification head):
  head index: 0
  category #0:
   category name: "/m/01bwb9"
   display name: "Passer domesticus"
   score: 0.91406
   index: 671
  category #1:
   category name: "/m/01bwbt"
   display name: "Passer montanus"
   score: 0.00391
   index: 670

Hasil ini diperoleh dengan menjalankan Bird Classifier di:

Kode contoh Pengklasifikasi Gambar menunjukkan cara menampilkan hasil klasifikasi yang ditampilkan dari tugas. Lihat contoh kode untuk detailnya.