Panduan klasifikasi gambar untuk iOS

Tugas Pengklasifikasi Gambar memungkinkan Anda melakukan klasifikasi pada gambar. Anda dapat menggunakan tugas ini untuk mengidentifikasi apa yang diwakili oleh suatu gambar di antara serangkaian kategori yang ditentukan pada waktu pelatihan. Petunjuk ini menunjukkan cara menggunakan Pengklasifikasi Gambar dalam aplikasi iOS. Contoh kode yang dijelaskan dalam petunjuk ini tersedia di GitHub.

Anda dapat melihat cara kerja tugas ini dengan membuka Web demo. Sebagai informasi lebih lanjut tentang kemampuan, model, dan opsi konfigurasi dari untuk tugas ini, lihat Ringkasan.

Contoh kode

Kode contoh Tugas MediaPipe adalah implementasi dasar dari Pengklasifikasi Gambar untuk iOS. Contoh ini menggunakan kamera pada perangkat iOS fisik untuk terus mengklasifikasikan objek, dan juga dapat menggunakan gambar dan video dari galeri perangkat untuk mengklasifikasikan objek secara statis.

Anda dapat menggunakan aplikasi ini sebagai titik awal untuk aplikasi iOS Anda sendiri, atau merujuk ke sana saat memodifikasi aplikasi yang ada. Kode contoh Pengklasifikasi Gambar dihosting di GitHub.

Mendownload kode

Petunjuk berikut menunjukkan cara membuat salinan lokal dari contoh kode menggunakan alat command line git.

Untuk mendownload kode contoh:

  1. Clone repositori git menggunakan perintah berikut:

    git clone https://github.com/google-ai-edge/mediapipe-samples
    
  2. Secara opsional, konfigurasikan instance git Anda untuk menggunakan checkout sparse, sehingga Anda memiliki hanya file untuk aplikasi contoh Pengklasifikasi Gambar:

    cd mediapipe
    git sparse-checkout init --cone
    git sparse-checkout set examples/image_classification/ios/
    

Setelah membuat versi lokal dari kode contoh, Anda dapat menginstal Library tugas MediaPipe, buka project menggunakan Xcode dan jalankan aplikasi. Sebagai lihat Panduan Penyiapan untuk iOS.

Komponen utama

File berikut berisi kode penting untuk contoh Pengklasifikasi Gambar aplikasi:

Penyiapan

Bagian ini menjelaskan langkah-langkah utama untuk menyiapkan lingkungan pengembangan dan mengkodekan project untuk menggunakan Pengklasifikasi Gambar. Untuk informasi umum tentang penyiapan lingkungan pengembangan untuk menggunakan tugas MediaPipe, termasuk versi platform persyaratan, lihat Panduan penyiapan untuk iOS.

Dependensi

Pengklasifikasi Gambar menggunakan library MediaPipeTasksVision, yang harus diinstal menggunakan CocoaPods. Library ini kompatibel dengan aplikasi Swift dan Objective-C dan tidak memerlukan penyiapan tambahan khusus bahasa.

Untuk petunjuk menginstal CocoaPods di macOS, lihat CocoaPods panduan pemasangan kami. Untuk mendapatkan petunjuk cara membuat Podfile dengan pod yang diperlukan untuk aplikasi, lihat Menggunakan CocoaPods.

Tambahkan pod MediaPipeTasksVision di Podfile menggunakan kode berikut:

target 'MyImageClassifierApp' do
  use_frameworks!
  pod 'MediaPipeTasksVision'
end

Jika aplikasi Anda menyertakan target pengujian unit, lihat Panduan Penyiapan untuk iOS untuk informasi tambahan terkait penyiapan Podfile Anda.

Model

Tugas Pengklasifikasi Gambar MediaPipe memerlukan model terlatih yang kompatibel dengan tugas ini. Untuk informasi lebih lanjut tentang model terlatih yang tersedia Pengklasifikasi Gambar, lihat ringkasan tugas Model bagian.

Pilih dan download model, lalu tambahkan ke direktori project Anda menggunakan Xcode. Untuk instruksi tentang cara menambahkan file ke proyek Xcode Anda, lihat Mengelola dan folder di Xcode Anda project Anda.

Gunakan properti BaseOptions.modelAssetPath untuk menentukan jalur ke model dalam app bundle Anda. Untuk contoh kode, lihat bagian berikutnya.

Membuat tugas

Anda dapat membuat tugas Pengklasifikasi Gambar dengan memanggil salah satu penginisialisasinya. Tujuan Penginisialisasi ImageClassifier(options:) menetapkan nilai untuk opsi konfigurasi termasuk mode berjalan, lokal nama tampilan, jumlah hasil maksimal, tingkat keyakinan nilai minimum, daftar kategori yang diizinkan, dan daftar tolak.

Jika Anda tidak memerlukan Pengklasifikasi Gambar yang diinisialisasi dengan konfigurasi yang disesuaikan Anda dapat menggunakan penginisialisasi ImageClassifier(modelPath:) untuk membuat Pengklasifikasi Gambar dengan opsi default. Untuk informasi selengkapnya tentang konfigurasi opsi, lihat Ringkasan Konfigurasi.

Tugas Pengklasifikasi Gambar mendukung 3 jenis data input: file video dan gambar diam dan streaming video live. Secara default, ImageClassifier(modelPath:) menginisialisasi untuk gambar diam. Jika Anda ingin tugas Anda diinisialisasi untuk memproses video file atau streaming video live, gunakan ImageClassifier(options:) untuk menentukan mode video atau livestream berjalan. Mode livestream juga memerlukan opsi konfigurasi imageClassifierLiveStreamDelegate tambahan, yang memungkinkan Pengklasifikasi Gambar mengirimkan hasil klasifikasi gambar ke delegasikan secara asinkron.

Pilih tab yang sesuai dengan mode lari Anda untuk melihat cara membuat tugas dan menjalankan inferensi.

Swift

Gambar

import MediaPipeTasksVision

let modelPath = Bundle.main.path(forResource: "model",
                                      ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .image
options.maxResults = 5

let imageClassifier = try ImageClassifier(options: options)
    

Video

import MediaPipeTasksVision

let modelPath = Bundle.main.path(forResource: "model",
                                      ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .video
options.maxResults = 5

let imageClassifier = try ImageClassifier(options: options)
    

Livestream

import MediaPipeTasksVision

// Class that conforms to the `ImageClassifierLiveStreamDelegate` protocol and
// implements the method that the image classifier calls once it
// finishes performing classification on each input frame.
class ImageClassifierResultProcessor: NSObject, ImageClassifierLiveStreamDelegate {

   func imageClassifier(
    _ imageClassifier: ImageClassifier,
    didFinishClassification result: ImageClassifierResult?,
    timestampInMilliseconds: Int,
    error: Error?) {

    // Process the image classifier result or errors here.

  }
}

let modelPath = Bundle.main.path(
  forResource: "model",
  ofType: "tflite")

let options = ImageClassifierOptions()
options.baseOptions.modelAssetPath = modelPath
options.runningMode = .liveStream
options.maxResults = 5

// Assign an object of the class to the `imageClassifierLiveStreamDelegate`
// property.
let processor = ImageClassifierResultProcessor()
options.imageClassifierLiveStreamDelegate = processor

let imageClassifier = try ImageClassifier(options: options)
    

Objective-C

Gambar

@import MediaPipeTasksVision;

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeImage;
options.maxResults = 5;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Video

@import MediaPipeTasksVision;

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeVideo;
options.maxResults = 5;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Livestream

@import MediaPipeTasksVision;

// Class that conforms to the `MPPImageClassifierLiveStreamDelegate` protocol
// and implements the method that the image classifier calls once it finishes
// performing classification on each input frame.

@interface APPImageClassifierResultProcessor : NSObject 

@end

@implementation APPImageClassifierResultProcessor

-   (void)imageClassifier:(MPPImageClassifier *)imageClassifier
    didFinishClassificationWithResult:(MPPImageClassifierResult *)imageClassifierResult
              timestampInMilliseconds:(NSInteger)timestampInMilliseconds
                                error:(NSError *)error {

    // Process the image classifier result or errors here.

}

@end

NSString *modelPath = [[NSBundle mainBundle] pathForResource:@"model"
                                                      ofType:@"tflite"];

MPPImageClassifierOptions *options = [[MPPImageClassifierOptions alloc] init];
options.baseOptions.modelAssetPath = modelPath;
options.runningMode = MPPRunningModeLiveStream;
options.maxResults = 5;

// Assign an object of the class to the `imageClassifierLiveStreamDelegate`
// property.
APPImageClassifierResultProcessor *processor = [APPImageClassifierResultProcessor new];
options.imageClassifierLiveStreamDelegate = processor;

MPPImageClassifier *imageClassifier =
      [[MPPImageClassifier alloc] initWithOptions:options error:nil];
    

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut untuk aplikasi iOS:

Nama Opsi Deskripsi Rentang Nilai Nilai Default
runningMode Menetapkan mode berjalan untuk tugas. Ada tiga moda:

IMAGE: Mode untuk input gambar tunggal.

VIDEO: Mode untuk frame video yang didekode.

LIVE_STREAM: Mode untuk live stream input besar, seperti dari kamera. Dalam mode ini, resultListener harus dipanggil untuk menyiapkan pemroses yang akan menerima hasil secara asinkron.
{RunningMode.image, RunningMode.video, RunningMode.liveStream} RunningMode.image
displayNamesLocale Menyetel bahasa label yang akan digunakan untuk nama tampilan yang diberikan di metadata model tugas, jika tersedia. Defaultnya adalah en untuk Bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API Kode lokal id
maxResults Menetapkan jumlah maksimum opsional untuk hasil klasifikasi dengan skor tertinggi ke kembali. Jika < 0, semua hasil yang tersedia akan ditampilkan. Semua angka positif -1
scoreThreshold Menetapkan ambang batas skor prediksi yang menggantikan skor yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini ditolak. Float mana pun Tidak ditetapkan
categoryAllowlist Menetapkan daftar opsional untuk nama kategori yang diizinkan. Jika tidak kosong, hasil klasifikasi yang nama kategorinya tidak ada dalam kumpulan ini akan disaring. Nama kategori duplikat atau yang tidak diketahui akan diabaikan. Opsi ini sama-sama bersifat eksklusif dengan categoryDenylist dan menggunakan keduanya akan menghasilkan {i>error<i}. String apa pun Tidak ditetapkan
categoryDenylist Menetapkan daftar opsional nama kategori yang tidak diizinkan. Jika hasil klasifikasi yang tidak kosong, yang nama kategorinya dalam rangkaian ini akan difilter posisi-posisi ini. Nama kategori duplikat atau yang tidak diketahui akan diabaikan. Opsi ini sama-sama eksklusif dengan categoryAllowlist dan menggunakan keduanya akan menyebabkan error. String apa pun Tidak ditetapkan
resultListener Menyetel pemroses hasil untuk menerima hasil klasifikasi secara asinkron saat Pengklasifikasi Gambar berada dalam live stream mode. Hanya dapat digunakan saat mode lari disetel ke LIVE_STREAM T/A Tidak ditetapkan

Konfigurasi livestream

Jika mode lari disetel ke livestream, Pengklasifikasi Gambar memerlukan opsi konfigurasi imageClassifierLiveStreamDelegate tambahan, yang memungkinkan pengklasifikasi untuk memberikan hasil klasifikasi secara asinkron. Tujuan delegasi mengimplementasikan imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:) , yang dipanggil Pengklasifikasi Gambar setelah memproses klasifikasi hasil untuk setiap {i>frame<i}.

Nama opsi Deskripsi Rentang Nilai Nilai Default
imageClassifierLiveStreamDelegate Mengaktifkan Pengklasifikasi Gambar untuk menerima hasil klasifikasi secara asinkron dalam mode livestream. Kelas yang instance-nya disetel ke properti ini harus menerapkan imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:) . Tidak berlaku Tidak ditetapkan

Menyiapkan data

Anda harus mengonversi gambar atau bingkai input menjadi objek MPImage sebelum meneruskannya ke Pengklasifikasi Gambar. MPImage mendukung berbagai jenis image iOS format, dan dapat menggunakannya dalam mode berjalan apa pun untuk inferensi. Untuk selengkapnya informasi tentang MPImage, lihat MPImage API

Pilih format gambar iOS berdasarkan kasus penggunaan dan mode lari yang aplikasi diperlukan.MPImage menerima UIImage, CVPixelBuffer, dan CMSampleBuffer Format gambar iOS.

UIImage

Format UIImage sangat cocok untuk mode berjalan berikut:

  • Gambar: gambar dari app bundle, galeri pengguna, atau sistem file yang diformat sebagai Gambar UIImage dapat dikonversi menjadi objek MPImage.

  • Video: menggunakan AVAssetImageGenerator untuk mengekstrak frame video ke CGImage baru, lalu konversikan menjadi gambar UIImage.

Swift

// Load an image on the user's device as an iOS `UIImage` object.

// Convert the `UIImage` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(uiImage: image)
    

Objective-C

// Load an image on the user's device as an iOS `UIImage` object.

// Convert the `UIImage` object to a MediaPipe's Image object having the default
// orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
    

Contoh ini menginisialisasi MPImage dengan UIImage.Orientation.Up orientasi. Anda dapat menginisialisasi MPImage dengan metode UIImage.Orientation masing-masing. Pengklasifikasi Gambar tidak mendukung orientasi yang dicerminkan seperti .upMirrored, .downMirrored, .leftMirrored, .rightMirrored.

Untuk informasi selengkapnya tentang UIImage, lihat UIImage Apple Developer Dokumentasi.

CVPixelBuffer

Format CVPixelBuffer sangat cocok untuk aplikasi yang membuat frame dan menggunakan CoreImage iOS untuk pemrosesan.

Format CVPixelBuffer sangat cocok untuk mode berjalan berikut:

  • Gambar: aplikasi yang membuat gambar CVPixelBuffer setelah beberapa pemrosesan menggunakan framework CoreImage iOS dapat dikirim ke Pengklasifikasi Gambar di mode image running.

  • Video: frame video dapat dikonversi ke format CVPixelBuffer untuk diproses, lalu dikirim ke Pengklasifikasi Gambar dalam mode video.

  • livestream: aplikasi yang menggunakan kamera iOS untuk membuat frame dapat dikonversi ke dalam format CVPixelBuffer untuk diproses sebelum dikirim ke Pengklasifikasi Gambar dalam mode livestream.

Swift

// Obtain a CVPixelBuffer.

// Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(pixelBuffer: pixelBuffer)
    

Objective-C

// Obtain a CVPixelBuffer.

// Convert the `CVPixelBuffer` object to a MediaPipe's Image object having the
// default orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithUIImage:image error:nil];
    

Untuk informasi selengkapnya tentang CVPixelBuffer, lihat CVPixelBuffer Apple Pengembang Dokumentasi.

CMSampleBuffer

Format CMSampleBuffer menyimpan sampel media dari jenis media yang seragam, dan sangat cocok untuk mode livestream yang sedang berjalan. {i>Live frame<i} dari kamera iOS dikirim secara asinkron dalam format CMSampleBuffer oleh iOS AVCaptureVideoDataOutput.

Swift

// Obtain a CMSampleBuffer.

// Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the default
// orientation `UIImage.Orientation.up`.
let image = try MPImage(sampleBuffer: sampleBuffer)
    

Objective-C

// Obtain a `CMSampleBuffer`.

// Convert the `CMSampleBuffer` object to a MediaPipe's Image object having the
// default orientation `UIImageOrientationUp`.
MPImage *image = [[MPPImage alloc] initWithSampleBuffer:sampleBuffer error:nil];
    

Untuk informasi selengkapnya tentang CMSampleBuffer, lihat CMSampleBuffer Apple Pengembang Dokumentasi.

Menjalankan tugas

Untuk menjalankan Pengklasifikasi Gambar, gunakan metode classify() khusus untuk mode lari:

  • Gambar diam: classify(image:)
  • Video: classify(videoFrame:timestampInMilliseconds:)
  • livestream: classifyAsync(image:timestampInMilliseconds:)

Pengklasifikasi Gambar mengembalikan kategori-kategori yang memungkinkan untuk objek dalam gambar atau bingkai input.

Contoh kode berikut menunjukkan contoh dasar cara menjalankan Pengklasifikasi Gambar dalam mode lari yang berbeda:

Swift

Gambar

let result = try imageClassifier.classify(image: image)
    

Video

let result = try imageClassifier.classify(
  videoFrame: image,
  timestampInMilliseconds: timestamp)
    

Livestream

try imageClassifier.classifyAsync(
  image: image,
  timestampInMilliseconds: timestamp)
    

Objective-C

Gambar

MPPImageClassifierResult *result = [imageClassifier classifyImage:image
                                                            error:nil];
    

Video

MPPImageClassifierResult *result = [imageClassifier classifyVideoFrame:image
                                               timestampInMilliseconds:timestamp
                                                                 error:nil];
    

Livestream

BOOL success = [imageClassifier classifyAsyncImage:image
                          timestampInMilliseconds:timestamp
                                            error:nil];
    

Contoh kode Pengklasifikasi Gambar menunjukkan implementasi setiap mode ini secara lebih detail classify(image:), classify(videoFrame:timestampInMilliseconds:) dan classifyAsync(image:timestampInMilliseconds:). Kode contoh memungkinkan pengguna untuk beralih di antara mode pemrosesan yang mungkin tidak diperlukan untuk penggunaan Anda ini masalahnya atau bukan.

Perhatikan hal berikut:

  • Saat berjalan dalam mode video atau mode livestream, Anda juga harus menyediakan stempel waktu frame input ke tugas Pengklasifikasi Gambar.

  • Saat dijalankan dalam mode gambar atau video, tugas Pengklasifikasi Gambar memblokir thread saat ini hingga selesai memproses gambar atau bingkai input. Kepada menghindari pemblokiran thread saat ini, jalankan pemrosesan di latar belakang thread menggunakan iOS Dispatch atau NSOperation framework.

  • Saat berjalan dalam mode livestream, tugas Pengklasifikasi Gambar akan segera ditampilkan dan tidak memblokir thread saat ini. Fungsi ini memanggil imageClassifier(_:didFinishClassification:timestampInMilliseconds:error:) dengan hasil klasifikasi setelah memproses setiap bingkai input. Tujuan Pengklasifikasi Gambar memanggil metode ini secara asinkron pada rangkaian khusus antrean pengiriman. Untuk menampilkan hasil pada antarmuka pengguna, kirim hasil ke antrean utama setelah memproses hasilnya. Jika Fungsi classifyAsync dipanggil saat tugas Pengklasifikasi Gambar sedang sibuk memproses bingkai lain, Pengklasifikasi Gambar mengabaikan bingkai input baru.

Menangani dan menampilkan hasil

Setelah menjalankan inferensi, tugas Pengklasifikasi Gambar mengembalikan Objek ImageClassifierResult yang berisi daftar kemungkinan kategori untuk objek dalam gambar atau bingkai input.

Berikut ini contoh data output dari tugas ini:

ImageClassifierResult:
 Classifications #0 (single classification head):
  head index: 0
  category #0:
   category name: "/m/01bwb9"
   display name: "Passer domesticus"
   score: 0.91406
   index: 671
  category #1:
   category name: "/m/01bwbt"
   display name: "Passer montanus"
   score: 0.00391
   index: 670

Hasil ini diperoleh dengan menjalankan Bird Classifier pada:

Kode contoh Pengklasifikasi Gambar menunjukkan cara menampilkan klasifikasi hasil yang ditampilkan dari tugas, lihat kode contoh untuk mengetahui detailnya.