Panduan tugas klasifikasi gambar

Tugas Pengklasifikasi Gambar MediaPipe memungkinkan Anda melakukan klasifikasi pada gambar. Anda dapat menggunakan tugas ini untuk mengidentifikasi apa yang diwakili oleh gambar di antara serangkaian kategori yang ditentukan pada waktu pelatihan. Tugas ini beroperasi pada data gambar dengan model machine learning (ML) sebagai data statis atau streaming berkelanjutan dan menghasilkan daftar kategori potensial yang diurutkan berdasarkan skor probabilitas menurun.

Cobalah!

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam menerapkan dasar tugas ini, menggunakan model yang direkomendasikan, dan memberikan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Android - Contoh kode - Panduan
Python - Contoh kode - Panduan
Web - Contoh kode - Panduan
iOS - Contoh kode - Panduan

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

Pemrosesan gambar input - Pemrosesan mencakup rotasi gambar, pengubahan ukuran, normalisasi, dan konversi ruang warna.
Wilayah minat - Melakukan klasifikasi pada area gambar, bukan seluruh gambar.
Lokalitas peta label - Menyetel bahasa yang digunakan untuk nama tampilan.
Batas skor - Memfilter hasil berdasarkan skor prediksi.
Klasifikasi top-k - Membatasi jumlah hasil klasifikasi.
Daftar label dan daftar tolak yang diizinkan - Tentukan kategori yang diklasifikasikan.

Input tugas	Output tugas
Input dapat berupa salah satu jenis data berikut: Gambar diam Frame video yang didekode Feed video live	Pengklasifikasi Gambar menghasilkan daftar kategori yang berisi: Indeks kategori: indeks kategori dalam output model Skor: skor keyakinan untuk kategori ini, biasanya probabilitas dalam [0,1] Nama kategori (opsional): nama kategori seperti yang ditentukan dalam Metadata Model TFLite, jika tersedia Nama tampilan kategori (opsional): nama tampilan untuk kategori seperti yang ditentukan dalam Metadata Model TFLite, dalam bahasa yang ditentukan melalui opsi lokal nama tampilan, jika tersedia

Input tugas

Output tugas

Input dapat berupa salah satu jenis data berikut:

Gambar diam

Frame video yang didekode

Feed video live

Pengklasifikasi Gambar menghasilkan daftar kategori yang berisi:

Indeks kategori: indeks kategori dalam output model

Skor: skor keyakinan untuk kategori ini, biasanya probabilitas dalam [0,1]

Nama kategori (opsional): nama kategori seperti yang ditentukan dalam Metadata Model TFLite, jika tersedia

Nama tampilan kategori (opsional): nama tampilan untuk kategori seperti yang ditentukan dalam Metadata Model TFLite, dalam bahasa yang ditentukan melalui opsi lokal nama tampilan, jika tersedia

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi	Deskripsi	Rentang Nilai	Nilai Default
`running_mode`	Menetapkan mode berjalan untuk tugas. Ada tiga mode: IMAGE: Mode untuk input gambar tunggal. VIDEO: Mode untuk frame video yang didekode. LIVE_STREAM: Mode untuk livestream data input, seperti dari kamera. Dalam mode ini, resultListener harus dipanggil untuk menyiapkan pemroses yang menerima hasil secara asinkron.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`display_names_locale`	Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam metadata model tugas, jika tersedia. Defaultnya adalah `en` untuk bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API	Kode lokal	id
`max_results`	Menetapkan jumlah maksimum opsional hasil klasifikasi dengan skor tertinggi yang akan ditampilkan. Jika < 0, semua hasil yang tersedia akan ditampilkan.	Semua bilangan positif	`-1`
`score_threshold`	Menetapkan nilai minimum skor prediksi yang menggantikan skor yang diberikan dalam metadata model (jika ada). Hasil di bawah nilai ini ditolak.	Semua float	Tidak ditetapkan
`category_allowlist`	Menetapkan daftar opsional nama kategori yang diizinkan. Jika tidak kosong, hasil klasifikasi yang nama kategorinya tidak ada dalam kumpulan ini akan difilter. Nama kategori duplikat atau tidak diketahui akan diabaikan. Opsi ini sama-sama bersifat eksklusif dengan `category_denylist` dan menggunakan keduanya akan menghasilkan error.	String apa pun	Tidak ditetapkan
`category_denylist`	Menetapkan daftar opsional nama kategori yang tidak diizinkan. Jika tidak kosong, hasil klasifikasi yang nama kategorinya ada dalam kumpulan ini akan difilter. Nama kategori duplikat atau tidak diketahui akan diabaikan. Opsi ini sama-sama bersifat eksklusif dengan `category_allowlist` dan menggunakan keduanya akan menghasilkan error.	String apa pun	Tidak ditetapkan
`result_callback`	Menetapkan pemroses hasil untuk menerima hasil klasifikasi secara asinkron saat Pengklasifikasi Gambar berada dalam mode live stream. Hanya dapat digunakan saat mode lari disetel ke `LIVE_STREAM`	T/A	Tidak ditetapkan

Model

Pengklasifikasi Gambar memerlukan model klasifikasi gambar untuk didownload dan disimpan di direktori project Anda. Mulailah dengan model default yang direkomendasikan untuk platform target Anda saat Anda mulai mengembangkan aplikasi dengan tugas ini. Model lain yang tersedia biasanya melakukan kompromi antara performa, akurasi, resolusi, dan persyaratan resource, dan dalam beberapa kasus, menyertakan fitur tambahan.

Model EfficientNet-Lite0 (direkomendasikan)

Model EfficientNet-Lite0 menggunakan arsitektur EfficientNet dan dilatih menggunakan ImageNet untuk mengenali 1.000 class,seperti pohon, hewan, makanan, kendaraan, orang, dll. Lihat daftar lengkap label yang didukung. EfficientNet-Lite0 tersedia sebagai model int8 dan float 32. Model ini direkomendasikan karena mencapai keseimbangan antara latensi dan akurasi. Keduanya cukup akurat dan ringan untuk banyak kasus penggunaan.

Nama model	Bentuk input	Jenis kuantisasi	Versions
EfficientNet-Lite0 (int8)	224 x 224	int8	Terbaru
EfficientNet-Lite0 (float 32)	224 x 224	Tidak ada (float32)	Terbaru

Model EfficientNet-Lite2

Model EfficientNet-Lite2 menggunakan arsitektur EfficientNet dan dilatih menggunakan ImageNet untuk mengenali 1.000 class,seperti pohon, hewan, makanan, kendaraan, orang, dll. Lihat daftar lengkap label yang didukung. EfficientNet-Lite2 tersedia sebagai model int8 dan float 32. Model ini umumnya lebih akurat daripada EfficientNet-Lite0, tetapi juga lebih lambat dan lebih intensif memori. Model ini cocok untuk kasus penggunaan dengan akurasi merupakan prioritas yang lebih tinggi daripada kecepatan atau ukuran.

Nama model	Bentuk input	Jenis kuantisasi	Versions
EfficientNet-Lite2 (int8)	224 x 224	int8	Terbaru
EfficientNet-Lite2 (float 32)	224 x 224	Tidak ada (float32)	Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model	Latensi CPU	Latensi GPU
EfficientNet-Lite0 (float 32)	23,52 md	18,90 md
{i>EfficientNet-Lite0<i} (int8)	10,08 md	-
EfficientNet-Lite2 (float 32)	44,17 md	22,20 md
{i>EfficientNet-Lite2<i} (int8)	19,43 md	-

Model kustom

Anda dapat menggunakan model ML kustom dengan tugas ini jika ingin meningkatkan atau mengubah kemampuan model yang disediakan. Anda dapat menggunakan Model Maker untuk mengubah model yang ada atau mem-build model menggunakan alat seperti TensorFlow. Model kustom yang digunakan dengan MediaPipe harus dalam format TensorFlow Lite dan harus menyertakan metadata khusus yang menjelaskan parameter operasi model. Anda harus mempertimbangkan penggunaan Model Maker untuk memodifikasi model yang disediakan untuk tugas ini sebelum membangun model Anda sendiri.

Jika Anda ingin membuat Pengklasifikasi Gambar kustom menggunakan set data Anda sendiri, mulailah dengan tutorial Penyesuaian pengklasifikasi gambar.