Panduan tugas segmentasi gambar interaktif

Gambar berdampingan yang menampilkan foto kursi dalam satu gambar, lalu gambar yang sama dengan kursi yang ditandai untuk menunjukkan bahwa model telah mendeteksi kursi

Tugas MediaPipe Interactive Image Segmenter memungkinkan Anda membagi gambar menjadi dua area: objek yang dipilih dan yang lainnya. Tugas ini mengambil lokasi dalam gambar, memperkirakan batas objek di lokasi tersebut, dan menampilkan data gambar yang menentukan area objek. Anda dapat menggunakan tugas ini untuk memilih objek secara interaktif dalam gambar dan menggunakan output untuk menerapkan efek pada gambar, seperti overlay warna yang menandai objek atau memburamkan latar belakang di sekitarnya. Tugas ini beroperasi pada data gambar dengan model machine learning (ML) dan Anda dapat menggunakannya pada satu gambar, file video, atau streaming video berkelanjutan.

Coba sekarang.

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam penerapan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

  • Pemrosesan gambar input - Pemrosesan mencakup rotasi gambar, pengubahan ukuran, normalisasi, dan konversi ruang warna.
Input tugas Output tugas
  • Koordinat lokasi menarik untuk objek dalam gambar
  • File gambar yang akan diproses
Interactive Image Segmenter menghasilkan data gambar yang tersegmentasi, yang dapat mencakup satu atau dua hal berikut, bergantung pada opsi konfigurasi yang Anda tetapkan:
  • CATEGORY_MASK: daftar yang berisi mask tersegmentasi sebagai gambar format uint8. Setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area minat.
  • CONFIDENCE_MASK: daftar saluran yang berisi mask yang tersegmentasi dengan nilai piksel dalam format float32. Setiap nilai piksel menunjukkan tingkat keyakinan bahwa piksel tersebut adalah bagian dari objek yang terletak di area yang diinginkan.

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi Deskripsi Rentang Nilai Nilai Default
output_category_mask Jika ditetapkan ke True, output akan menyertakan mask segmentasi sebagai gambar uint8, dengan setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area minat. {True, False} False
output_confidence_masks Jika ditetapkan ke True, output akan menyertakan mask segmentasi sebagai gambar nilai float, dengan setiap nilai float mewakili keyakinan bahwa piksel adalah bagian dari objek yang terletak di area minat. {True, False} True
display_names_locale Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam metadata model tugas, jika tersedia. Default-nya adalah en untuk bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API Kode lokalitas id

Model

Interactive Image Segmenter dapat digunakan dengan lebih dari satu model ML. Mulailah dengan model default yang direkomendasikan untuk platform target Anda saat Anda mulai mengembangkan dengan tugas ini. Model lain yang tersedia biasanya melakukan kompromi antara performa, akurasi, resolusi, dan persyaratan resource, dan dalam beberapa kasus, menyertakan fitur tambahan.

Model ini mengidentifikasi segmen yang diberi koordinat gambar untuk area minat. Model ini menggunakan Jaringan Saraf Konvolusi, mirip dengan arsitektur MobileNetV3, dengan dekoder yang disesuaikan.

Nama model Bentuk input Jenis kuantisasi Kartu Model Versi
MagicTouch 512 x 512 x 4 Tidak ada (float32) info Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model Latensi CPU Latensi GPU
MagicTouch 130,11 md 67,25 md