Panduan tugas segmentasi gambar interaktif

Tugas MediaPipe Interactive Image Segmenter memungkinkan Anda membagi gambar menjadi dua region: objek yang dipilih dan lainnya. Tugas ini mengambil lokasi dalam gambar, memperkirakan batas-batas objek di lokasi tersebut, dan menampilkan data gambar yang menentukan area objek. Anda dapat menggunakan tugas ini untuk memilih objek dalam gambar secara interaktif dan menggunakan output untuk menerapkan efek pada gambar, seperti overlay warna yang menandai objek atau memburamkan latar belakang di sekitarnya. Tugas ini beroperasi pada data gambar dengan model machine learning (ML) dan Anda dapat menggunakannya pada satu gambar, file video, atau streaming video nonstop.

Cobalah!

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam menerapkan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

  • Pemrosesan gambar input - Pemrosesan mencakup rotasi gambar, pengubahan ukuran, normalisasi, dan konversi ruang warna.
Input tugas Output tugas
  • Koordinat lokasi menarik untuk objek dalam gambar
  • File gambar yang akan diproses
Interactive Image Segmenter menghasilkan data gambar yang tersegmentasi, yang dapat menyertakan salah satu atau kedua hal berikut, bergantung pada opsi konfigurasi yang Anda tetapkan:
  • CATEGORY_MASK: daftar yang berisi mask tersegmentasi sebagai gambar format uint8. Setiap nilai piksel menunjukkan apakah nilai tersebut merupakan bagian dari objek yang terletak di area minat.
  • CONFIDENCE_MASK: daftar saluran yang berisi mask tersegmentasi dengan nilai piksel dalam format float32. Setiap nilai piksel menunjukkan tingkat keyakinan bahwa nilai tersebut adalah bagian dari objek yang terletak di area minat.

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi Deskripsi Rentang Nilai Nilai Default
output_category_mask Jika ditetapkan ke True, output-nya akan menyertakan mask segmentasi sebagai gambar uint8, dengan setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area yang diinginkan. {True, False} False
output_confidence_masks Jika ditetapkan ke True, output akan menyertakan mask segmentasi sebagai gambar nilai float, dengan setiap nilai float mewakili keyakinan bahwa piksel adalah bagian dari objek yang terletak di area yang diinginkan. {True, False} True
display_names_locale Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam metadata model tugas, jika tersedia. Defaultnya adalah en untuk bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API Kode lokal id

Model

Interactive Image Segmenter dapat digunakan dengan lebih dari satu model ML. Mulailah dengan model default yang direkomendasikan untuk platform target Anda saat Anda mulai mengembangkan aplikasi dengan tugas ini. Model lain yang tersedia biasanya melakukan kompromi antara performa, akurasi, resolusi, dan persyaratan resource, dan dalam beberapa kasus, menyertakan fitur tambahan.

Model ini mengidentifikasi segmen yang diberikan koordinat gambar untuk area minat. Model ini menggunakan Jaringan Neural Konvolusional, mirip dengan arsitektur MobileNetV3, dengan decoder yang disesuaikan.

Nama model Bentuk input Jenis kuantisasi Kartu Model Versions
MagicTouch 512 x 512 x 4 Tidak ada (float32) info Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model Latensi CPU Latensi GPU
MagicTouch 130,11 md 67,25 md