Tugas MediaPipe Interactive Image Segmenter memungkinkan Anda membagi gambar menjadi dua area: objek yang dipilih dan yang lainnya. Tugas ini mengambil lokasi dalam gambar, memperkirakan batas objek di lokasi tersebut, dan menampilkan data gambar yang menentukan area objek. Anda dapat menggunakan tugas ini untuk memilih objek secara interaktif dalam gambar dan menggunakan output untuk menerapkan efek pada gambar, seperti overlay warna yang menandai objek atau memburamkan latar belakang di sekitarnya. Tugas ini beroperasi pada data gambar dengan model machine learning (ML) dan Anda dapat menggunakannya pada satu gambar, file video, atau streaming video berkelanjutan.
Mulai
Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam penerapan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:
- Android - Contoh kode - Panduan
- Python - Contoh kode - Panduan
- Web - Contoh kode - Panduan
Detail tugas
Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.
Fitur
- Pemrosesan gambar input - Pemrosesan mencakup rotasi gambar, pengubahan ukuran, normalisasi, dan konversi ruang warna.
Input tugas | Output tugas |
---|---|
|
Interactive Image Segmenter menghasilkan data gambar yang tersegmentasi, yang dapat mencakup satu atau
dua hal berikut, bergantung pada opsi konfigurasi yang Anda tetapkan:
|
Opsi konfigurasi
Tugas ini memiliki opsi konfigurasi berikut:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
output_category_mask |
Jika ditetapkan ke True , output akan menyertakan mask segmentasi
sebagai gambar uint8, dengan setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari
objek yang terletak di area minat. |
{True, False } |
False |
output_confidence_masks |
Jika ditetapkan ke True , output akan menyertakan mask segmentasi
sebagai gambar nilai float, dengan setiap nilai float mewakili keyakinan
bahwa piksel adalah bagian dari objek yang terletak di area minat. |
{True, False } |
True |
display_names_locale |
Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam
metadata model tugas, jika tersedia. Default-nya adalah en untuk
bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom
menggunakan TensorFlow Lite Metadata Writer API
| Kode lokalitas | id |
Model
Interactive Image Segmenter dapat digunakan dengan lebih dari satu model ML. Mulailah dengan model default yang direkomendasikan untuk platform target Anda saat Anda mulai mengembangkan dengan tugas ini. Model lain yang tersedia biasanya melakukan kompromi antara performa, akurasi, resolusi, dan persyaratan resource, dan dalam beberapa kasus, menyertakan fitur tambahan.
Model MagicTouch (direkomendasikan)
Model ini mengidentifikasi segmen yang diberi koordinat gambar untuk area minat. Model ini menggunakan Jaringan Saraf Konvolusi, mirip dengan arsitektur MobileNetV3, dengan dekoder yang disesuaikan.
Nama model | Bentuk input | Jenis kuantisasi | Kartu Model | Versi |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | Tidak ada (float32) | info | Terbaru |
Tolok ukur tugas
Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.
Nama Model | Latensi CPU | Latensi GPU |
---|---|---|
MagicTouch | 130,11 md | 67,25 md |