Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Panduan tugas segmentasi gambar interaktif

Gambar berdampingan yang menampilkan foto kursi dalam satu gambar, lalu gambar yang sama dengan kursi yang ditandai untuk menunjukkan bahwa model telah mendeteksi kursi

Tugas MediaPipe Interactive Image Segmenter memungkinkan Anda membagi gambar menjadi dua area: objek yang dipilih dan yang lainnya. Tugas ini mengambil lokasi dalam gambar, memperkirakan batas objek di lokasi tersebut, dan menampilkan data gambar yang menentukan area objek. Anda dapat menggunakan tugas ini untuk memilih objek secara interaktif dalam gambar dan menggunakan output untuk menerapkan efek pada gambar, seperti overlay warna yang menandai objek atau memburamkan latar belakang di sekitarnya. Tugas ini beroperasi pada data gambar dengan model machine learning (ML) dan Anda dapat menggunakannya pada satu gambar, file video, atau streaming video berkelanjutan.

Coba sekarang.

Mulai

Mulai gunakan tugas ini dengan mengikuti salah satu panduan penerapan ini untuk platform target Anda. Panduan khusus platform ini akan memandu Anda dalam penerapan dasar tugas ini, termasuk model yang direkomendasikan, dan contoh kode dengan opsi konfigurasi yang direkomendasikan:

Android - Contoh kode - Panduan
Python - Contoh kode - Panduan
Web - Contoh kode - Panduan

Detail tugas

Bagian ini menjelaskan kemampuan, input, output, dan opsi konfigurasi tugas ini.

Fitur

Pemrosesan gambar input - Pemrosesan mencakup rotasi gambar, pengubahan ukuran, normalisasi, dan konversi ruang warna.

Input tugas Output tugas

Input tugas	Output tugas
Koordinat lokasi menarik untuk objek dalam gambar File gambar yang akan diproses	Interactive Image Segmenter menghasilkan data gambar yang tersegmentasi, yang dapat mencakup satu atau dua hal berikut, bergantung pada opsi konfigurasi yang Anda tetapkan: `CATEGORY_MASK`: daftar yang berisi mask tersegmentasi sebagai gambar format uint8. Setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area minat. `CONFIDENCE_MASK`: daftar saluran yang berisi mask yang tersegmentasi dengan nilai piksel dalam format float32. Setiap nilai piksel menunjukkan tingkat keyakinan bahwa piksel tersebut adalah bagian dari objek yang terletak di area yang diinginkan.

Koordinat lokasi menarik untuk objek dalam gambar
File gambar yang akan diproses

Interactive Image Segmenter menghasilkan data gambar yang tersegmentasi, yang dapat mencakup satu atau dua hal berikut, bergantung pada opsi konfigurasi yang Anda tetapkan:

CATEGORY_MASK: daftar yang berisi mask tersegmentasi sebagai gambar format uint8. Setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area minat.

CONFIDENCE_MASK: daftar saluran yang berisi mask yang tersegmentasi dengan nilai piksel dalam format float32. Setiap nilai piksel menunjukkan tingkat keyakinan bahwa piksel tersebut adalah bagian dari objek yang terletak di area yang diinginkan.

Opsi konfigurasi

Tugas ini memiliki opsi konfigurasi berikut:

Nama Opsi	Deskripsi	Rentang Nilai	Nilai Default
`output_category_mask`	Jika ditetapkan ke `True`, output akan menyertakan mask segmentasi sebagai gambar uint8, dengan setiap nilai piksel menunjukkan apakah piksel tersebut merupakan bagian dari objek yang terletak di area minat.	{`True, False`}	`False`
`output_confidence_masks`	Jika ditetapkan ke `True`, output akan menyertakan mask segmentasi sebagai gambar nilai float, dengan setiap nilai float mewakili keyakinan bahwa piksel adalah bagian dari objek yang terletak di area minat.	{`True, False`}	`True`
`display_names_locale`	Menetapkan bahasa label yang akan digunakan untuk nama tampilan yang diberikan dalam metadata model tugas, jika tersedia. Default-nya adalah `en` untuk bahasa Inggris. Anda dapat menambahkan label yang dilokalkan ke metadata model kustom menggunakan TensorFlow Lite Metadata Writer API	Kode lokalitas	id

Model

Interactive Image Segmenter dapat digunakan dengan lebih dari satu model ML. Mulailah dengan model default yang direkomendasikan untuk platform target Anda saat Anda mulai mengembangkan dengan tugas ini. Model lain yang tersedia biasanya melakukan kompromi antara performa, akurasi, resolusi, dan persyaratan resource, dan dalam beberapa kasus, menyertakan fitur tambahan.

Model MagicTouch (direkomendasikan)

Model ini mengidentifikasi segmen yang diberi koordinat gambar untuk area minat. Model ini menggunakan Jaringan Saraf Konvolusi, mirip dengan arsitektur MobileNetV3, dengan dekoder yang disesuaikan.

Nama model	Bentuk input	Jenis kuantisasi	Kartu Model	Versi
MagicTouch	512 x 512 x 4	Tidak ada (float32)	info	Terbaru

Tolok ukur tugas

Berikut adalah tolok ukur tugas untuk seluruh pipeline berdasarkan model terlatih di atas. Hasil latensi adalah latensi rata-rata di Pixel 6 yang menggunakan CPU / GPU.

Nama Model	Latensi CPU	Latensi GPU
MagicTouch	130,11 md	67,25 md