งาน MediaPipe Interactive Image Segmenter ช่วยให้คุณแบ่งรูปภาพออกเป็น 2 ภูมิภาค ได้แก่ วัตถุที่เลือกและส่วนอื่นๆ ทั้งหมด งานจะระบุตําแหน่งในรูปภาพ ประมาณขอบเขตของวัตถุ ณ ตําแหน่งนั้น และแสดงผลข้อมูลรูปภาพที่กําหนดพื้นที่ของวัตถุ คุณสามารถใช้งานนี้เพื่อเลือกวัตถุในรูปภาพแบบอินเทอร์แอกทีฟ และใช้เอาต์พุตเพื่อใส่เอฟเฟกต์ในรูปภาพ เช่น การซ้อนสีเพื่อไฮไลต์วัตถุหรือเบลอพื้นหลังรอบๆ วัตถุ งานนี้จะดำเนินการกับข้อมูลรูปภาพด้วยโมเดลแมชชีนเลิร์นนิง (ML) และคุณนำไปใช้กับรูปภาพเดี่ยว ไฟล์วิดีโอ หรือสตรีมวิดีโอต่อเนื่องได้
เริ่มต้นใช้งาน
เริ่มใช้แท็บงานนี้โดยทําตามคําแนะนําการใช้งานแพลตฟอร์มเป้าหมายข้อใดข้อหนึ่งต่อไปนี้ คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานพื้นฐานของงานนี้ รวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดพร้อมตัวเลือกการกำหนดค่าที่แนะนำ
- Android - ตัวอย่างโค้ด - คำแนะนำ
- Python - ตัวอย่างโค้ด - คำแนะนำ
- เว็บ - ตัวอย่างโค้ด - คำแนะนำ
รายละเอียดงาน
ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้
ฟีเจอร์
- การประมวลผลรูปภาพอินพุต - การประมวลผลประกอบด้วยการหมุนรูปภาพ การปรับขนาด การปรับให้เป็นมาตรฐาน และการแปลงพื้นที่สี
อินพุตงาน | เอาต์พุตของงาน |
---|---|
|
ตัวแบ่งกลุ่มรูปภาพแบบอินเทอร์แอกทีฟจะแสดงผลข้อมูลรูปภาพที่แบ่งกลุ่ม ซึ่งอาจประกอบด้วยรายการต่อไปนี้อย่างน้อย 1 รายการหรือทั้ง 2 รายการ ทั้งนี้ขึ้นอยู่กับตัวเลือกการกําหนดค่าที่คุณตั้งค่าไว้
|
ตัวเลือกการกําหนดค่า
งานนี้มีตัวเลือกการกำหนดค่าต่อไปนี้
ชื่อตัวเลือก | คำอธิบาย | ช่วงของค่า | ค่าเริ่มต้น |
---|---|---|---|
output_category_mask |
หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพ uint8 โดยค่าพิกเซลแต่ละค่าจะระบุว่าพิกเซลนั้นเป็นส่วนหนึ่งของวัตถุที่อยู่ในพื้นที่สนใจหรือไม่ |
{True, False } |
False |
output_confidence_masks |
หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งเป็นส่วนๆ เป็นรูปภาพค่าลอยตัว โดยที่ค่าลอยตัวแต่ละค่าแสดงถึงระดับความเชื่อมั่นว่าพิกเซลเป็นส่วนหนึ่งของวัตถุที่อยู่ในพื้นที่สนใจ |
{True, False } |
True |
display_names_locale |
ตั้งค่าภาษาของป้ายกำกับที่จะใช้สำหรับชื่อที่แสดงซึ่งระบุไว้ในข้อมูลเมตาของโมเดลของงาน (หากมี) ค่าเริ่มต้นคือ en สำหรับภาษาอังกฤษ คุณเพิ่มป้ายกำกับที่แปลแล้วลงในข้อมูลเมตาของโมเดลที่กำหนดเองได้โดยใช้ TensorFlow Lite Metadata Writer API
| รหัสภาษา | en |
โมเดล
เครื่องมือแบ่งกลุ่มรูปภาพแบบอินเทอร์แอกทีฟใช้ได้กับโมเดล ML มากกว่า 1 โมเดล เริ่มต้นด้วยรูปแบบที่แนะนำโดยค่าเริ่มต้นสำหรับแพลตฟอร์มเป้าหมายเมื่อคุณเริ่มพัฒนาด้วยงานนี้ โมเดลอื่นๆ ที่มีให้ใช้งานมักจะมีการแลกเปลี่ยนระหว่างประสิทธิภาพ ความแม่นยำ ความละเอียด และข้อกำหนดด้านทรัพยากร และในบางกรณีอาจมีฟีเจอร์เพิ่มเติม
รุ่น MagicTouch (แนะนำ)
โมเดลนี้จะระบุกลุ่มตามพิกัดรูปภาพที่กำหนดสำหรับพื้นที่ความสนใจ โมเดลนี้ใช้เครือข่ายประสาทแบบ ConvNet ซึ่งคล้ายกับสถาปัตยกรรม MobileNetV3 ที่มีตัวถอดรหัสที่กําหนดเอง
ชื่อโมเดล | รูปร่างอินพุต | ประเภทการแปลงค่าเป็นจำนวนเต็ม | การ์ดโมเดล | เวอร์ชัน |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | ไม่มี (float32) | info | ล่าสุด |
การเปรียบเทียบงาน
ต่อไปนี้คือการเปรียบเทียบประสิทธิภาพของงานสำหรับทั้งไปป์ไลน์โดยอิงตามโมเดลที่ผ่านการฝึกล่วงหน้าข้างต้น ผลลัพธ์เวลาในการตอบสนองคือเวลาในการตอบสนองโดยเฉลี่ยใน Pixel 6 ที่ใช้ CPU / GPU
ชื่อแบบจำลอง | เวลาในการตอบสนองของ CPU | เวลาในการตอบสนองของ GPU |
---|---|---|
MagicTouch | 130.11 มิลลิวินาที | 67.25 มิลลิวินาที |