งานเครื่องมือแบ่งรูปภาพแบบอินเทอร์แอกทีฟของ MediaPipe จะช่วยให้คุณแบ่งรูปภาพออกเป็น 2 ภูมิภาค ได้แก่ ออบเจ็กต์ที่เลือกและส่วนอื่นๆ งานจะใช้ตำแหน่งในรูปภาพ ประมาณขอบเขตของออบเจ็กต์ที่ตำแหน่งนั้น และแสดงผลข้อมูลรูปภาพที่กำหนดขอบเขตของออบเจ็กต์ คุณสามารถใช้งานนี้เพื่อเลือกวัตถุในรูปภาพแบบอินเทอร์แอกทีฟและใช้เอาต์พุตเพื่อนำเอฟเฟกต์ไปใช้กับรูปภาพ เช่น การซ้อนทับสีเพื่อไฮไลต์วัตถุ หรือการเบลอพื้นหลังรอบๆ วัตถุ งานนี้ดำเนินการกับข้อมูลรูปภาพด้วยโมเดลแมชชีนเลิร์นนิง (ML) และใช้กับรูปภาพเดียว ไฟล์วิดีโอ หรือสตรีมวิดีโอต่อเนื่องได้
เริ่มต้นใช้งาน
เริ่มใช้งานนี้โดยทำตามคำแนะนำในการใช้งานสำหรับแพลตฟอร์มเป้าหมาย คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานเบื้องต้นของงานนี้ ซึ่งรวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดที่มีตัวเลือกการกำหนดค่าที่แนะนำ
- Android - ตัวอย่างโค้ด - คำแนะนำ
- Python - ตัวอย่างโค้ด - คำแนะนำ
- เว็บ - ตัวอย่างโค้ด - คำแนะนำ
รายละเอียดงาน
ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้
ฟีเจอร์
- การประมวลผลรูปภาพอินพุต - การประมวลผลรวมถึงการหมุนรูปภาพ การปรับขนาด การทำให้เป็นมาตรฐาน และการแปลงพื้นที่สี
ข้อมูลงาน | เอาต์พุตของงาน |
---|---|
|
เครื่องมือแบ่งกลุ่มรูปภาพแบบอินเทอร์แอกทีฟจะส่งออกข้อมูลรูปภาพที่แบ่งเป็นส่วนๆ ซึ่งอาจมีทั้งรายการใดรายการหนึ่งหรือทั้ง 2 อย่างต่อไปนี้ ขึ้นอยู่กับตัวเลือกการกำหนดค่าที่คุณตั้งค่าไว้
|
ตัวเลือกการกำหนดค่า
งานมีตัวเลือกการกำหนดค่าต่อไปนี้
ชื่อตัวเลือก | คำอธิบาย | ช่วงของค่า | ค่าเริ่มต้น |
---|---|---|---|
output_category_mask |
หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพ uint8 ซึ่งค่าพิกเซลแต่ละค่าจะระบุว่าพิกเซลเป็นส่วนหนึ่งของออบเจ็กต์ที่อยู่ในบริเวณที่สนใจหรือไม่ |
{True, False } |
False |
output_confidence_masks |
หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพค่าทศนิยม โดยค่าลอยแต่ละค่าแสดงถึงความเชื่อมั่นที่พิกเซลเป็นส่วนหนึ่งของวัตถุที่อยู่ในบริเวณที่สนใจ |
{True, False } |
True |
display_names_locale |
ตั้งค่าภาษาของป้ายกำกับที่จะใช้กับชื่อที่แสดงซึ่งระบุไว้ในข้อมูลเมตาของโมเดลของงาน หากมี ค่าเริ่มต้นคือ en สำหรับภาษาอังกฤษ คุณเพิ่มป้ายกำกับที่แปลเป็นภาษาท้องถิ่นลงในข้อมูลเมตาของโมเดลที่กำหนดเองได้โดยใช้ TensorFlow Lite Metadata Writer API
| รหัสภาษา | en |
รูปแบบ
เครื่องมือแบ่งรูปภาพแบบอินเทอร์แอกทีฟใช้ได้กับโมเดล ML มากกว่า 1 โมเดล เริ่มต้นด้วยโมเดลเริ่มต้นที่แนะนำสำหรับแพลตฟอร์มเป้าหมายเมื่อคุณเริ่มพัฒนาด้วยงานนี้ รุ่นอื่นๆ ที่มีอยู่มักมีข้อดีข้อเสียระหว่างประสิทธิภาพ ความแม่นยำ ความละเอียด และข้อกำหนดทรัพยากร และในบางกรณีอาจมีฟีเจอร์เพิ่มเติมรวมอยู่ด้วย
รูปแบบ MagicTouch (แนะนำ)
โมเดลนี้จะระบุกลุ่มที่ระบุพิกัดของรูปภาพสำหรับพื้นที่ที่สนใจ โมเดลนี้ใช้โครงข่ายระบบประสาทเทียมแบบ Convolutional Neural ซึ่งคล้ายกับสถาปัตยกรรม MobileNetV3 ซึ่งมีตัวถอดรหัสที่กำหนดเอง
ชื่อโมเดล | รูปร่างอินพุต | ประเภทการหาปริมาณ | การ์ดโมเดล | ฉบับ |
---|---|---|---|---|
MagicTouch | 512 X 512 X 4 | ไม่มี (Float32) | ข้อมูล | ล่าสุด |
การเปรียบเทียบงาน
นี่คือการเปรียบเทียบงานสำหรับทั้งไปป์ไลน์ตามโมเดลที่ฝึกล่วงหน้าไว้ข้างต้น ผลของเวลาในการตอบสนองคือเวลาในการตอบสนองโดยเฉลี่ยใน Pixel 6 ที่ใช้ CPU / GPU
ชื่อโมเดล | เวลาในการตอบสนองของ CPU | เวลาในการตอบสนองของ GPU |
---|---|---|
MagicTouch | 130.11 มิลลิวินาที | 67.25 มิลลิวินาที |