คู่มืองานการแบ่งกลุ่มรูปภาพแบบอินเทอร์แอกทีฟ

งานเครื่องมือแบ่งรูปภาพแบบอินเทอร์แอกทีฟของ MediaPipe จะช่วยให้คุณแบ่งรูปภาพออกเป็น 2 ภูมิภาค ได้แก่ ออบเจ็กต์ที่เลือกและส่วนอื่นๆ งานจะใช้ตำแหน่งในรูปภาพ ประมาณขอบเขตของออบเจ็กต์ที่ตำแหน่งนั้น และแสดงผลข้อมูลรูปภาพที่กำหนดขอบเขตของออบเจ็กต์ คุณสามารถใช้งานนี้เพื่อเลือกวัตถุในรูปภาพแบบอินเทอร์แอกทีฟและใช้เอาต์พุตเพื่อนำเอฟเฟกต์ไปใช้กับรูปภาพ เช่น การซ้อนทับสีเพื่อไฮไลต์วัตถุ หรือการเบลอพื้นหลังรอบๆ วัตถุ งานนี้ดำเนินการกับข้อมูลรูปภาพด้วยโมเดลแมชชีนเลิร์นนิง (ML) และใช้กับรูปภาพเดียว ไฟล์วิดีโอ หรือสตรีมวิดีโอต่อเนื่องได้

ลองเลย

เริ่มต้นใช้งาน

เริ่มใช้งานนี้โดยทำตามคำแนะนำในการใช้งานสำหรับแพลตฟอร์มเป้าหมาย คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานเบื้องต้นของงานนี้ ซึ่งรวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดที่มีตัวเลือกการกำหนดค่าที่แนะนำ

รายละเอียดงาน

ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้

ฟีเจอร์

  • การประมวลผลรูปภาพอินพุต - การประมวลผลรวมถึงการหมุนรูปภาพ การปรับขนาด การทำให้เป็นมาตรฐาน และการแปลงพื้นที่สี
ข้อมูลงาน เอาต์พุตของงาน
  • พิกัดจุดสนใจสำหรับวัตถุในรูปภาพ
  • ไฟล์ภาพที่จะประมวลผล
เครื่องมือแบ่งกลุ่มรูปภาพแบบอินเทอร์แอกทีฟจะส่งออกข้อมูลรูปภาพที่แบ่งเป็นส่วนๆ ซึ่งอาจมีทั้งรายการใดรายการหนึ่งหรือทั้ง 2 อย่างต่อไปนี้ ขึ้นอยู่กับตัวเลือกการกำหนดค่าที่คุณตั้งค่าไว้
  • CATEGORY_MASK: รายการที่มีมาสก์ที่แบ่งกลุ่มเป็นรูปภาพในรูปแบบ uint8 ค่าพิกเซลแต่ละค่าจะระบุว่าเป็นส่วนหนึ่งของออบเจ็กต์ที่ตั้งอยู่บริเวณที่สนใจหรือไม่
  • CONFIDENCE_MASK: รายการแชแนลที่มีมาสก์ที่แบ่งกลุ่มพร้อมค่าพิกเซลในรูปแบบ Float32 ค่าพิกเซลแต่ละค่าระบุระดับความมั่นใจว่าเป็นส่วนหนึ่งของวัตถุที่ตั้งอยู่ ณ บริเวณที่สนใจ

ตัวเลือกการกำหนดค่า

งานมีตัวเลือกการกำหนดค่าต่อไปนี้

ชื่อตัวเลือก คำอธิบาย ช่วงของค่า ค่าเริ่มต้น
output_category_mask หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพ uint8 ซึ่งค่าพิกเซลแต่ละค่าจะระบุว่าพิกเซลเป็นส่วนหนึ่งของออบเจ็กต์ที่อยู่ในบริเวณที่สนใจหรือไม่ {True, False} False
output_confidence_masks หากตั้งค่าเป็น True เอาต์พุตจะมีมาสก์การแบ่งกลุ่มเป็นรูปภาพค่าทศนิยม โดยค่าลอยแต่ละค่าแสดงถึงความเชื่อมั่นที่พิกเซลเป็นส่วนหนึ่งของวัตถุที่อยู่ในบริเวณที่สนใจ {True, False} True
display_names_locale ตั้งค่าภาษาของป้ายกำกับที่จะใช้กับชื่อที่แสดงซึ่งระบุไว้ในข้อมูลเมตาของโมเดลของงาน หากมี ค่าเริ่มต้นคือ en สำหรับภาษาอังกฤษ คุณเพิ่มป้ายกำกับที่แปลเป็นภาษาท้องถิ่นลงในข้อมูลเมตาของโมเดลที่กำหนดเองได้โดยใช้ TensorFlow Lite Metadata Writer API รหัสภาษา en

รูปแบบ

เครื่องมือแบ่งรูปภาพแบบอินเทอร์แอกทีฟใช้ได้กับโมเดล ML มากกว่า 1 โมเดล เริ่มต้นด้วยโมเดลเริ่มต้นที่แนะนำสำหรับแพลตฟอร์มเป้าหมายเมื่อคุณเริ่มพัฒนาด้วยงานนี้ รุ่นอื่นๆ ที่มีอยู่มักมีข้อดีข้อเสียระหว่างประสิทธิภาพ ความแม่นยำ ความละเอียด และข้อกำหนดทรัพยากร และในบางกรณีอาจมีฟีเจอร์เพิ่มเติมรวมอยู่ด้วย

โมเดลนี้จะระบุกลุ่มที่ระบุพิกัดของรูปภาพสำหรับพื้นที่ที่สนใจ โมเดลนี้ใช้โครงข่ายระบบประสาทเทียมแบบ Convolutional Neural ซึ่งคล้ายกับสถาปัตยกรรม MobileNetV3 ซึ่งมีตัวถอดรหัสที่กำหนดเอง

ชื่อโมเดล รูปร่างอินพุต ประเภทการหาปริมาณ การ์ดโมเดล ฉบับ
MagicTouch 512 X 512 X 4 ไม่มี (Float32) ข้อมูล ล่าสุด

การเปรียบเทียบงาน

นี่คือการเปรียบเทียบงานสำหรับทั้งไปป์ไลน์ตามโมเดลที่ฝึกล่วงหน้าไว้ข้างต้น ผลของเวลาในการตอบสนองคือเวลาในการตอบสนองโดยเฉลี่ยใน Pixel 6 ที่ใช้ CPU / GPU

ชื่อโมเดล เวลาในการตอบสนองของ CPU เวลาในการตอบสนองของ GPU
MagicTouch 130.11 มิลลิวินาที 67.25 มิลลิวินาที