คำแนะนำในการตรวจจับตำแหน่งจุดสังเกต

งาน MediaPipe Pose Landinger จะช่วยให้คุณตรวจหาจุดสังเกตของร่างกายมนุษย์ในรูปภาพหรือวิดีโอได้ คุณสามารถใช้งานนี้เพื่อระบุตำแหน่งหลักของร่างกาย วิเคราะห์ท่าทาง และจัดหมวดหมู่การเคลื่อนไหว งานนี้ใช้โมเดลแมชชีนเลิร์นนิง (ML) ที่ใช้งานได้กับรูปภาพหรือวิดีโอรายการเดียว งานแสดงท่าทางร่างกายของจุดสังเกต ที่อยู่ในพิกัดรูปภาพและในพิกัดโลก 3 มิติ

ลองเลย

เริ่มต้นใช้งาน

เริ่มใช้งานนี้โดยทำตามคำแนะนำในการติดตั้งใช้งานสำหรับแพลตฟอร์มเป้าหมาย คำแนะนำเฉพาะแพลตฟอร์มเหล่านี้จะแนะนำการใช้งานเบื้องต้นของงานนี้ ซึ่งรวมถึงโมเดลที่แนะนำและตัวอย่างโค้ดที่มีตัวเลือกการกำหนดค่าที่แนะนำ

รายละเอียดงาน

ส่วนนี้จะอธิบายความสามารถ อินพุต เอาต์พุต และตัวเลือกการกำหนดค่าของงานนี้

ฟีเจอร์

  • การประมวลผลรูปภาพอินพุต - การประมวลผลรวมถึงการหมุนรูปภาพ การปรับขนาด การทำให้เป็นมาตรฐาน และการแปลงพื้นที่สี
  • เกณฑ์คะแนน - กรองผลลัพธ์ตามคะแนนการคาดการณ์
ข้อมูลงาน เอาต์พุตของงาน
จุดวางจุดสังเกตยอมรับอินพุตหนึ่งในประเภทข้อมูลต่อไปนี้
  • ภาพนิ่ง
  • เฟรมวิดีโอที่ถอดรหัสแล้ว
  • ฟีดวิดีโอสด
จุดวางจุดสังเกตจะแสดงผลลัพธ์ต่อไปนี้
  • วางจุดสังเกตในพิกัดรูปภาพมาตรฐาน
  • โพสต์จุดสังเกตตามพิกัดของโลก
  • ไม่บังคับ: มาสก์การแบ่งกลุ่มสำหรับท่าทาง

ตัวเลือกการกำหนดค่า

งานมีตัวเลือกการกำหนดค่าต่อไปนี้

ชื่อตัวเลือก คำอธิบาย ช่วงของค่า ค่าเริ่มต้น
running_mode ตั้งค่าโหมดการทำงาน มี 3 โหมดดังนี้

IMAGE: โหมดสำหรับการป้อนข้อมูลรูปภาพเดียว

วิดีโอ: โหมดสำหรับเฟรมที่ถอดรหัสของวิดีโอ

LIVE_Stream: โหมดสำหรับสตรีมแบบสดของข้อมูลอินพุต เช่น จากกล้อง ในโหมดนี้ ต้องมีการเรียกใช้ resultsListener เพื่อตั้งค่า Listener เพื่อรับผลลัพธ์แบบไม่พร้อมกัน
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses จำนวนสูงสุดของท่าทางที่ตัวระบุตำแหน่ง จะตรวจจับได้ Integer > 0 1
min_pose_detection_confidence คะแนนความเชื่อมั่นขั้นต่ำสำหรับการตรวจจับท่าทางจะถือว่าประสบความสำเร็จ Float [0.0,1.0] 0.5
min_pose_presence_confidence คะแนนความเชื่อมั่นขั้นต่ำของคะแนนการตรวจหาบุคคลในบ้าน ในการตรวจจับจุดสังเกต Float [0.0,1.0] 0.5
min_tracking_confidence คะแนนความเชื่อมั่นขั้นต่ำสำหรับการติดตามท่าทางจะถือว่าประสบความสำเร็จ Float [0.0,1.0] 0.5
output_segmentation_masks Poseจุดสังเกตแสดงมาสก์การแบ่งกลุ่มสำหรับท่าทางที่ตรวจพบหรือไม่ Boolean False
result_callback ตั้งค่า Listener ผลลัพธ์ให้รับผลลัพธ์ของจุดสังเกต แบบไม่พร้อมกันเมื่อ Pose Marker อยู่ในโหมดสตรีมแบบสด ใช้ได้เมื่อตั้งค่าโหมดการทำงานเป็น LIVE_STREAM เท่านั้น ResultListener N/A

รูปแบบ

โพสต์จุดสังเกตใช้ชุดโมเดลเพื่อคาดการณ์ตำแหน่งจุดสังเกต โมเดลแรกจะตรวจจับการปรากฏของร่างกายมนุษย์ภายในเฟรมรูปภาพ และโมเดลที่ 2 จะระบุจุดสังเกตบนร่างกาย

โมเดลต่อไปนี้จะรวมกันเป็นแพ็กเกจโมเดลที่ดาวน์โหลดได้

  • โมเดลการตรวจจับท่าทาง: ตรวจจับการปรากฏของร่างกายด้วยจุดสังเกตท่าทางที่สำคัญ 2-3 ท่า
  • โมเดลจุดสังเกต: เพิ่มการแมปท่าทางที่สมบูรณ์ โมเดลนี้จะแสดงจุดสังเกตท่าทาง 3 มิติโดยประมาณ 33 รูป

แพ็กเกจนี้ใช้โครงข่ายระบบประสาทเทียม ที่คล้ายกับ MobileNetV2 และเพิ่มประสิทธิภาพ สำหรับแอปพลิเคชันการออกกำลังกายแบบเรียลไทม์ในอุปกรณ์ ตัวแปรของโมเดล BlazePose นี้ใช้ GHUM ซึ่งเป็นไปป์ไลน์การสร้างโมเดล 3 มิติของรูปร่างมนุษย์ เพื่อประมาณท่าทาง 3 มิติขนาดเต็มของบุคคลในรูปภาพหรือวิดีโอ

แพ็กเกจโมเดล รูปร่างอินพุต ประเภทข้อมูล การ์ดโมเดล ฉบับ
วางจุดสังเกต (lite) ตัวตรวจจับท่าทาง: 224 x 224 x 3
เครื่องมือวางตำแหน่งจุดสังเกต: 256 x 256 x 3
ทศนิยม 16 ข้อมูล ล่าสุด
วางจุดสังเกต (แบบเต็ม) ตัวตรวจจับท่าทาง: 224 x 224 x 3
เครื่องมือวางตำแหน่งจุดสังเกต: 256 x 256 x 3
ทศนิยม 16 ข้อมูล ล่าสุด
วางจุดสังเกต (หนัก) ตัวตรวจจับท่าทาง: 224 x 224 x 3
เครื่องมือวางตำแหน่งจุดสังเกต: 256 x 256 x 3
ทศนิยม 16 ข้อมูล ล่าสุด

สร้างแบบจำลองจุดสังเกต

โมเดลจุดสังเกตวางตำแหน่งที่จะติดตามตำแหน่งจุดสังเกต 33 ส่วนของร่างกาย ซึ่งแสดงตำแหน่งโดยประมาณของส่วนต่างๆ ของร่างกายต่อไปนี้

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

เอาต์พุตโมเดลจะมีทั้งพิกัดมาตรฐาน (Landmarks) และพิกัดโลก (WorldLandmarks) สำหรับจุดสังเกตแต่ละแห่ง