งานโปรแกรมรู้จำท่าทางสัมผัส MediaPipe ช่วยให้คุณจำท่าทางสัมผัสของมือได้แบบเรียลไทม์ และ แสดงผลลัพธ์การใช้มือที่จดจำได้และระบุจุดสังเกตของมือที่ตรวจพบ มือ วิธีการเหล่านี้จะแสดงวิธีใช้การรู้จำท่าทางสัมผัส ด้วยแอปพลิเคชัน Python
คุณสามารถดูการทำงานนี้ได้ โดยดูที่ เว็บ Demo สำหรับ เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับความสามารถ โมเดล และตัวเลือกการกำหนดค่า งานนี้ โปรดดูภาพรวม
ตัวอย่างโค้ด
โค้ดตัวอย่างสำหรับการจดจำท่าทางสัมผัสเป็นการใช้งานที่สมบูรณ์ ใน Python เพื่อใช้เป็นข้อมูลอ้างอิง โค้ดนี้จะช่วยคุณทดสอบงานนี้และรับ เริ่มจากการสร้าง การจดจำท่าทางสัมผัสด้วยมือของคุณเอง คุณสามารถดู เรียกใช้ และ แก้ไขตัวอย่างโปรแกรมจดจำท่าทางสัมผัส โค้ด โดยใช้แค่เว็บเบราว์เซอร์
หากคุณใช้การรู้จำท่าทางสัมผัสสำหรับ Raspberry Pi โปรดดูที่ ตัวอย่างของ Raspberry Pi แอป
ตั้งค่า
ส่วนนี้จะอธิบายขั้นตอนสำคัญในการตั้งค่าสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ และ โปรเจ็กต์โค้ดเพื่อใช้การรู้จำท่าทางสัมผัสโดยเฉพาะ สำหรับข้อมูลทั่วไปเกี่ยวกับ การตั้งค่าสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณสำหรับการใช้งาน MediaPipe ซึ่งรวมถึง ข้อกำหนดด้านเวอร์ชันของแพลตฟอร์ม โปรดดูคู่มือการตั้งค่าสำหรับ Python
แพ็กเกจ
งานการจดจำท่าทางสัมผัส MediaPipe ต้องใช้แพ็กเกจ PyPI ของ Mediapipe คุณสามารถติดตั้งและ นำเข้าการอ้างอิงเหล่านี้ด้วยข้อมูลต่อไปนี้
$ python -m pip install mediapipe
การนำเข้า
นำเข้าคลาสต่อไปนี้เพื่อเข้าถึงฟังก์ชันงานโปรแกรมจดจำท่าทางสัมผัส
import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision
รุ่น
งานการจดจำท่าทางสัมผัส MediaPipe ต้องการแพ็กเกจโมเดลที่ผ่านการฝึกซึ่งสามารถทำงานร่วมกับ งานนี้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโมเดลที่ผ่านการฝึกอบรมเกี่ยวกับการจดจำท่าทางสัมผัส ดูภาพรวมงานส่วนโมเดล
เลือกและดาวน์โหลดโมเดล จากนั้นเก็บโมเดลไว้ในไดเรกทอรีในเครื่อง:
model_path = '/absolute/path/to/gesture_recognizer.task'
ระบุเส้นทางของโมเดลภายในพารามิเตอร์ชื่อโมเดลดังที่แสดงด้านล่าง
base_options = BaseOptions(model_asset_path=model_path)
สร้างงาน
งานการจดจำท่าทางสัมผัส MediaPipe ใช้ฟังก์ชัน create_from_options
เพื่อตั้งค่า
งาน ฟังก์ชัน create_from_options
ยอมรับค่าสำหรับการกำหนดค่า
ตัวเลือกที่ต้องจัดการ ดูข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการกําหนดค่าได้ที่
ตัวเลือกการกำหนดค่า
โค้ดต่อไปนี้แสดงวิธีสร้างและกำหนดค่างานนี้
ตัวอย่างเหล่านี้ยังแสดงรูปแบบของการสร้างงานสำหรับรูปภาพต่างๆ ด้วย ไฟล์วิดีโอและสตรีมวิดีโอสด
รูปภาพ
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions GestureRecognizer = mp.tasks.vision.GestureRecognizer GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions VisionRunningMode = mp.tasks.vision.RunningMode # Create a gesture recognizer instance with the image mode: options = GestureRecognizerOptions( base_options=BaseOptions(model_asset_path='/path/to/model.task'), running_mode=VisionRunningMode.IMAGE) with GestureRecognizer.create_from_options(options) as recognizer: # The detector is initialized. Use it here. # ...
วิดีโอ
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions GestureRecognizer = mp.tasks.vision.GestureRecognizer GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions VisionRunningMode = mp.tasks.vision.RunningMode # Create a gesture recognizer instance with the video mode: options = GestureRecognizerOptions( base_options=BaseOptions(model_asset_path='/path/to/model.task'), running_mode=VisionRunningMode.VIDEO) with GestureRecognizer.create_from_options(options) as recognizer: # The detector is initialized. Use it here. # ...
สตรีมแบบสด
import mediapipe as mp BaseOptions = mp.tasks.BaseOptions GestureRecognizer = mp.tasks.vision.GestureRecognizer GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions GestureRecognizerResult = mp.tasks.vision.GestureRecognizerResult VisionRunningMode = mp.tasks.vision.RunningMode # Create a gesture recognizer instance with the live stream mode: def print_result(result: GestureRecognizerResult, output_image: mp.Image, timestamp_ms: int): print('gesture recognition result: {}'.format(result)) options = GestureRecognizerOptions( base_options=BaseOptions(model_asset_path='/path/to/model.task'), running_mode=VisionRunningMode.LIVE_STREAM, result_callback=print_result) with GestureRecognizer.create_from_options(options) as recognizer: # The detector is initialized. Use it here. # ...
ตัวเลือกการกำหนดค่า
งานนี้มีตัวเลือกการกำหนดค่าต่อไปนี้สำหรับแอปพลิเคชัน Python
ชื่อตัวเลือก | คำอธิบาย | ช่วงค่า | ค่าเริ่มต้น | |
---|---|---|---|---|
running_mode |
ตั้งค่าโหมดการทำงานสำหรับงาน มี 3 แบบ
โหมด: รูปภาพ: โหมดสำหรับอินพุตรูปภาพเดียว วิดีโอ: โหมดสำหรับเฟรมที่ถอดรหัสของวิดีโอ LIVE_STREAM: โหมดสำหรับสตรีมแบบสดของอินพุต เช่น ข้อมูลจากกล้อง ในโหมดนี้ resultsListener ต้องเป็น ถูกเรียกให้ตั้งค่า Listener เพื่อรับผลลัพธ์ แบบไม่พร้อมกัน |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
|
num_hands |
จำนวนมือสูงสุดที่ตรวจจับได้ด้วย
GestureRecognizer
|
Any integer > 0 |
1 |
|
min_hand_detection_confidence |
คะแนนความเชื่อมั่นขั้นต่ำสำหรับการตรวจจับมือ โมเดลการตรวจจับฝ่ามือประสบความสำเร็จ | 0.0 - 1.0 |
0.5 |
|
min_hand_presence_confidence |
คะแนนความเชื่อมั่นขั้นต่ำสำหรับคะแนนการตรวจหาบุคคลในมือ โมเดลการตรวจจับจุดสังเกต ในโหมดวิดีโอและโหมดสตรีมแบบสดของโปรแกรมจดจำท่าทางสัมผัส หากคะแนนความเชื่อมั่นขณะแสดงด้วยมือจากรูปของมือ โมเดลจุดสังเกต อยู่ด้านล่าง เกณฑ์นี้จะทริกเกอร์โมเดลการตรวจจับฝ่ามือ มิเช่นนั้น อัลกอริทึมการติดตามมือน้ำหนักเบาใช้เพื่อระบุตำแหน่ง สำหรับการตรวจหาจุดสังเกตในภายหลัง | 0.0 - 1.0 |
0.5 |
|
min_tracking_confidence |
คะแนนความเชื่อมั่นขั้นต่ำสำหรับการติดตามมือที่จะพิจารณา สำเร็จ นี่คือเกณฑ์ IoU ของกรอบล้อมรอบระหว่างมือใน เฟรมปัจจุบันกับเฟรมสุดท้าย ในโหมดวิดีโอและโหมดสตรีมของ โปรแกรมจดจำท่าทางสัมผัส หากการติดตามล้มเหลว โปรแกรมจดจำท่าทางสัมผัสจะเรียกใช้มือ การตรวจจับ ไม่เช่นนั้นระบบจะข้ามการตรวจจับมือ | 0.0 - 1.0 |
0.5 |
|
canned_gestures_classifier_options |
ตัวเลือกสำหรับการกำหนดค่าลักษณะการทำงานของตัวแยกประเภทด้วยท่าทางสัมผัสสำเร็จรูป ท่าทางสัมผัสสำเร็จรูปคือ ["None", "Closed_Fist", "Open_Palm", "Pointing_Up", "Thumb_Down", "Thumb_Up", "Victory", "ILoveYou"] |
|
|
|
custom_gestures_classifier_options |
ตัวเลือกสำหรับการกำหนดค่าลักษณะการทำงานของตัวแยกประเภทด้วยท่าทางสัมผัสที่กำหนดเอง |
|
|
|
result_callback |
ตั้งค่า Listener ผลลัพธ์เพื่อรับผลลัพธ์การจัดประเภท
แบบไม่พร้อมกันเมื่อตัวจดจำท่าทางสัมผัสอยู่ในโหมดสตรีมแบบสด
ใช้ได้เมื่อตั้งค่าโหมดวิ่งเป็น LIVE_STREAM เท่านั้น |
ResultListener |
ไม่มี | ไม่มี |
เตรียมข้อมูล
จัดเตรียมอินพุตของคุณเป็นไฟล์ภาพหรืออาร์เรย์ numpy แล้วแปลงเป็น
ออบเจ็กต์ mediapipe.Image
รายการ หากข้อมูลที่คุณป้อนเป็นไฟล์วิดีโอหรือสตรีมแบบสดจาก
เว็บแคม คุณจะสามารถใช้ไลบรารีภายนอก เช่น
OpenCV เพื่อโหลดเฟรมอินพุตเป็นตัวเลข
อาร์เรย์
รูปภาพ
import mediapipe as mp # Load the input image from an image file. mp_image = mp.Image.create_from_file('/path/to/image') # Load the input image from a numpy array. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)
วิดีโอ
import mediapipe as mp # Use OpenCV’s VideoCapture to load the input video. # Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS # You’ll need it to calculate the timestamp for each frame. # Loop through each frame in the video using VideoCapture#read() # Convert the frame received from OpenCV to a MediaPipe’s Image object. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
สตรีมแบบสด
import mediapipe as mp # Use OpenCV’s VideoCapture to start capturing from the webcam. # Create a loop to read the latest frame from the camera using VideoCapture#read() # Convert the frame received from OpenCV to a MediaPipe’s Image object. mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)
เรียกใช้งาน
การรู้จำท่าทางสัมผัสจะใช้การจดจำ, Aware_for_video และ Remember_async เพื่อทริกเกอร์การอนุมาน ในการจดจำท่าทางสัมผัส การดำเนินการนี้เกี่ยวข้องกับ ประมวลผลข้อมูลอินพุตล่วงหน้า ตรวจจับมือในรูปภาพ การตรวจจับมือ จุดสังเกต และจดจำท่าทางมือจากจุดสังเกต
โค้ดต่อไปนี้แสดงวิธีประมวลผลการประมวลผลด้วยโมเดลงาน
รูปภาพ
# Perform gesture recognition on the provided single image. # The gesture recognizer must be created with the image mode. gesture_recognition_result = recognizer.recognize(mp_image)
วิดีโอ
# Perform gesture recognition on the provided single image. # The gesture recognizer must be created with the video mode. gesture_recognition_result = recognizer.recognize_for_video(mp_image, frame_timestamp_ms)
สตรีมแบบสด
# Send live image data to perform gesture recognition. # The results are accessible via the `result_callback` provided in # the `GestureRecognizerOptions` object. # The gesture recognizer must be created with the live stream mode. recognizer.recognize_async(mp_image, frame_timestamp_ms)
โปรดทราบดังต่อไปนี้
- เมื่อทำงานในโหมดวิดีโอหรือโหมดสตรีมแบบสด คุณต้อง ระบุการประทับเวลาของเฟรมอินพุตในงานโปรแกรมรู้จำท่าทางสัมผัส
- เมื่อใช้งานในภาพหรือโมเดลวิดีโอ งานการจดจำท่าทางสัมผัสจะ บล็อกชุดข้อความปัจจุบันจนกว่าจะประมวลผลรูปภาพอินพุตเสร็จสิ้น หรือ เฟรม
- เมื่อทำงานในโหมดสตรีมแบบสด งานการจดจำท่าทางสัมผัสจะไม่บล็อก ชุดข้อความปัจจุบันแต่จะแสดงอีกครั้งทันที ระบบจะเรียกใช้ผลลัพธ์ Listener ที่มีผลลัพธ์การจดจำทุกครั้งที่ประมวลผลเสร็จสิ้น เฟรมอินพุต หากมีการเรียกใช้ฟังก์ชันการจดจำเมื่อโปรแกรมรู้จำท่าทางสัมผัส งานไม่ว่างเนื่องจากประมวลผลเฟรมอื่น งานจะไม่สนใจอินพุตใหม่ เฟรม
สำหรับตัวอย่างทั้งหมดของการเรียกใช้โปรแกรมรู้จำท่าทางสัมผัสกับรูปภาพ โปรดดูรหัส ตัวอย่าง เพื่อดูรายละเอียด
จัดการและแสดงผลลัพธ์
ตัวจดจำท่าทางสัมผัสจะสร้างออบเจ็กต์ผลลัพธ์การตรวจจับท่าทางสัมผัสสำหรับแต่ละ การจดจำเสียง ออบเจ็กต์ผลลัพธ์มีจุดสังเกตของมือในพิกัดรูปภาพ จุดสังเกตในพิกัดโลก มือ(ซ้าย/ขวา) และมือ หมวดหมู่ท่าทางสัมผัสของมือที่ตรวจพบ
ตัวอย่างต่อไปนี้แสดงตัวอย่างข้อมูลเอาต์พุตจากงานนี้
GestureRecognizerResult
ที่ได้จะมีคอมโพเนนต์ 4 รายการ และคอมโพเนนต์แต่ละรายการเป็นอาร์เรย์ โดยที่แต่ละองค์ประกอบจะให้ผลลัพธ์ที่ตรวจพบจากมือเดียวที่ตรวจพบ
ความถนัดของมือ
ความถนัดของมือแสดงให้เห็นว่ามือที่ตรวจพบเป็นมือซ้ายหรือมือขวา
ท่าทางสัมผัส
หมวดหมู่ท่าทางสัมผัสที่รู้จักของมือที่ตรวจพบ
จุดสังเกต
มีจุดสังเกต 21 จุด แต่ละรายการประกอบด้วยพิกัด
x
,y
และz
พิกัดx
และy
จะได้รับการปรับให้เป็น [0.0, 1.0] ตามความกว้างของภาพและ ตามลำดับ พิกัดz
แสดงความลึกของจุดสังเกต โดยมี ความลึกที่ข้อมือซึ่งเป็นจุดเริ่มต้น ยิ่งค่าน้อยเท่าไหร่ ก็ยิ่งใกล้ ที่สำคัญคือกล้อง ขนาดของz
ใช้มาตราส่วนใกล้เคียงกับx
สถานที่สำคัญของโลก
นอกจากนี้ สัญลักษณ์มือ 21 ข้างยังแสดงเป็นพิกัดของโลกด้วย จุดสังเกตแต่ละแห่ง ประกอบด้วย
x
,y
และz
ซึ่งจะแสดงพิกัด 3 มิติตามจริงใน เมตรที่มีจุดกำเนิดอยู่ที่จุดศูนย์กลางเรขาคณิตของมือ
GestureRecognizerResult:
Handedness:
Categories #0:
index : 0
score : 0.98396
categoryName : Left
Gestures:
Categories #0:
score : 0.76893
categoryName : Thumb_Up
Landmarks:
Landmark #0:
x : 0.638852
y : 0.671197
z : -3.41E-7
Landmark #1:
x : 0.634599
y : 0.536441
z : -0.06984
... (21 landmarks for a hand)
WorldLandmarks:
Landmark #0:
x : 0.067485
y : 0.031084
z : 0.055223
Landmark #1:
x : 0.063209
y : -0.00382
z : 0.020920
... (21 world landmarks for a hand)
รูปภาพต่อไปนี้แสดงการแสดงภาพเอาต์พุตของงาน
โค้ดตัวอย่างโปรแกรมรู้จำท่าทางสัมผัสสาธิตวิธีการแสดงการจดจำ ผลลัพธ์ที่แสดงผลจากงาน โปรดดู โค้ด ตัวอย่าง เพื่อดูรายละเอียด