Đặt hướng dẫn phát hiện điểm mốc

Nhiệm vụ MediaPipe Pose vừa giới thiệu cho phép bạn phát hiện các điểm mốc của cơ thể người trong hình ảnh hoặc video. Bạn có thể dùng nhiệm vụ này để xác định các vị trí quan trọng của cơ thể, phân tích tư thế và phân loại chuyển động. Nhiệm vụ này sử dụng các mô hình học máy (ML) hoạt động với các hình ảnh hoặc video đơn lẻ. Nhiệm vụ này sẽ đưa ra các mốc tạo dáng cơ thể theo toạ độ hình ảnh và toạ độ thế giới 3 chiều.

Hãy dùng thử!

Bắt đầu

Hãy bắt đầu sử dụng tác vụ này bằng cách làm theo hướng dẫn triển khai cho nền tảng mục tiêu của bạn. Các hướng dẫn dành riêng cho nền tảng này sẽ hướng dẫn bạn cách triển khai cơ bản của tác vụ này, bao gồm cả mô hình được đề xuất và mã ví dụ với các lựa chọn cấu hình được đề xuất:

Android – Ví dụ về mã – Hướng dẫn
Python – Ví dụ về mã – Hướng dẫn
Web – Ví dụ về mã – Hướng dẫn

Thông tin chi tiết về việc cần làm

Phần này mô tả các tính năng, dữ liệu đầu vào, đầu ra và tuỳ chọn cấu hình của tác vụ này.

Tính năng

Xử lý hình ảnh đầu vào – Xử lý bao gồm việc xoay hình ảnh, đổi kích thước, chuẩn hoá và chuyển đổi không gian màu.
Ngưỡng điểm số – Lọc kết quả dựa trên điểm dự đoán.

Dữ liệu đầu vào của việc cần làm	Kết quả đầu ra của nhiệm vụ
Pose Viewser chấp nhận dữ liệu đầu vào của một trong các loại dữ liệu sau: Hình ảnh tĩnh Khung video đã được giải mã Trang video trực tiếp	Pose Viewser đưa ra các kết quả sau: Tạo điểm mốc theo toạ độ hình ảnh chuẩn hoá Tạo dáng các địa danh trên toạ độ thế giới Không bắt buộc: mặt nạ phân đoạn cho tư thế.

Dữ liệu đầu vào của việc cần làm

Kết quả đầu ra của nhiệm vụ

Pose Viewser chấp nhận dữ liệu đầu vào của một trong các loại dữ liệu sau:

Hình ảnh tĩnh

Khung video đã được giải mã

Trang video trực tiếp

Pose Viewser đưa ra các kết quả sau:

Tạo điểm mốc theo toạ độ hình ảnh chuẩn hoá

Tạo dáng các địa danh trên toạ độ thế giới

Không bắt buộc: mặt nạ phân đoạn cho tư thế.

Lựa chọn về cấu hình

Tác vụ này có các chế độ cấu hình sau:

Tên lựa chọn	Nội dung mô tả	Khoảng giá trị	Giá trị mặc định
`running_mode`	Đặt chế độ chạy cho tác vụ. Có 3 chế độ: IMAGE: Chế độ nhập một hình ảnh. VIDEO: Chế độ khung hình đã giải mã của video. LIVE_STREAM: Chế độ phát trực tiếp dữ liệu đầu vào, chẳng hạn như từ máy quay. Ở chế độ này, bạn phải gọi resultsListener để thiết lập trình nghe nhằm nhận kết quả không đồng bộ.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	Số lượng tư thế tối đa có thể được phát hiện bằng Pose Towerer.	`Integer > 0`	`1`
`min_pose_detection_confidence`	Điểm số tin cậy tối thiểu để phát hiện tư thế được coi là thành công.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	Điểm số tin cậy tối thiểu về sự hiện diện tư thế trong quá trình phát hiện mốc tư thế.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	Điểm số tin cậy tối thiểu để việc theo dõi tư thế được coi là thành công.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Liệu Pose quen thuộc có tạo ra một mặt nạ phân đoạn cho tư thế đã phát hiện hay không.	`Boolean`	`False`
`result_callback`	Đặt trình nghe kết quả để nhận kết quả mốc không đồng bộ khi Pose Towerer đang ở chế độ phát trực tiếp. Chỉ có thể sử dụng khi bạn đặt chế độ chạy thành `LIVE_STREAM`	`ResultListener`	`N/A`

Mô hình

The Pose Towerer sử dụng một loạt mô hình để dự đoán các điểm mốc tạo dáng. Mô hình đầu tiên phát hiện sự hiện diện của cơ thể người trong khung ảnh, và mô hình thứ hai xác định vị trí các điểm mốc trên cơ thể.

Các mô hình sau đây được đóng gói cùng nhau thành một gói mô hình có thể tải xuống:

Mô hình phát hiện tư thế: phát hiện sự hiện diện của cơ thể thông qua một số điểm đánh dấu tư thế chính.
Pose modeler model (Tạo mô hình điểm mốc): thêm một bản đồ hoàn chỉnh về tư thế. Mô hình này đưa ra ước tính 33 điểm mốc tạo tư thế 3 chiều.

Gói này sử dụng mạng nơron tích chập, tương tự như MobileNetV2 và được tối ưu hoá cho các ứng dụng thể dục theo thời gian thực trên thiết bị. Biến thể của mô hình BlazePose này sử dụng GHUM, một quy trình lập mô hình hình dạng người 3D để ước tính tư thế cơ thể 3D đầy đủ của một cá nhân trong hình ảnh hoặc video.

Gói mô hình	Hình dạng dữ liệu đầu vào	Loại dữ liệu	Thẻ mô hình	Phiên bản
Đặt điểm mốc (rút gọn)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc đặt tư thế: 256 x 256 x 3	số thực 16	thông tin	Mới nhất
Tạo điểm mốc (Đầy đủ)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc đặt tư thế: 256 x 256 x 3	số thực 16	thông tin	Mới nhất
Tạo điểm mốc (Nặng)	Trình phát hiện tư thế: 224 x 224 x 3 Điểm mốc đặt tư thế: 256 x 256 x 3	số thực 16	thông tin	Mới nhất

Tạo mô hình điểm mốc

Mô hình điểm mốc của tư thế theo dõi 33 vị trí mốc cơ thể, đại diện cho vị trí ước chừng của các phần cơ thể sau:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

Đầu ra của mô hình chứa cả toạ độ chuẩn hoá (Landmarks) và toạ độ thế giới (WorldLandmarks) đối với từng điểm mốc.