姿勢地標偵測指南

MediaPipe Pose 地標工作可讓您偵測圖片或影片中的人體地標。您可以使用這項工作來識別關鍵主體位置、分析姿勢,以及將運動分類。這項工作採用的機器學習 (ML) 模型 適用於單一圖片或影片工作會輸出圖片座標和 3D 世界座標中的身體姿勢地標。

試試看!

開始使用

如要開始使用這項工作,請按照目標平台的實作指南操作。下列平台專用指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:

任務詳細資料

本節說明這項工作的功能、輸入、輸出和設定選項。

功能

  • 輸入圖片處理 - 處理範圍包括圖片旋轉、大小調整、正規化及色域轉換。
  • 分數門檻:根據預測分數篩選結果。
工作輸入內容 工作輸出內容
「佩斯地標」接受下列任一資料類型的輸入內容:
  • 靜態圖片
  • 經解碼的影格數
  • 直播影片動態饋給
「Pose Ranker」會產生以下結果:
  • 正規化圖片座標中的姿勢地標
  • 以世界座標表示地標
  • 選用:姿勢的區隔遮罩。

設定選項

這項工作有以下設定選項:

選項名稱 說明 值範圍 預設值
running_mode 設定工作的執行模式。共有三種模式:

IMAGE:單一圖片輸入的模式。

影片:影片已解碼影格的模式。

LIVE_STREAM:輸入資料串流 (例如攝影機) 的直播模式。在這個模式下,必須呼叫 resultListener 才能設定事件監聽器,以非同步方式接收結果。
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses 姿勢地標可以偵測到的姿勢數量上限。 Integer > 0 1
min_pose_detection_confidence 判定姿勢偵測作業成功所需的最低可信度分數。 Float [0.0,1.0] 0.5
min_pose_presence_confidence 在姿勢地標偵測中,姿勢狀態分數的最小可信度分數 Float [0.0,1.0] 0.5
min_tracking_confidence 要判定姿勢追蹤成功的可信度分數下限, Float [0.0,1.0] 0.5
output_segmentation_masks 是否要為偵測到的姿勢輸出區隔遮罩。 Boolean False
result_callback 設定結果事件監聽器,就能在直播模式下以非同步方式接收地標結果。 只能在執行模式設為 LIVE_STREAM 時使用 ResultListener N/A

模型

「Pose 地標」使用一系列模型來預測姿勢地標。第一個模型會偵測圖片影格中是否有人體,第二個模型則會在主體中尋找地標。

下列模型會封裝成可下載的模型套件:

  • 姿勢偵測模型:使用幾個重要姿勢地標偵測身體是否存在。
  • 垂直地標模型:新增姿勢的完整對應關係。模型會輸出 33D 3D 姿勢地標的估計值。

這個套件使用類似於 MobileNetV2 的捲積類神經網路,已針對裝置端即時健身應用程式完成最佳化調整。這個 BlazePose 模型的變化版本使用 GHUM 這個 3D 人形模型管道,在圖片或影片中估算人物的完整 3D 身體姿勢。

模型套裝組合 輸入形狀 資料類型 Model Card 版本
姿勢地標工具 (精簡版) 姿勢偵測器:224 x 224 x 3
姿勢地標:256 x 256 x 3
浮點值 16 資訊 最新
姿勢地標 (完整版) 姿勢偵測器:224 x 224 x 3
姿勢地標:256 x 256 x 3
浮點值 16 資訊 最新
姿勢地標 (重型) 姿勢偵測器:224 x 224 x 3
姿勢地標:256 x 256 x 3
浮點值 16 資訊 最新

姿勢地標模型

姿勢地標模型會追蹤 33 個主體地標,代表下列身體部位的概略位置:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

模型輸出內容包含每個地標的正規化座標 (Landmarks) 和世界座標 (WorldLandmarks)。