姿勢ランドマーク検出ガイド

MediaPipe のポーズのランドマーク タスクでは、画像や動画に含まれる人体のランドマークを検出できます。このタスクを使用して、身体の主な位置の特定、姿勢の分析、動作の分類を行うことができます。このタスクでは、単一の画像または動画で動作する機械学習(ML)モデルを使用します。このタスクは、身体の姿勢のランドマークを画像座標と 3 次元の世界座標で出力します。

試してみる

使ってみる

ターゲット プラットフォームの実装ガイドに従って、このタスクの使用を開始します。以下のプラットフォーム固有のガイドでは、推奨モデルや推奨構成オプションを含むコードサンプルなど、このタスクの基本的な実装について説明します。

タスクの詳細

このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。

機能

  • 入力画像処理 - 画像の回転、サイズ変更、正規化、色空間変換などを行います。
  • スコアしきい値 - 予測スコアに基づいて結果をフィルタリングします。
タスクの入力 タスクの出力
ポーズのランドマークは、次のいずれかのデータ型の入力を受け入れます。
  • 静止画像
  • デコードされた動画フレーム
  • ライブ動画フィード
ポーズのランドマーク ツールは次のような結果を出力します。
  • 正規化された画像座標でランドマークをポーズさせる
  • 世界座標でランドマークの位置を決める
  • 省略可: ポーズのセグメンテーション マスク。

構成オプション

このタスクには、次の構成オプションがあります。

オプション名 説明 値の範囲 デフォルト値
running_mode タスクの実行モードを設定します。モードは 3 つあります。

IMAGE: 単一の画像入力のモード。

VIDEO: 動画のデコードされたフレームのモード。

LIVE_STREAM: カメラからのデータなど、入力データのライブストリームのモード。このモードでは、resultListener を呼び出して、結果を非同期で受け取るリスナーをセットアップする必要があります。
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses ポーズのランドマークで検出できるポーズの最大数。 Integer > 0 1
min_pose_detection_confidence 成功したとみなされる姿勢検出の最小信頼スコア。 Float [0.0,1.0] 0.5
min_pose_presence_confidence 姿勢ランドマーク検出におけるポーズ存在スコアの最小信頼スコア。 Float [0.0,1.0] 0.5
min_tracking_confidence 成功したとみなされるポーズ追跡の最小信頼スコア。 Float [0.0,1.0] 0.5
output_segmentation_masks 検出されたポーズのセグメンテーション マスクを姿勢ランドマーク er が出力するかどうか。 Boolean False
result_callback Pose Landscapeer がライブ ストリーム モードのときに、ランドマーク マーキングの結果を非同期で受け取るように結果リスナーを設定します。 実行モードが LIVE_STREAM に設定されている場合にのみ使用できます ResultListener N/A

モデル

ポーズのランドマークは、一連のモデルを使用してランドマークのポーズを予測します。最初のモデルは画像フレーム内の人体の存在を検出し、2 番目のモデルは身体上のランドマークを特定します。

次のモデルは、ダウンロード可能なモデルバンドルにパッケージ化されています。

  • 姿勢検出モデル: いくつかの重要なポーズ ランドマークで身体の存在を検出します。
  • 姿勢標識モデル: ポーズの完全なマッピングを追加します。このモデルは、33 の 3 次元ポーズ ランドマークの推定値を出力します。

このバンドルは、MobileNetV2 と同様の畳み込みニューラル ネットワークを使用し、デバイス上のリアルタイムのフィットネス アプリケーション向けに最適化されています。この BlazePose モデルのバリアントは、3D 人間の形状モデリング パイプラインである GHUM を使用して、画像や動画内の個人の 3D 全身の姿勢を推定します。

モデルバンドル 入力シェイプ データの種類 モデルカード バージョン
ポーズ ランドマーク(ライト)姿勢検出機能: 224 x 224 x 3
ポーズ ランドマーク: 256 x 256 x 3
浮動小数点数 16 情報 最新
ポーズ ランドマーク(完全) 姿勢検出機能: 224 x 224 x 3
ポーズ ランドマーク: 256 x 256 x 3
浮動小数点数 16 情報 最新
ポーズ ランドマーク(重い)姿勢検出機能: 224 x 224 x 3
ポーズ ランドマーク: 256 x 256 x 3
浮動小数点数 16 情報 最新

ポーズ ランドマーク モデル

ポーズ ランドマーク モデルは、33 の身体ランドマークの位置を追跡し、以下の各部位のおおよその位置を表します。

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

モデルの出力には、各ランドマークの正規化座標(Landmarks)と世界座標(WorldLandmarks)の両方が含まれます。