Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

手のランドマーク検出ガイド

卵を持っている手。手形の形状がワイヤーフレームでマークされ、識別された構造が示されます。

MediaPipe Hand Landmarker タスクを使用すると、画像内の手のランドマークを検出できます。このタスクを使用すると、手のキーポイントを特定し、その上に視覚効果をレンダリングできます。このタスクは、機械学習（ML）モデルを静的データまたは連続ストリームとして使用して画像データを処理し、画像座標で手のランドマーク、ワールド座標で手のランドマーク、検出された複数の手の利き手（左手/右手）を出力します。

試してみる

使ってみる

このタスクを使用するには、対象プラットフォーム向けの次のいずれかの実装ガイドに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや、推奨構成オプションを含むコード例など、このタスクの基本的な実装について説明します。

Android - コード例
- ガイド
Python - コード例
- ガイド
ウェブ - コード例 - ガイド

タスクの詳細

このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。

機能

入力画像の処理 - 処理には、画像の回転、サイズ変更、正規化、色空間変換が含まれます。
スコアしきい値 - 予測スコアに基づいて結果をフィルタします。

タスク入力	タスクの出力
Hand Landmarker は、次のいずれかのデータ型の入力を受け入れます。静止画像デコードされた動画フレームライブ動画フィード	Hand Landmarker の出力結果は次のとおりです。検出された手の利き手検出された手のランドマーク（画像座標）検出された手のランドマーク（ワールド座標）

タスク入力

タスクの出力

Hand Landmarker は、次のいずれかのデータ型の入力を受け入れます。

静止画像

デコードされた動画フレーム

ライブ動画フィード

Hand Landmarker の出力結果は次のとおりです。

検出された手の利き手

検出された手のランドマーク（画像座標）

検出された手のランドマーク（ワールド座標）

構成オプション

このタスクには、次の構成オプションがあります。

オプション名	説明	値の範囲	デフォルト値
`running_mode`	タスクの実行モードを設定します。モードは次の 3 つです。 IMAGE: 単一画像入力のモード。動画: 動画のデコードされたフレームのモード。 LIVE_STREAM: カメラなどからの入力データのライブ配信モード。このモードでは、resultListener を呼び出して、結果を非同期で受信するリスナーを設定する必要があります。	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_hands`	ハンドランドマーク検出機能によって検出される手の最大数。	`Any integer > 0`	`1`
`min_hand_detection_confidence`	手の検出が成功と見なされるために必要な、手のひら検出モデルの信頼度の最小スコア。	`0.0 - 1.0`	`0.5`
`min_hand_presence_confidence`	手ランドマーク検出モデルの手の存在スコアの最小信頼度スコア。動画モードとライブ配信モードでは、手形モデルの手の存在の信頼スコアがこのしきい値を下回ると、ハンドランドマークが手のひら検出モデルをトリガーします。それ以外の場合は、軽量の手トラッキングアルゴリズムが、その後のランドマーク検出のために手の位置を決定します。	`0.0 - 1.0`	`0.5`
`min_tracking_confidence`	ハンドトラッキングが成功とみなされるための最小信頼スコア。これは、現在のフレームと最後のフレームの手の境界ボックスの IoU しきい値です。Hand Landmarker の動画モードとストリーミングモードでは、トラッキングに失敗すると、Hand Landmarker が手の検出をトリガーします。それ以外の場合、手検出はスキップされます。	`0.0 - 1.0`	`0.5`
`result_callback`	ハンドランドマークがライブ配信モードのときに検出結果を非同期で受信するように結果リスナーを設定します。実行モードが `LIVE_STREAM` に設定されている場合にのみ適用されます。	なし	なし

モデル

Hand Landmarker は、手のひら検出モデルと手のランドマーク検出モデルの 2 つのパッケージ化されたモデルを含むモデルバンドルを使用します。このタスクを実行するには、これらのモデルの両方を含むモデルバンドルが必要です。

モデル名	入力シェイプ	量子化のタイプ	モデルカード	バージョン
HandLandmarker（完全版）	192 x 192、224 x 224	float 16	情報	最新

ハンドランドマークモデルバンドルは、検出された手の領域内の 21 個の手の指関節座標のキーポイント位置を検出します。このモデルは、約 3 万枚の現実世界の画像と、さまざまな背景に重ねてレンダリングされた合成の手モデルでトレーニングされています。

ハンドランドマークモデルバンドルには、手のひら検出モデルとハンドランドマーク検出モデルが含まれています。手のひら検出モデルは入力画像内の手を検出し、手のランドマーク検出モデルは手のひら検出モデルによって定義された切り抜かれた手の画像上の特定の手のランドマークを識別します。

手のひら検出モデルの実行には時間がかかるため、動画またはライブ配信の実行モードでは、ハンドランドマークモデルによって 1 つのフレームで定義された境界ボックスを使用して、後続のフレームの手の領域をローカライズします。Hand Landmarker は、手ランドマークモデルが手の存在を検出できなくなった場合、またはフレーム内の手をトラッキングできなかった場合にのみ、手のひら検出モデルを再トリガーします。これにより、Hand Landmarker が手のひら検出モデルをトリガーする回数が減ります。

タスクのベンチマーク

上記の事前トレーニング済みモデルに基づくパイプライン全体のタスクベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。

モデル名	CPU レイテンシ	GPU レイテンシ
HandLandmarker（完全）	17.12ms	12.27 ミリ秒