Guide de détection des points de repère des postures

La tâche MediaPipe Pose Marker vous permet de détecter les points de repère de corps humains dans une image ou une vidéo. Vous pouvez utiliser cette tâche pour identifier des emplacements clés du corps, analyser la posture et classer les mouvements. Cette tâche utilise des modèles de machine learning (ML) fonctionnant avec des images ou des vidéos uniques. La tâche génère des points de repère de pose du corps sous forme de coordonnées d'image et en coordonnées mondiales en 3D.

Essayer

Commencer

Commencez à utiliser cette tâche en suivant le guide d'implémentation correspondant à votre plate-forme cible. Ces guides spécifiques à la plate-forme vous guident tout au long d'une implémentation de base de cette tâche, y compris un modèle et un exemple de code recommandés, ainsi que les options de configuration recommandées:

Détails de la tâche

Cette section décrit les capacités, les entrées, les sorties et les options de configuration de cette tâche.

Caractéristiques

  • Traitement de l'image d'entrée : le traitement comprend la rotation, le redimensionnement, la normalisation et la conversion de l'espace colorimétrique.
  • Seuil de score : filtre les résultats en fonction des scores de prédiction.
Entrées des tâches Sorties de tâches
Le repère de posture accepte l'un des types de données suivants:
  • Images fixes
  • Images vidéo décodées
  • Flux vidéo en direct
L'outil de jalon de pose renvoie les résultats suivants:
  • Poser des points de repère en coordonnées d'image normalisées
  • Posez des points de repère en coordonnées mondiales
  • Masque de segmentation pour la posture (facultatif).

Options de configuration

Cette tâche comporte les options de configuration suivantes:

Nom de l'option Description Plage de valeurs Valeur par défaut
running_mode Définit le mode d'exécution de la tâche. Il existe trois modes:

IMAGE: mode pour les entrées d'une seule image.

VIDEO: mode pour les images décodées d'une vidéo.

LIVE_STREAM: mode de diffusion en direct de données d'entrée, issues par exemple d'une caméra. Dans ce mode, resultListener doit être appelé pour configurer un écouteur afin de recevoir les résultats de manière asynchrone.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses Nombre maximal de postures pouvant être détectées par le repère de posture. Integer > 0 1
min_pose_detection_confidence Score de confiance minimal pour que la détection de poses soit considérée comme réussie. Float [0.0,1.0] 0.5
min_pose_presence_confidence Score de confiance minimal du score de présence de posture dans la détection des points de repère de pose. Float [0.0,1.0] 0.5
min_tracking_confidence Score de confiance minimal pour que le suivi des postures soit considéré comme une réussite. Float [0.0,1.0] 0.5
output_segmentation_masks Indique si le repère de posture génère un masque de segmentation pour la posture détectée. Boolean False
result_callback Définit l'écouteur de résultats de sorte qu'il reçoive les résultats du repère de manière asynchrone lorsque la pose est en mode de diffusion en direct. Ne peut être utilisé que lorsque le mode En cours d'exécution est défini sur LIVE_STREAM ResultListener N/A

Modèles

Le repère de pose utilise une série de modèles pour prédire les points de repère de pose. Le premier modèle détecte la présence de corps humains dans un cadre d'image, et le second modèle localise les points de repère sur les corps.

Les modèles suivants sont empaquetés dans un lot de modèles téléchargeable:

  • Le modèle de détection de poses: détecte la présence de corps avec quelques points de repère clés.
  • Modèle de repère de position: ajoute un mappage complet de la pose. Le modèle génère une estimation de 33 points de repère de pose tridimensionnels.

Ce lot utilise un réseau de neurones convolutif semblable à MobileNetV2 et optimisé pour les applications de fitness en temps réel sur l'appareil. Cette variante du modèle BlazePose utilise GHUM, un pipeline de modélisation de la forme humaine en 3D pour estimer la position complète du corps en 3D d'un individu dans des images ou des vidéos.

Lot de modèles Forme de saisie Type de données Fiches de modèle Versions
Marqueur de poses (version simplifiée) Détecteur de poses: 224 x 224 x 3
Marqueur de poses: 256 x 256 x 3
nombre décimal 16 info Les plus récents
Marqueur de poses (complet) Détecteur de poses: 224 x 224 x 3
Marqueur de poses: 256 x 256 x 3
nombre décimal 16 info Les plus récents
Marqueur de poses (Lourd) Détecteur de poses: 224 x 224 x 3
Marqueur de poses: 256 x 256 x 3
nombre décimal 16 info Les plus récents

Modèle de repère de posture

Le modèle de repère de pose suit 33 emplacements de points de repère du corps, représentant l'emplacement approximatif des parties du corps suivantes:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

La sortie du modèle contient à la fois des coordonnées normalisées (Landmarks) et des coordonnées mondiales (WorldLandmarks) pour chaque point de repère.