Guide de détection des points de repère des postures

La tâche MediaPipe Pose Markerer vous permet de détecter les points de repère de corps humain dans une image ou vidéo. Vous pouvez utiliser cette tâche pour identifier les emplacements clés du corps, analyser la posture, et catégoriser les mouvements. Cette tâche utilise des modèles de machine learning (ML) avec des images ou des vidéos uniques. La tâche génère des points de repère concernant les postures du corps dans une image en 3D et en 3D.

<ph type="x-smartling-placeholder"></ph> Essayez !

Premiers pas

Commencez à effectuer cette tâche en suivant le guide d'implémentation de votre la plate-forme cible. Ces guides spécifiques à chaque plate-forme vous guident à travers un la mise en œuvre de cette tâche, y compris un modèle recommandé et un exemple de code avec les options de configuration recommandées:

Détails de la tâche

Cette section décrit les fonctionnalités, les entrées, les sorties et la configuration de cette tâche.

Fonctionnalités

  • Traitement de l'image d'entrée : le traitement inclut la rotation, le redimensionnement, la normalisation et la conversion de l'espace colorimétrique de l'image.
  • Seuil de score : filtre les résultats en fonction de scores de prédiction.
Entrées des tâches Sorties des tâches
Le repère de postures accepte l'un des types de données suivants:
<ph type="x-smartling-placeholder">
    </ph>
  • Images fixes
  • Images vidéo décodées
  • Flux vidéo en direct
Le repère de postures génère les résultats suivants:
<ph type="x-smartling-placeholder">
    </ph>
  • Poser des points de repère en coordonnées d'image normalisées
  • Poser des points de repère en coordonnées mondiales
  • Facultatif: masque de segmentation pour la pose.

Options de configuration

Cette tâche comporte les options de configuration suivantes:

Nom de l'option Description Plage de valeurs Valeur par défaut
running_mode Définit le mode d'exécution de la tâche. Il y en a trois modes:

IMAGE: mode utilisé pour la saisie d'une seule image.

VIDEO: mode des images décodées d'une vidéo.

LIVE_STREAM: mode d'une diffusion en direct des entrées provenant d'un appareil photo, par exemple. Dans ce mode, resultListener doit être appelé pour configurer un écouteur afin de recevoir les résultats ; de manière asynchrone.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses Nombre maximal de postures pouvant être détectées par le Repère de position. Integer > 0 1
min_pose_detection_confidence Score de confiance minimal pour que la détection de postures soit considéré comme réussi. Float [0.0,1.0] 0.5
min_pose_presence_confidence Score de confiance minimal de la présence de la pose dans la détection des points de repère de pose. Float [0.0,1.0] 0.5
min_tracking_confidence Score de confiance minimal pour le suivi des postures pour être considéré réussi. Float [0.0,1.0] 0.5
output_segmentation_masks Permet d'afficher ou non un masque de segmentation pour le repère de posture . Boolean False
result_callback Définit l'écouteur des résultats pour qu'il reçoive les résultats du point de repère. de manière asynchrone lorsque Pose Markerer est en mode diffusion en direct. Ne peut être utilisé que lorsque le mode d'exécution est défini sur LIVE_STREAM ResultListener N/A

Modèles

Le repère de postures utilise une série de modèles pour prédire les points de repère de postures. Le premier détecte la présence de corps humain dans un cadre d'image, et la seconde localise des points de repère sur les corps.

Les modèles suivants sont empaquetés ensemble dans un pack de modèles téléchargeable:

  • Modèle de détection des doses: détecte la présence de corps avec quelques poses clés. de points de repère.
  • Modèle de point de repère Pose: ajoute un mappage complet de la pose. Le modèle génère une estimation de 33 points de repère en 3 dimensions.

Ce lot utilise un réseau de neurones convolutif semblable à MobileNetV2 et est optimisé pour les applications de fitness en temps réel sur l'appareil. Cette variante du Le modèle BlazePose utilise GHUM un pipeline de modélisation 3D des formes humaines, pour estimer la posture en 3D du corps d'un dans les images ou les vidéos.

<ph type="x-smartling-placeholder">

Groupe de modèles Forme d'entrée Type de données Fiches de modèle Versions
<ph type="x-smartling-placeholder"></ph> Repère de postures (mode simplifié) Détecteur de postures: 224 x 224 x 3
Repère de postures: 256 x 256 x 3
float 16 <ph type="x-smartling-placeholder"></ph> infos <ph type="x-smartling-placeholder"></ph> Nouveautés
<ph type="x-smartling-placeholder"></ph> Repère de postures (complète) Détecteur de postures: 224 x 224 x 3
Repère de postures: 256 x 256 x 3
float 16 <ph type="x-smartling-placeholder"></ph> infos <ph type="x-smartling-placeholder"></ph> Nouveautés
<ph type="x-smartling-placeholder"></ph> Repère de postures (en gras) Détecteur de postures: 224 x 224 x 3
Repère de postures: 256 x 256 x 3
float 16 <ph type="x-smartling-placeholder"></ph> infos <ph type="x-smartling-placeholder"></ph> Nouveautés

Modèle de repère de posture

Ce modèle suit 33 points de repère pour le corps, représentant le position approximative des parties suivantes du corps:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

La sortie du modèle contient à la fois les coordonnées normalisées (Landmarks) et le monde coordonnées (WorldLandmarks) de chaque point de repère.