Guía de detección de puntos de referencia de posiciones

La tarea MediaPipe Pose Landmarker te permite detectar puntos de referencia de cuerpos humanos en una imagen o video. Puedes usar esta tarea para identificar las ubicaciones clave del cuerpo, analizar la postura, y categorizar los movimientos. En esta tarea, se usan modelos de aprendizaje automático (AA) que trabajar con imágenes o videos individuales. La tarea muestra los puntos de referencia de la postura corporal en una imagen y en coordenadas mundiales tridimensionales.

Pruébalo.

Comenzar

Comienza a usar esta tarea siguiendo la guía de implementación de tu plataforma de destino. Estas guías específicas para plataformas te guiarán a través de un implementación de esta tarea, incluidos un modelo recomendado y un ejemplo de código con las opciones de configuración recomendadas:

Detalles de la tarea

En esta sección, se describen las capacidades, las entradas, las salidas y la configuración opciones de esta tarea.

Funciones

  • Procesamiento de imágenes de entrada: El procesamiento incluye la rotación, el cambio de tamaño, la normalización y la conversión del espacio de color de las imágenes.
  • Umbral de puntuación: Filtra los resultados en función de las puntuaciones de predicción.
Entradas de tareas Resultados de la tarea
El marcador de posición acepta una entrada de uno de los siguientes tipos de datos:
  • Imágenes fijas
  • Fotogramas de video decodificados
  • Feed de video en vivo
El marcador de posición de postura genera los siguientes resultados:
  • Posiciona puntos de referencia en coordenadas de imagen normalizadas
  • Posiciona puntos de referencia en coordenadas mundiales
  • Opcional: máscara de segmentación para la pose.

Opciones de configuración

Esta tarea tiene las siguientes opciones de configuración:

Nombre de la opción Descripción Rango de valores Valor predeterminado
running_mode Establece el modo de ejecución de la tarea. Existen tres modos:

IMAGE: Es el modo para entradas de una sola imagen.

VIDEO: es el modo de los fotogramas decodificados de un video.

LIVE_STREAM: Es el modo para una transmisión en vivo de entradas. datos, como los de una cámara. En este modo, resultListener debe se llama para configurar un objeto de escucha que reciba resultados de forma asíncrona.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses La cantidad máxima de poses que puede detectar el Pose aterrizaje. Integer > 0 1
min_pose_detection_confidence La puntuación de confianza mínima para la detección de poses correctamente. Float [0.0,1.0] 0.5
min_pose_presence_confidence La puntuación de confianza mínima de la presencia en poses en la detección de puntos de referencia de poses. Float [0.0,1.0] 0.5
min_tracking_confidence La puntuación de confianza mínima para el seguimiento de poses para ser considerada exitosa. Float [0.0,1.0] 0.5
output_segmentation_masks Establece si el marcador de posición de la postura genera una máscara de segmentación para el elemento detectado la pose. Boolean False
result_callback Configura el objeto de escucha de resultados para recibir los resultados del punto de referencia. de forma asíncrona cuando Pose Landmarker esté en el modo de transmisión en vivo. Solo se puede usar cuando el modo de ejecución está establecido en LIVE_STREAM ResultListener N/A

Modelos

El marcador de posición de poses usa una serie de modelos para predecir puntos de referencia de poses. La primera detecta la presencia de cuerpos humanos en el marco de una imagen, y la segunda localiza puntos de referencia en los cuerpos.

Los siguientes modelos se empaquetan en un paquete de modelos descargables:

  • Modelo de detección de poses: detecta la presencia de cuerpos con algunas poses clave. puntos de referencia.
  • Modelo de punto de referencia de pose: Agrega una asignación completa de la pose. El modelo da como resultado una estimación de 33 puntos de referencia de poses tridimensionales.

Este paquete usa una red neuronal convolucional similar a MobileNetV2 y está optimizado para aplicaciones de entrenamiento en tiempo real y en el dispositivo. Esta variante del Usos del modelo BlazePose GHUM, canalización de modelado 3D de forma humana para estimar la postura corporal completa en 3D de una a una persona física en imágenes o videos.

Paquete de modelos Forma de la entrada Tipo de datos Tarjetas de modelo Versiones
Punto de referencia de poses (lite) Detector de poses: 224 x 224 x 3
Punto de referencia de poses: 256 x 256 x 3
número de punto flotante 16 Información Más recientes
Punto de referencia de poses (completo) Detector de poses: 224 x 224 x 3
Punto de referencia de poses: 256 x 256 x 3
número de punto flotante 16 Información Más recientes
Punto de referencia de poses (intenso) Detector de poses: 224 x 224 x 3
Punto de referencia de poses: 256 x 256 x 3
número de punto flotante 16 Información Más recientes

Posiciona un modelo de hito de imágenes

El modelo de marcadores de posturas registra 33 ubicaciones de puntos de referencia corporales, que representan el ubicación aproximada de las siguientes partes del cuerpo:

El resultado del modelo contiene coordenadas normalizadas (Landmarks) y de imágenes coordenadas (WorldLandmarks) de cada punto de referencia.

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index