Guia de detecção de pontos de referência de poses

A tarefa "MediaPipe Pose extraser" permite detectar pontos de referência de corpos humanos em uma imagem ou um vídeo. Você pode usar essa tarefa para identificar as principais localizações do corpo, analisar a postura e categorizar movimentos. Essa tarefa usa modelos de machine learning (ML) que funcionam com imagens ou vídeos únicos. A tarefa gera pontos de referência de poses corporais em coordenadas de imagem e em coordenadas mundiais tridimensionais.

Faça um teste.

Comece já

Comece a usar essa tarefa seguindo o guia de implementação da sua plataforma de destino. Estes guias específicos da plataforma orientam você em uma implementação básica dessa tarefa, incluindo um modelo recomendado e um exemplo de código com as opções de configuração recomendadas:

Detalhes da tarefa

Nesta seção, descrevemos os recursos, as entradas, as saídas e as opções de configuração desta tarefa.

Recursos

  • Processamento de imagens de entrada: o processamento inclui rotação, redimensionamento, normalização e conversão do espaço de cor das imagens.
  • Limite de pontuação: filtre os resultados com base nas pontuações de previsão.
Entradas de tarefas Saídas de tarefas
O ponto de referência de poses aceita uma entrada de um dos seguintes tipos de dados:
  • Imagens estáticas
  • Frames de vídeo decodificados
  • Feed de vídeo ao vivo
O ponto de referência de postura gera os seguintes resultados:
  • Posicionar pontos de referência em coordenadas de imagem normalizada
  • Posicionar pontos de referência em coordenadas mundiais
  • Opcional: uma máscara de segmentação para a pose.

Opções de configuração

Essa tarefa tem as seguintes opções de configuração:

Nome da opção Descrição Intervalo de valor Valor padrão
running_mode Define o modo de execução da tarefa. Há três modos:

IMAGE: o modo para entradas de imagem única.

VIDEO: o modo para frames decodificados de um vídeo.

LIVE_STREAM: é o modo para uma transmissão ao vivo de dados de entrada, como de uma câmera. Nesse modo, o resultListener precisa ser chamado para configurar um listener para receber resultados de forma assíncrona.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses O número máximo de poses que podem ser detectadas pelo ponto de referência da postura. Integer > 0 1
min_pose_detection_confidence A pontuação de confiança mínima para que a detecção de poses seja considerada bem-sucedida. Float [0.0,1.0] 0.5
min_pose_presence_confidence A pontuação de confiança mínima da pontuação de presença de poses na detecção de pontos de referência de poses. Float [0.0,1.0] 0.5
min_tracking_confidence A pontuação de confiança mínima para que o rastreamento de poses seja considerado bem-sucedido. Float [0.0,1.0] 0.5
output_segmentation_masks Define se o "Pose extras" gera uma máscara de segmentação para a pose detectada. Boolean False
result_callback Define o listener de resultado para receber os resultados do ponto de referência de forma assíncrona quando o elemento "Pose extras" está no modo de transmissão ao vivo. Só pode ser usado quando o modo de corrida está definido como LIVE_STREAM ResultListener N/A

Modelos

O ponto de referência de poses usa uma série de modelos para prever pontos de referência de poses. O primeiro modelo detecta a presença de corpos humanos em um frame de imagem, e o segundo localiza pontos de referência no corpo.

Os modelos a seguir são agrupados em um pacote de modelos disponível para download:

  • Modelo de detecção de poses: detecta a presença de corpos com alguns pontos de referência importantes.
  • Modelo de ponto de referência de posição: adiciona um mapeamento completo da pose. O modelo gera uma estimativa de 33 pontos de referência tridimensionais de poses.

Esse pacote usa uma rede neural convolucional semelhante à MobileNetV2 (link em inglês) e é otimizado para aplicativos de condicionamento físico em tempo real no dispositivo. Esta variante do modelo BlazePose usa o GHUM (em inglês), um pipeline de modelagem de formas humanas em 3D, para estimar a pose em 3D do corpo de um indivíduo em imagens ou vídeos.

Pacote de modelos Forma de entrada Tipo de dados Cards de modelo Versions
Ponto de referência de pose (lite) Detector de poses: 224 x 224 x 3
Ponto de referência de pose: 256 x 256 x 3
ponto flutuante 16 informações Mais recente
Ponto de referência de pose (completo) Detector de poses: 224 x 224 x 3
Ponto de referência de pose: 256 x 256 x 3
ponto flutuante 16 informações Mais recente
Ponto de referência de pose (grosso) Detector de poses: 224 x 224 x 3
Ponto de referência de pose: 256 x 256 x 3
ponto flutuante 16 informações Mais recente

Posicionar o modelo de ponto de referência

O modelo de ponto de referência de poses rastreia 33 locais de pontos de referência do corpo, representando o local aproximado das seguintes partes do corpo:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

A saída do modelo contém coordenadas normalizadas (Landmarks) e coordenadas mundiais (WorldLandmarks) para cada ponto de referência.