Guia de detecção de pontos de referência de poses

A tarefa MediaPipe Pose Scoreer permite detectar pontos de referência de corpos humanos em uma imagem ou vídeo. Você pode usar essa tarefa para identificar as principais localizações do corpo, analisar a postura, e categorizar movimentos. Essa tarefa usa modelos de machine learning (ML) que funcionam com imagens ou vídeos únicos. A tarefa gera pontos de referência de posições do corpo na imagem e em coordenadas mundiais tridimensionais.

Faça um teste!

Começar

Para começar a usar essa tarefa, siga o guia de implementação da sua plataforma de destino. Estes guias específicos da plataforma orientam você em um processo implementação desta tarefa, incluindo um modelo recomendado e um exemplo de código com as opções de configuração recomendadas:

Detalhes da tarefa

Esta seção descreve as capacidades, entradas, saídas e configurações dessa tarefa.

Recursos

  • Processamento de imagens de entrada: o processamento inclui rotação, redimensionamento, normalização e conversão do espaço de cores das imagens.
  • Limite de pontuação: filtra os resultados com base nas pontuações da previsão.
Entradas de tarefas Saídas de tarefas
O ponto de referência de posições aceita uma entrada de um dos seguintes tipos de dados:
  • Imagens estáticas
  • Frames de vídeo decodificados
  • Feed de vídeo ao vivo
O ponto de referência de postura gera os seguintes resultados:
  • Posicionar pontos de referência em coordenadas de imagem normalizadas
  • Posicionar pontos de referência em coordenadas mundiais
  • Opcional: uma máscara de segmentação para a pose.

Opções de configurações

Essa tarefa tem as seguintes opções de configuração:

Nome da opção Descrição Intervalo de valor Valor padrão
running_mode Define o modo de execução da tarefa. Existem três modos:

IMAGEM: o modo para entradas de imagem única.

VÍDEO: o modo para frames decodificados de um vídeo.

LIVE_STREAM: o modo de transmissão ao vivo da entrada dados de uma câmera, por exemplo. Neste modo, resultListener deve ser chamado para configurar um listener e receber resultados de forma assíncrona.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses O número máximo de poses que podem ser detectadas pelo Faça uma pose de referência. Integer > 0 1
min_pose_detection_confidence A pontuação de confiança mínima para que a detecção de pose seja considerada bem-sucedida. Float [0.0,1.0] 0.5
min_pose_presence_confidence A pontuação de confiança mínima da presença de pose na detecção de pontos de referência de poses. Float [0.0,1.0] 0.5
min_tracking_confidence A pontuação de confiança mínima para o rastreamento de pose para ser considerado bem-sucedido. Float [0.0,1.0] 0.5
output_segmentation_masks Define se o Pose Scoreer gera uma máscara de segmentação para o objeto detectado. pose Boolean False
result_callback Define o listener de resultados para receber os resultados do detector de ponto de referência. de forma assíncrona quando o marcador de posição está no modo de transmissão ao vivo. Só pode ser usado quando o modo de corrida está definido como LIVE_STREAM ResultListener N/A

Modelos

O Pose Scoreer usa uma série de modelos para prever pontos de referência de poses. A primeira detecta a presença de corpos humanos em um frame de imagem, e o segundo localiza pontos de referência nos corpos.

Os modelos a seguir são empacotados juntos em um pacote de modelos para download:

  • Modelo de detecção de posição: detecta a presença de corpos com algumas poses importantes pontos de referência.
  • Modelo de ponto de referência pose: adiciona um mapeamento completo da pose. O modelo gera uma estimativa de 33 pontos de referência de posições tridimensionais.

Esse pacote usa uma rede neural convolucional semelhante ao MobileNetV2 e otimizado para aplicativos de condicionamento físico no dispositivo e em tempo real. Essa variante do O modelo BlazePose usa GHUM, um pipeline de modelagem 3D de forma humana para estimar a pose em 3D do corpo de um individual em imagens ou vídeos.

Pacote de modelos Inserir formato Tipo de dado Cards de modelo Versões
Faça uma pose de referência (literalmente) Detector de poses: 224 x 224 x 3
Posição de referência: 256 x 256 x 3
ponto flutuante 16 informações Mais recente
Imagem de ponto de referência (versão completa) Detector de poses: 224 x 224 x 3
Posição de referência: 256 x 256 x 3
ponto flutuante 16 informações Mais recente
Faça uma pose de referência (intenso) Detector de poses: 224 x 224 x 3
Posição de referência: 256 x 256 x 3
ponto flutuante 16 informações Mais recente

Modelo de ponto de referência de posições

O modelo de ponto de referência de poses rastreia 33 localizações de pontos de referência de corpo, representando localização aproximada das seguintes partes do corpo:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

A saída do modelo contém coordenadas normalizadas (Landmarks) e coordenadas mundiais coordenadas (WorldLandmarks) para cada ponto de referência.