Conheça o LiteRT: o ambiente de execução de alto desempenho do Google para IA no dispositivo, antes conhecido como TensorFlow Lite.

Esta página foi traduzida pela API Cloud Translation.

Guia de detecção de pontos de referência de poses para Python

A tarefa MediaPipe Pose Scoreer permite detectar pontos de referência de corpos humanos em uma imagem ou vídeo. Você pode usar essa tarefa para identificar as principais localizações do corpo, analisar a postura, e categorizar movimentos. Essa tarefa usa modelos de machine learning (ML) que funcionam com imagens ou vídeos únicos. A tarefa gera pontos de referência de posições do corpo na imagem e em coordenadas mundiais tridimensionais.

O exemplo de código descrito nestas instruções está disponível em GitHub. Para mais informações sobre recursos, modelos e opções de configuração, desta tarefa, consulte a Visão geral.

Exemplo de código

O código de exemplo para Pose Scoreer fornece uma implementação completa deste em Python para sua referência. Esse código ajuda a testar a tarefa e começar a criar seu próprio ponto de referência de poses. Você pode exibir, executar e edite o Exemplo de código do Poe Pointer usando apenas seu navegador da Web.

Se você for implementar um ponto de referência de poses para o Raspberry Pi, consulte o Exemplo do Raspberry Pi app.

Configuração

Esta seção descreve as principais etapas para configurar seu ambiente de desenvolvimento e projetos de código especificamente para usar o Pose Scoreer. Para informações gerais a configuração do seu ambiente de desenvolvimento para usar tarefas do MediaPipe, incluindo requisitos de versão da plataforma, consulte Guia de configuração para Python.

Pacotes

A tarefa MediaPipe Pose Scoreer requer o pacote PyPI do mediapipe. Você pode instalar e importar essas dependências com o seguinte:

$ python -m pip install mediapipe

Importações

Importe as seguintes classes para acessar as funções da tarefa Pose Scoreer:

import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision

Modelo

A tarefa MediaPipe Pose Scoreer requer um modelo treinado que seja compatível com esse tarefa. Para mais informações sobre os modelos treinados disponíveis para o Ponto de referência de postura, consulte na seção de visão geral da tarefa Modelos.

Selecione e faça o download do modelo e, em seguida, armazene-o em um diretório local:

model_path = '/absolute/path/to/pose_landmarker.task'

Use o parâmetro model_asset_path do objeto BaseOptions para especificar o caminho do modelo a ser usado. Para conferir um exemplo de código, consulte a próxima seção.

Criar a tarefa

A tarefa "Ponto de referência de poses do MediaPipe" usa a função create_from_options para para configurar a tarefa. A função create_from_options aceita valores das opções de configuração. Para mais informações, consulte Opções de configuração.

O código abaixo demonstra como criar e configurar essa tarefa.

Esses exemplos também mostram as variações da construção da tarefa para imagens, arquivos de vídeo e transmissões ao vivo.

Imagem

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
PoseLandmarker = mp.tasks.vision.PoseLandmarker
PoseLandmarkerOptions = mp.tasks.vision.PoseLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

options = PoseLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.IMAGE)

with PoseLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

Vídeo

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
PoseLandmarker = mp.tasks.vision.PoseLandmarker
PoseLandmarkerOptions = mp.tasks.vision.PoseLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a pose landmarker instance with the video mode:
options = PoseLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.VIDEO)

with PoseLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

Transmissão ao vivo

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
PoseLandmarker = mp.tasks.vision.PoseLandmarker
PoseLandmarkerOptions = mp.tasks.vision.PoseLandmarkerOptions
PoseLandmarkerResult = mp.tasks.vision.PoseLandmarkerResult
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a pose landmarker instance with the live stream mode:
def print_result(result: PoseLandmarkerResult, output_image: mp.Image, timestamp_ms: int):
    print('pose landmarker result: {}'.format(result))

options = PoseLandmarkerOptions(
    base_options=BaseOptions(model_asset_path=model_path),
    running_mode=VisionRunningMode.LIVE_STREAM,
    result_callback=print_result)

with PoseLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

Para ver um exemplo completo de como criar um ponto de referência de posições para usar com uma imagem, consulte o exemplo de código.

Opções de configuração

Esta tarefa tem as seguintes opções de configuração para aplicativos Python:

Nome da opção	Descrição	Intervalo de valor	Valor padrão
`running_mode`	Define o modo de execução da tarefa. Existem três modos: IMAGEM: o modo para entradas de imagem única. VÍDEO: o modo para frames decodificados de um vídeo. LIVE_STREAM: o modo de transmissão ao vivo da entrada dados de uma câmera, por exemplo. Neste modo, resultListener deve ser chamado para configurar um listener e receber resultados de forma assíncrona.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	O número máximo de poses que podem ser detectadas pelo Faça uma pose de referência.	`Integer > 0`	`1`
`min_pose_detection_confidence`	A pontuação de confiança mínima para que a detecção de pose seja considerada bem-sucedida.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	A pontuação de confiança mínima da presença de pose na detecção de pontos de referência de poses.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	A pontuação de confiança mínima para o rastreamento de pose para ser considerado bem-sucedido.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Define se o Pose Scoreer gera uma máscara de segmentação para o objeto detectado. pose	`Boolean`	`False`
`result_callback`	Define o listener de resultados para receber os resultados do detector de ponto de referência. de forma assíncrona quando o marcador de posição está no modo de transmissão ao vivo. Só pode ser usado quando o modo de corrida está definido como `LIVE_STREAM`	`ResultListener`	`N/A`

Preparar dados

Prepare sua entrada como um arquivo de imagem ou uma matriz numpy, e depois converter em um objeto mediapipe.Image. Se a entrada for um arquivo de vídeo ou transmissão ao vivo por webcam, é possível usar uma biblioteca externa, como OpenCV para carregar os frames de entrada como numpy matrizes de dados.

Imagem

import mediapipe as mp

# Load the input image from an image file.
mp_image = mp.Image.create_from_file('/path/to/image')

# Load the input image from a numpy array.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)

Vídeo

import mediapipe as mp

# Use OpenCV’s VideoCapture to load the input video.

# Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS
# You’ll need it to calculate the timestamp for each frame.

# Loop through each frame in the video using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

Transmissão ao vivo

import mediapipe as mp

# Use OpenCV’s VideoCapture to start capturing from the webcam.

# Create a loop to read the latest frame from the camera using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

Executar a tarefa

O ponto de referência de postura usa detect, detect_for_video e detect_async para acionar inferências. Para pontos de referência de poses, isso envolve pré-processar dados de entrada e detectar poses na imagem;

O código a seguir demonstra como executar o processamento com o modelo de tarefa.

Imagem

# Perform pose landmarking on the provided single image.
# The pose landmarker must be created with the image mode.
pose_landmarker_result = landmarker.detect(mp_image)

Vídeo

# Perform pose landmarking on the provided single image.
# The pose landmarker must be created with the video mode.
pose_landmarker_result = landmarker.detect_for_video(mp_image, frame_timestamp_ms)

Transmissão ao vivo

# Send live image data to perform pose landmarking.
# The results are accessible via the `result_callback` provided in
# the `PoseLandmarkerOptions` object.
# The pose landmarker must be created with the live stream mode.
landmarker.detect_async(mp_image, frame_timestamp_ms)

Observe o seguinte:

Ao executar no modo de vídeo ou de transmissão ao vivo, forneça à tarefa Pose Scoreer o carimbo de data/hora do frame de entrada.
Ao executar na imagem ou no modelo de vídeo, a tarefa Pose Scoreer bloqueia a linha de execução atual até terminar de processar a imagem de entrada ou frame.
Quando executada no modo de transmissão ao vivo, a tarefa Pose Scoreer retorna imediatamente e não bloqueia a linha de execução atual. Ele vai invocar o resultado com o resultado da detecção sempre que ele termina de processar um frame de entrada. Se a função de detecção for chamada quando a tarefa "Fazer ponto de referência de pose" estiver ocupado processando outro frame, a tarefa ignorará o novo frame de entrada.

Para um exemplo completo de como executar um ponto de referência de postura em uma imagem, consulte o exemplo de código para mais detalhes.

Gerenciar e exibir resultados

O ponto de referência de posições retorna um objeto poseLandmarkerResult para cada detecção. correr. O objeto do resultado contém coordenadas para cada ponto de referência de pose.

Confira abaixo um exemplo dos dados de saída desta tarefa:

PoseLandmarkerResult:
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : 0.129959
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
      visibility   : 0.999909
      presence     : 0.999958
    ... (33 landmarks per pose)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
      visibility   : 0.999976
      presence     : 0.999998
    ... (33 world landmarks per pose)
  SegmentationMasks:
    ... (pictured below)

A saída contém coordenadas normalizadas (Landmarks) e coordenadas mundiais coordenadas (WorldLandmarks) para cada ponto de referência.

A saída contém as seguintes coordenadas normalizadas (Landmarks):

x e y: coordenadas de ponto de referência normalizadas entre 0,0 e 1,0 pelo largura (x) e altura (y) da imagem.
z: a profundidade do ponto de referência, com a profundidade no ponto médio dos quadris como origem. Quanto menor o valor, mais perto o ponto de referência está da câmera. A a magnitude de z usa aproximadamente a mesma escala de x.
visibility: a probabilidade de o ponto de referência ficar visível na imagem.

A saída contém as seguintes coordenadas mundiais (WorldLandmarks):

x, y e z: coordenadas tridimensionais reais em metros, com o ponto médio dos quadris como origem.
visibility: a probabilidade de o ponto de referência ficar visível na imagem.

A imagem abaixo mostra uma visualização da saída da tarefa:

A máscara de segmentação opcional representa a probabilidade de cada pixel pertencer para uma pessoa detectada. A imagem a seguir é uma máscara de segmentação da saída da tarefa:

O código de exemplo de Pose Scoreer demonstra como exibir o resultados retornados da tarefa, consulte a exemplo de código para mais detalhes.