Conheça o LiteRT: o ambiente de execução de alto desempenho do Google para IA no dispositivo, antes conhecido como TensorFlow Lite.

Esta página foi traduzida pela API Cloud Translation.

Guia de detecção de pontos de referência de poses para Android

A tarefa MediaPipe Pose Scoreer permite detectar pontos de referência de corpos humanos em uma imagem ou vídeo. Você pode usar essa tarefa para identificar as principais localizações do corpo, analisar a postura, e categorizar movimentos. Essa tarefa usa modelos de machine learning (ML) que funcionam com imagens ou vídeos únicos. A tarefa gera pontos de referência de posições do corpo na imagem e em coordenadas mundiais tridimensionais.

O exemplo de código descrito nestas instruções está disponível em GitHub. Para mais informações sobre recursos, modelos e opções de configuração, desta tarefa, consulte a Visão geral.

Exemplo de código

O código de exemplo do MediaPipe Tasks é uma implementação simples de um ponto de referência de posições para Android. O exemplo usa a câmera de um dispositivo Android físico para detectar poses em um stream de vídeo contínuo. O app também pode detectar poses em imagens e vídeos da galeria do dispositivo.

Você pode usar o app como ponto de partida para seu próprio app Android ou consultá-lo ao modificar um aplicativo existente. O código de exemplo do Pose Scoreer é hospedado em GitHub.

Fazer o download do código

As instruções a seguir mostram como criar uma cópia local do exemplo. usando a ferramenta de linha de comando git.

Para fazer o download do código de exemplo:

Clone o repositório git usando o seguinte comando:

git clone https://github.com/google-ai-edge/mediapipe-samples

Opcionalmente, configure sua instância git para usar a finalização esparsa. Assim, você terá somente os arquivos do app de exemplo Pose Scoreer:
```
cd mediapipe
git sparse-checkout init --cone
git sparse-checkout set examples/pose_landmarker/android
```

Depois de criar uma versão local do código de exemplo, você pode importar o projeto no Android Studio e executar o app. Para obter instruções, consulte o Guia de configuração do Android.

Principais componentes

Os arquivos a seguir contêm o código crucial para este exemplo de ponto de referência de pose aplicativo:

PoseLandmarkerHelper.kt: inicializa o marco de pose e gerencia o modelo e o delegado
CameraFragment.kt: gerencia a câmera do dispositivo e processa os dados de entrada de imagem e vídeo.
GalleryFragment.kt: interage com OverlayView para exibir a imagem ou o vídeo de saída.
OverlayView.kt: implementa a exibição das poses detectadas.

Configuração

Esta seção descreve as principais etapas para configurar seu ambiente de desenvolvimento e projetos de código especificamente para usar o Pose Scoreer. Para informações gerais a configuração do seu ambiente de desenvolvimento para usar tarefas do MediaPipe, incluindo requisitos de versão da plataforma, consulte o Guia de configuração do Android.

Dependências

A tarefa Pose Scoreer usa a biblioteca com.google.mediapipe:tasks-vision. Adicionar esta dependência para o arquivo build.gradle do seu app Android:

dependencies {
    implementation 'com.google.mediapipe:tasks-vision:latest.release'
}

Modelo

A tarefa "Ponto de referência de poses do MediaPipe" requer um pacote de modelo treinado que seja compatível com para essa tarefa. Para mais informações sobre os modelos treinados disponíveis para o Pose Scoreer, consulte a seção Modelos na visão geral da tarefa.

Selecione e faça o download do modelo e armazene-o no diretório do projeto:

<dev-project-root>/src/main/assets

Especifique o caminho do modelo no parâmetro ModelAssetPath. Na código de exemplo, o modelo é definido na PoseLandmarkerHelper.kt arquivo:

val modelName = "pose_landmarker_lite.task"
baseOptionsBuilder.setModelAssetPath(modelName)

Criar a tarefa

A tarefa "Ponto de referência de poses do MediaPipe" usa a função createFromOptions() para configurar o tarefa. A função createFromOptions() aceita valores para a configuração. . Para mais informações sobre as opções de configuração, consulte Configuração .

O ponto de referência de posições é compatível com os seguintes tipos de dados de entrada: imagens estáticas, vídeo arquivos e streams de vídeo ao vivo. É preciso especificar o modo de corrida correspondente ao seu tipo de dados de entrada ao criar a tarefa. Escolha a guia para o tipo de dados de entrada para saber como criar a tarefa.

Imagem

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setRunningMode(RunningMode.IMAGE)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)

Vídeo

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setRunningMode(RunningMode.VIDEO)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)

Transmissão ao vivo

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setResultListener(this::returnLivestreamResult)
        .setErrorListener(this::returnLivestreamError)
        .setRunningMode(RunningMode.LIVE_STREAM)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)

A implementação de código de exemplo de Pose Scoreer permite que o usuário alterne entre os modos de processamento. A abordagem torna o código de criação da tarefa mais complicado podem não ser adequados para seu caso de uso. Confira esse código função setupPoseLandmarker() na PoseLandmarkerHelper.kt .

Opções de configuração

Esta tarefa tem as seguintes opções de configuração para apps Android:

Nome da opção	Descrição	Intervalo de valor	Valor padrão
`runningMode`	Define o modo de execução da tarefa. Existem três modos: IMAGEM: o modo para entradas de imagem única. VÍDEO: o modo para frames decodificados de um vídeo. LIVE_STREAM: o modo de transmissão ao vivo da entrada dados de uma câmera, por exemplo. Neste modo, resultListener deve ser chamado para configurar um listener e receber resultados de forma assíncrona.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`numposes`	O número máximo de poses que podem ser detectadas pelo Faça uma pose de referência.	`Integer > 0`	`1`
`minPoseDetectionConfidence`	A pontuação de confiança mínima para que a detecção de pose seja considerada bem-sucedida.	`Float [0.0,1.0]`	`0.5`
`minPosePresenceConfidence`	A pontuação de confiança mínima da presença de pose na detecção de pontos de referência de poses.	`Float [0.0,1.0]`	`0.5`
`minTrackingConfidence`	A pontuação de confiança mínima para o rastreamento de pose para ser considerado bem-sucedido.	`Float [0.0,1.0]`	`0.5`
`outputSegmentationMasks`	Define se o Pose Scoreer gera uma máscara de segmentação para o objeto detectado. pose	`Boolean`	`False`
`resultListener`	Define o listener de resultados para receber os resultados do detector de ponto de referência. de forma assíncrona quando o marcador de posição está no modo de transmissão ao vivo. Só pode ser usado quando o modo de corrida está definido como `LIVE_STREAM`	`ResultListener`	`N/A`
`errorListener`	Define um listener de erro opcional.	`ErrorListener`	`N/A`

Preparar dados

O Pose Scoreer funciona com imagens, arquivos de vídeo e streams de vídeo ao vivo. A tarefa lida com o pré-processamento de entrada de dados, incluindo redimensionamento, rotação e valor. normalização.

O código a seguir demonstra como transferir dados para processamento. Esses os exemplos incluem detalhes sobre como lidar com dados de imagens, arquivos de vídeo e streams de vídeo.

Imagem

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(image).build()

Vídeo

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

val argb8888Frame =
    if (frame.config == Bitmap.Config.ARGB_8888) frame
    else frame.copy(Bitmap.Config.ARGB_8888, false)

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(argb8888Frame).build()

Transmissão ao vivo

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(rotatedBitmap).build()

No código de exemplo do Pose Scoreer, a preparação dos dados é processada nas PoseLandmarkerHelper.kt .

Executar a tarefa

Dependendo do tipo de dados com os quais você está trabalhando, use o Método poseLandmarker.detect...() específico para esse tipo de dados. Usar detect() para imagens individuais, detectForVideo() para frames em arquivos de vídeo e detectAsync() para streams de vídeo. Quando você realiza detecções stream de vídeo, execute as detecções em uma linha de execução separada para evitar bloqueando a linha de execução interposta do usuário.

Os exemplos de código a seguir mostram exemplos simples de como executar o Pose Scoreer nesses diferentes modos de dados:

Imagem

val result = poseLandmarker.detect(mpImage)

Vídeo

val timestampMs = i * inferenceIntervalMs

poseLandmarker.detectForVideo(mpImage, timestampMs)
    .let { detectionResult ->
        resultList.add(detectionResult)
    }

Transmissão ao vivo

val mpImage = BitmapImageBuilder(rotatedBitmap).build()
val frameTime = SystemClock.uptimeMillis()

poseLandmarker.detectAsync(mpImage, frameTime)

Observe o seguinte:

Ao executar no modo de vídeo ou de transmissão ao vivo, você deve fornecer os carimbo de data/hora do frame de entrada para a tarefa Pose Scoreer.
Ao executar na imagem ou no modo de vídeo, a tarefa Pose Scoreer é bloqueada na linha de execução atual até terminar de processar a imagem ou o frame de entrada. Para evite bloquear a interposição do usuário, execute o processamento em segundo plano fio
Quando executada no modo de transmissão ao vivo, a tarefa Pose Scoreer é retornada imediatamente e não bloqueia a linha de execução atual. Ele vai invocar o resultado com o resultado da detecção sempre que ele termina de processar um frame de entrada.

No código de exemplo do Pose Scoreer, detect, detectForVideo e As funções detectAsync são definidas PoseLandmarkerHelper.kt .

Gerenciar e exibir resultados

O ponto de referência de posições retorna um objeto poseLandmarkerResult para cada detecção. correr. O objeto do resultado contém coordenadas para cada ponto de referência de pose.

Confira abaixo um exemplo dos dados de saída desta tarefa:

PoseLandmarkerResult:
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : 0.129959
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
      visibility   : 0.999909
      presence     : 0.999958
    ... (33 landmarks per pose)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
      visibility   : 0.999976
      presence     : 0.999998
    ... (33 world landmarks per pose)
  SegmentationMasks:
    ... (pictured below)

A saída contém coordenadas normalizadas (Landmarks) e coordenadas mundiais coordenadas (WorldLandmarks) para cada ponto de referência.

A saída contém as seguintes coordenadas normalizadas (Landmarks):

x e y: coordenadas de ponto de referência normalizadas entre 0,0 e 1,0 pelo largura (x) e altura (y) da imagem.
z: a profundidade do ponto de referência, com a profundidade no ponto médio dos quadris como origem. Quanto menor o valor, mais perto o ponto de referência está da câmera. A a magnitude de z usa aproximadamente a mesma escala de x.
visibility: a probabilidade de o ponto de referência ficar visível na imagem.

A saída contém as seguintes coordenadas mundiais (WorldLandmarks):

x, y e z: coordenadas tridimensionais reais em metros, com o ponto médio dos quadris como origem.
visibility: a probabilidade de o ponto de referência ficar visível na imagem.

A imagem abaixo mostra uma visualização da saída da tarefa:

A máscara de segmentação opcional representa a probabilidade de cada pixel pertencer para uma pessoa detectada. A imagem a seguir é uma máscara de segmentação da saída da tarefa:

O código de exemplo de Pose Scoreer demonstra como exibir os resultados retornados. da tarefa, consulte a OverlayView para mais detalhes.