Guía de detección de puntos de referencia de posiciones para Android

La tarea MediaPipe Pose Landmarker te permite detectar puntos de referencia de cuerpos humanos en una imagen o video. Puedes usar esta tarea para identificar las ubicaciones clave del cuerpo, analizar la postura, y categorizar los movimientos. En esta tarea, se usan modelos de aprendizaje automático (AA) que trabajar con imágenes o videos individuales. La tarea muestra los puntos de referencia de la postura corporal en una imagen y en coordenadas mundiales tridimensionales.

La muestra de código descrita en estas instrucciones está disponible en GitHub: Para obtener más información sobre las capacidades, los modelos y las opciones de configuración para completar esta tarea, consulta la Descripción general.

Ejemplo de código

El código de ejemplo de tareas de MediaPipe es una implementación simple de un marcador de posición de posición para Android. En el ejemplo, se usa la cámara de un dispositivo Android físico para detectar poses en una transmisión de video continua. La aplicación también puede detectar poses en imágenes y videos de la galería del dispositivo.

Puedes usar la app como punto de partida para tu propia app para Android o hacer referencia a ella. cuando se modifica una app existente. El código de ejemplo de Pose Landmarker se aloja en GitHub:

Descarga el código

En las siguientes instrucciones, se muestra cómo crear una copia local del ejemplo con la herramienta de línea de comandos git.

Para descargar el código de ejemplo, haz lo siguiente:

  1. Clona el repositorio de Git con el siguiente comando:
    git clone https://github.com/google-ai-edge/mediapipe-samples
    
  2. De forma opcional, configura tu instancia de Git para que use un método de confirmación de la compra disperso solo los archivos de la app de ejemplo de Pose Landmarker:
    cd mediapipe
    git sparse-checkout init --cone
    git sparse-checkout set examples/pose_landmarker/android
    

Después de crear una versión local del código de ejemplo, puedes importar el proyecto en Android Studio y ejecutar la app. Para obtener instrucciones, consulta la Guía de configuración de Android

Componentes clave

Los siguientes archivos contienen el código crucial para este ejemplo de puntos de referencia de poses. aplicación:

  • PoseLandmarkerHelper.kt: inicializa el punto de referencia de poses y controla el modelo y el delegado. selección.
  • CameraFragment.kt: Controla la cámara del dispositivo y procesa los datos de entrada de imagen y video.
  • GalleryFragment.kt: Interactúa con OverlayView para mostrar la imagen o el video de salida.
  • OverlayView.kt: Implementa la pantalla de las poses detectadas.

Configuración

En esta sección, se describen los pasos clave para configurar tu entorno de desarrollo y para crear proyectos de código específicamente para Pose Landmarker. Para obtener información general configurar tu entorno de desarrollo para usar tareas de MediaPipe, como requisitos de la versión de la plataforma, consulta la Guía de configuración de Android

Dependencias

La tarea Pose Landmarker usa la biblioteca com.google.mediapipe:tasks-vision. Agrega esta dependencia al archivo build.gradle de tu app para Android:

dependencies {
    implementation 'com.google.mediapipe:tasks-vision:latest.release'
}

Modelo

La tarea MediaPipe Pose Landmarker requiere un paquete de modelos entrenados compatible con esta tarea. Para obtener más información sobre los modelos entrenados disponibles para Pose Landmarker, consulta la sección Modelos en la descripción general de la tarea.

Selecciona y descarga el modelo, y almacénalo en el directorio de tu proyecto:

<dev-project-root>/src/main/assets

Especifica la ruta del modelo dentro del parámetro ModelAssetPath. En la código de ejemplo, el modelo se define en el PoseLandmarkerHelper.kt archivo:

val modelName = "pose_landmarker_lite.task"
baseOptionsBuilder.setModelAssetPath(modelName)

Crea la tarea

La tarea MediaPipe Pose Landmarker usa la función createFromOptions() para configurar la tarea. La función createFromOptions() acepta valores para la configuración opciones de estado. Para obtener más información sobre las opciones de configuración, consulta Configuración de la aplicación.

El marcador de posición de posposición admite los siguientes tipos de datos de entrada: imágenes fijas, videos archivos y transmisiones de video en vivo. Debes especificar el modo de ejecución correspondiente a tu tipo de datos de entrada cuando crees la tarea. Elige la pestaña para tu tipo de datos de entrada para ver cómo crear la tarea.

Imagen

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setRunningMode(RunningMode.IMAGE)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)
    

Video

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setRunningMode(RunningMode.VIDEO)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)
    

Transmisión en vivo

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    poseLandmarker.poseLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinPoseDetectionConfidence(minPoseDetectionConfidence)
        .setMinTrackingConfidence(minPoseTrackingConfidence)
        .setMinPosePresenceConfidence(minposePresenceConfidence)
        .setNumPoses(maxNumPoses)
        .setResultListener(this::returnLivestreamResult)
        .setErrorListener(this::returnLivestreamError)
        .setRunningMode(RunningMode.LIVE_STREAM)

val options = optionsBuilder.build()
poseLandmarker = poseLandmarker.createFromOptions(context, options)
    

La implementación del código de ejemplo de Pose Landmarker permite al usuario alternar entre modos de procesamiento. Este enfoque hace que el código de creación de tareas sea más complicado y pueden no ser adecuados para tu caso de uso. Puedes ver este código en la función setupPoseLandmarker() en PoseLandmarkerHelper.kt .

Opciones de configuración

Esta tarea tiene las siguientes opciones de configuración para apps para Android:

Nombre de la opción Descripción Rango de valores Valor predeterminado
runningMode Establece el modo de ejecución de la tarea. Existen tres modos:

IMAGE: Es el modo para entradas de una sola imagen.

VIDEO: es el modo de los fotogramas decodificados de un video.

LIVE_STREAM: Es el modo para una transmisión en vivo de entradas. datos, como los de una cámara. En este modo, resultListener debe se llama para configurar un objeto de escucha que reciba resultados de forma asíncrona.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
numposes La cantidad máxima de poses que puede detectar el Pose aterrizaje. Integer > 0 1
minPoseDetectionConfidence La puntuación de confianza mínima para la detección de poses correctamente. Float [0.0,1.0] 0.5
minPosePresenceConfidence La puntuación de confianza mínima de la presencia en poses en la detección de puntos de referencia de poses. Float [0.0,1.0] 0.5
minTrackingConfidence La puntuación de confianza mínima para el seguimiento de poses para ser considerada exitosa. Float [0.0,1.0] 0.5
outputSegmentationMasks Establece si el marcador de posición de la postura genera una máscara de segmentación para el elemento detectado la pose. Boolean False
resultListener Configura el objeto de escucha de resultados para recibir los resultados del punto de referencia. de forma asíncrona cuando Pose Landmarker esté en el modo de transmisión en vivo. Solo se puede usar cuando el modo de ejecución está establecido en LIVE_STREAM ResultListener N/A
errorListener Configura un objeto de escucha de errores opcional. ErrorListener N/A

Preparar los datos

Pose Landmarker funciona con imágenes, archivos de video y transmisiones de video en vivo. La tarea Controla el procesamiento previo de la entrada de datos, incluidos el cambio de tamaño, la rotación y el valor. normalización.

En el siguiente código, se muestra cómo entregar datos para su procesamiento. Estos incluyen detalles sobre cómo manejar datos de imágenes, archivos de video y datos transmisiones continuas de video por Internet.

Imagen

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(image).build()
    

Video

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

val argb8888Frame =
    if (frame.config == Bitmap.Config.ARGB_8888) frame
    else frame.copy(Bitmap.Config.ARGB_8888, false)

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(argb8888Frame).build()
    

Transmisión en vivo

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(rotatedBitmap).build()
    

En el código de ejemplo de Pose Landmarker, la preparación de los datos se controla en el PoseLandmarkerHelper.kt .

Ejecuta la tarea

Según el tipo de datos con el que estés trabajando, usa el poseLandmarker.detect...() específico para ese tipo de datos. Usa detect() para imágenes individuales, detectForVideo() para fotogramas en archivos de video y detectAsync() para las transmisiones de video por Internet. Al realizar detecciones en un transmisión de video por Internet, asegúrese de ejecutar las detecciones en un subproceso independiente para evitar bloqueando el subproceso de interposición del usuario.

En las siguientes muestras de código, se muestran ejemplos simples de cómo ejecutar Pose Landmarker en estos diferentes modos de datos:

Imagen

val result = poseLandmarker.detect(mpImage)
    

Video

val timestampMs = i * inferenceIntervalMs

poseLandmarker.detectForVideo(mpImage, timestampMs)
    .let { detectionResult ->
        resultList.add(detectionResult)
    }
    

Transmisión en vivo

val mpImage = BitmapImageBuilder(rotatedBitmap).build()
val frameTime = SystemClock.uptimeMillis()

poseLandmarker.detectAsync(mpImage, frameTime)
    

Ten en cuenta lo siguiente:

  • Cuando se ejecuta en el modo de video o de transmisión en vivo, debes proporcionar el y la marca de tiempo del fotograma de entrada a la tarea Pose Landmarker.
  • Cuando se ejecuta en el modo de imagen o video, los bloques de tareas Pose Landmarker el subproceso actual hasta que termine de procesar la imagen o el marco de entrada. Para Evita bloquear la intersección del usuario y ejecuta el procesamiento en segundo plano. conversación.
  • Cuando se ejecuta en el modo de transmisión en vivo, la tarea Pose Landmarker vuelve inmediatamente y no bloquea el subproceso actual. Invocará el resultado con el resultado de la detección cada vez que termina de procesar un marco de entrada.

En el código de ejemplo de Pose Landmarker, los valores detect, detectForVideo y Las funciones detectAsync se definen en el PoseLandmarkerHelper.kt .

Cómo controlar y mostrar resultados

El marcador de posición de poses muestra un objeto poseLandmarkerResult para cada detección cuando se ejecute. El objeto de resultado contiene coordenadas para cada punto de referencia de la pose.

A continuación, se muestra un ejemplo de los datos de salida de esta tarea:

PoseLandmarkerResult:
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : 0.129959
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
      visibility   : 0.999909
      presence     : 0.999958
    ... (33 landmarks per pose)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
      visibility   : 0.9999997615814209
      presence     : 0.9999984502792358
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
      visibility   : 0.999976
      presence     : 0.999998
    ... (33 world landmarks per pose)
  SegmentationMasks:
    ... (pictured below)

El resultado contiene coordenadas normalizadas (Landmarks) y de imágenes coordenadas (WorldLandmarks) de cada punto de referencia.

El resultado contiene las siguientes coordenadas normalizadas (Landmarks):

  • x y y: coordenadas de puntos de referencia normalizadas entre 0.0 y 1.0 por el ancho (x) y alto (y) de la imagen.

  • z: La profundidad del punto de referencia, con la profundidad en el punto medio de las caderas origen. Cuanto menor sea el valor, más cerca estará el punto de referencia de la cámara. El usa más o menos la misma escala que x.

  • visibility: Indica la probabilidad de que el punto de referencia sea visible dentro de la imagen.

El resultado contiene las siguientes coordenadas mundiales (WorldLandmarks):

  • x, y y z: Coordenadas tridimensionales del mundo real en metros, con el punto medio de las caderas como origen.

  • visibility: Indica la probabilidad de que el punto de referencia sea visible dentro de la imagen.

En la siguiente imagen, se muestra una visualización del resultado de la tarea:

La máscara de segmentación opcional representa la probabilidad de que cada píxel pertenezca a una persona detectada. La siguiente imagen es una máscara de segmentación del resultado de la tarea:

El código de ejemplo de Pose Landmarker muestra cómo mostrar los resultados que se devuelven de la tarea, consulta la OverlayView para obtener más información.