La tarea MediaPipe Pose Landmarker te permite detectar puntos de referencia de cuerpos humanos en una imagen o video. Puedes usar esta tarea para identificar las ubicaciones clave del cuerpo, analizar la postura, y categorizar los movimientos. En esta tarea, se usan modelos de aprendizaje automático (AA) que trabajar con imágenes o videos individuales. La tarea muestra los puntos de referencia de la postura corporal en una imagen y en coordenadas mundiales tridimensionales.
La muestra de código descrita en estas instrucciones está disponible en GitHub: Para obtener más información sobre las capacidades, los modelos y las opciones de configuración para completar esta tarea, consulta la Descripción general.
Ejemplo de código
El código de ejemplo de tareas de MediaPipe es una implementación simple de un marcador de posición de posición para Android. En el ejemplo, se usa la cámara de un dispositivo Android físico para detectar poses en una transmisión de video continua. La aplicación también puede detectar poses en imágenes y videos de la galería del dispositivo.
Puedes usar la app como punto de partida para tu propia app para Android o hacer referencia a ella. cuando se modifica una app existente. El código de ejemplo de Pose Landmarker se aloja en GitHub:
Descarga el código
En las siguientes instrucciones, se muestra cómo crear una copia local del ejemplo con la herramienta de línea de comandos git.
Para descargar el código de ejemplo, haz lo siguiente:
- Clona el repositorio de Git con el siguiente comando:
git clone https://github.com/google-ai-edge/mediapipe-samples
- De forma opcional, configura tu instancia de Git para que use un método de confirmación de la compra disperso
solo los archivos de la app de ejemplo de Pose Landmarker:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/pose_landmarker/android
Después de crear una versión local del código de ejemplo, puedes importar el proyecto en Android Studio y ejecutar la app. Para obtener instrucciones, consulta la Guía de configuración de Android
Componentes clave
Los siguientes archivos contienen el código crucial para este ejemplo de puntos de referencia de poses. aplicación:
- PoseLandmarkerHelper.kt: inicializa el punto de referencia de poses y controla el modelo y el delegado. selección.
- CameraFragment.kt: Controla la cámara del dispositivo y procesa los datos de entrada de imagen y video.
- GalleryFragment.kt: Interactúa con
OverlayView
para mostrar la imagen o el video de salida. - OverlayView.kt: Implementa la pantalla de las poses detectadas.
Configuración
En esta sección, se describen los pasos clave para configurar tu entorno de desarrollo y para crear proyectos de código específicamente para Pose Landmarker. Para obtener información general configurar tu entorno de desarrollo para usar tareas de MediaPipe, como requisitos de la versión de la plataforma, consulta la Guía de configuración de Android
Dependencias
La tarea Pose Landmarker usa la biblioteca com.google.mediapipe:tasks-vision
. Agrega
esta dependencia al archivo build.gradle
de tu app para Android:
dependencies {
implementation 'com.google.mediapipe:tasks-vision:latest.release'
}
Modelo
La tarea MediaPipe Pose Landmarker requiere un paquete de modelos entrenados compatible con esta tarea. Para obtener más información sobre los modelos entrenados disponibles para Pose Landmarker, consulta la sección Modelos en la descripción general de la tarea.
Selecciona y descarga el modelo, y almacénalo en el directorio de tu proyecto:
<dev-project-root>/src/main/assets
Especifica la ruta del modelo dentro del parámetro ModelAssetPath
. En la
código de ejemplo, el modelo se define en el
PoseLandmarkerHelper.kt
archivo:
val modelName = "pose_landmarker_lite.task"
baseOptionsBuilder.setModelAssetPath(modelName)
Crea la tarea
La tarea MediaPipe Pose Landmarker usa la función createFromOptions()
para configurar la
tarea. La función createFromOptions()
acepta valores para la configuración
opciones de estado. Para obtener más información sobre las opciones de configuración, consulta Configuración
de la aplicación.
El marcador de posición de posposición admite los siguientes tipos de datos de entrada: imágenes fijas, videos archivos y transmisiones de video en vivo. Debes especificar el modo de ejecución correspondiente a tu tipo de datos de entrada cuando crees la tarea. Elige la pestaña para tu tipo de datos de entrada para ver cómo crear la tarea.
Imagen
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = poseLandmarker.poseLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinPoseDetectionConfidence(minPoseDetectionConfidence) .setMinTrackingConfidence(minPoseTrackingConfidence) .setMinPosePresenceConfidence(minposePresenceConfidence) .setNumPoses(maxNumPoses) .setRunningMode(RunningMode.IMAGE) val options = optionsBuilder.build() poseLandmarker = poseLandmarker.createFromOptions(context, options)
Video
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = poseLandmarker.poseLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinPoseDetectionConfidence(minPoseDetectionConfidence) .setMinTrackingConfidence(minPoseTrackingConfidence) .setMinPosePresenceConfidence(minposePresenceConfidence) .setNumPoses(maxNumPoses) .setRunningMode(RunningMode.VIDEO) val options = optionsBuilder.build() poseLandmarker = poseLandmarker.createFromOptions(context, options)
Transmisión en vivo
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = poseLandmarker.poseLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinPoseDetectionConfidence(minPoseDetectionConfidence) .setMinTrackingConfidence(minPoseTrackingConfidence) .setMinPosePresenceConfidence(minposePresenceConfidence) .setNumPoses(maxNumPoses) .setResultListener(this::returnLivestreamResult) .setErrorListener(this::returnLivestreamError) .setRunningMode(RunningMode.LIVE_STREAM) val options = optionsBuilder.build() poseLandmarker = poseLandmarker.createFromOptions(context, options)
La implementación del código de ejemplo de Pose Landmarker permite al usuario alternar entre
modos de procesamiento. Este enfoque hace que el código de creación de tareas sea más complicado y
pueden no ser adecuados para tu caso de uso. Puedes ver este código en la
función setupPoseLandmarker()
en
PoseLandmarkerHelper.kt
.
Opciones de configuración
Esta tarea tiene las siguientes opciones de configuración para apps para Android:
Nombre de la opción | Descripción | Rango de valores | Valor predeterminado |
---|---|---|---|
runningMode |
Establece el modo de ejecución de la tarea. Existen tres
modos: IMAGE: Es el modo para entradas de una sola imagen. VIDEO: es el modo de los fotogramas decodificados de un video. LIVE_STREAM: Es el modo para una transmisión en vivo de entradas. datos, como los de una cámara. En este modo, resultListener debe se llama para configurar un objeto de escucha que reciba resultados de forma asíncrona. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
numposes |
La cantidad máxima de poses que puede detectar el Pose aterrizaje. | Integer > 0 |
1 |
minPoseDetectionConfidence |
La puntuación de confianza mínima para la detección de poses correctamente. | Float [0.0,1.0] |
0.5 |
minPosePresenceConfidence |
La puntuación de confianza mínima de la presencia en poses en la detección de puntos de referencia de poses. | Float [0.0,1.0] |
0.5 |
minTrackingConfidence |
La puntuación de confianza mínima para el seguimiento de poses para ser considerada exitosa. | Float [0.0,1.0] |
0.5 |
outputSegmentationMasks |
Establece si el marcador de posición de la postura genera una máscara de segmentación para el elemento detectado la pose. | Boolean |
False |
resultListener |
Configura el objeto de escucha de resultados para recibir los resultados del punto de referencia.
de forma asíncrona cuando Pose Landmarker esté en el modo de transmisión en vivo.
Solo se puede usar cuando el modo de ejecución está establecido en LIVE_STREAM |
ResultListener |
N/A |
errorListener |
Configura un objeto de escucha de errores opcional. | ErrorListener |
N/A |
Preparar los datos
Pose Landmarker funciona con imágenes, archivos de video y transmisiones de video en vivo. La tarea Controla el procesamiento previo de la entrada de datos, incluidos el cambio de tamaño, la rotación y el valor. normalización.
En el siguiente código, se muestra cómo entregar datos para su procesamiento. Estos incluyen detalles sobre cómo manejar datos de imágenes, archivos de video y datos transmisiones continuas de video por Internet.
Imagen
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(image).build()
Video
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage val argb8888Frame = if (frame.config == Bitmap.Config.ARGB_8888) frame else frame.copy(Bitmap.Config.ARGB_8888, false) // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(argb8888Frame).build()
Transmisión en vivo
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(rotatedBitmap).build()
En el código de ejemplo de Pose Landmarker, la preparación de los datos se controla en el
PoseLandmarkerHelper.kt
.
Ejecuta la tarea
Según el tipo de datos con el que estés trabajando, usa el
poseLandmarker.detect...()
específico para ese tipo de datos. Usa
detect()
para imágenes individuales, detectForVideo()
para fotogramas en archivos de video
y detectAsync()
para las transmisiones de video por Internet. Al realizar detecciones en un
transmisión de video por Internet, asegúrese de ejecutar las detecciones en un subproceso independiente para evitar
bloqueando el subproceso de interposición del usuario.
En las siguientes muestras de código, se muestran ejemplos simples de cómo ejecutar Pose Landmarker en estos diferentes modos de datos:
Imagen
val result = poseLandmarker.detect(mpImage)
Video
val timestampMs = i * inferenceIntervalMs poseLandmarker.detectForVideo(mpImage, timestampMs) .let { detectionResult -> resultList.add(detectionResult) }
Transmisión en vivo
val mpImage = BitmapImageBuilder(rotatedBitmap).build() val frameTime = SystemClock.uptimeMillis() poseLandmarker.detectAsync(mpImage, frameTime)
Ten en cuenta lo siguiente:
- Cuando se ejecuta en el modo de video o de transmisión en vivo, debes proporcionar el y la marca de tiempo del fotograma de entrada a la tarea Pose Landmarker.
- Cuando se ejecuta en el modo de imagen o video, los bloques de tareas Pose Landmarker el subproceso actual hasta que termine de procesar la imagen o el marco de entrada. Para Evita bloquear la intersección del usuario y ejecuta el procesamiento en segundo plano. conversación.
- Cuando se ejecuta en el modo de transmisión en vivo, la tarea Pose Landmarker vuelve inmediatamente y no bloquea el subproceso actual. Invocará el resultado con el resultado de la detección cada vez que termina de procesar un marco de entrada.
En el código de ejemplo de Pose Landmarker, los valores detect
, detectForVideo
y
Las funciones detectAsync
se definen en el
PoseLandmarkerHelper.kt
.
Cómo controlar y mostrar resultados
El marcador de posición de poses muestra un objeto poseLandmarkerResult
para cada detección
cuando se ejecute. El objeto de resultado contiene coordenadas para cada punto de referencia de la pose.
A continuación, se muestra un ejemplo de los datos de salida de esta tarea:
PoseLandmarkerResult:
Landmarks:
Landmark #0:
x : 0.638852
y : 0.671197
z : 0.129959
visibility : 0.9999997615814209
presence : 0.9999984502792358
Landmark #1:
x : 0.634599
y : 0.536441
z : -0.06984
visibility : 0.999909
presence : 0.999958
... (33 landmarks per pose)
WorldLandmarks:
Landmark #0:
x : 0.067485
y : 0.031084
z : 0.055223
visibility : 0.9999997615814209
presence : 0.9999984502792358
Landmark #1:
x : 0.063209
y : -0.00382
z : 0.020920
visibility : 0.999976
presence : 0.999998
... (33 world landmarks per pose)
SegmentationMasks:
... (pictured below)
El resultado contiene coordenadas normalizadas (Landmarks
) y de imágenes
coordenadas (WorldLandmarks
) de cada punto de referencia.
El resultado contiene las siguientes coordenadas normalizadas (Landmarks
):
x
yy
: coordenadas de puntos de referencia normalizadas entre 0.0 y 1.0 por el ancho (x
) y alto (y
) de la imagen.z
: La profundidad del punto de referencia, con la profundidad en el punto medio de las caderas origen. Cuanto menor sea el valor, más cerca estará el punto de referencia de la cámara. El usa más o menos la misma escala quex
.visibility
: Indica la probabilidad de que el punto de referencia sea visible dentro de la imagen.
El resultado contiene las siguientes coordenadas mundiales (WorldLandmarks
):
x
,y
yz
: Coordenadas tridimensionales del mundo real en metros, con el punto medio de las caderas como origen.visibility
: Indica la probabilidad de que el punto de referencia sea visible dentro de la imagen.
En la siguiente imagen, se muestra una visualización del resultado de la tarea:
La máscara de segmentación opcional representa la probabilidad de que cada píxel pertenezca a una persona detectada. La siguiente imagen es una máscara de segmentación del resultado de la tarea:
El código de ejemplo de Pose Landmarker muestra cómo mostrar los resultados que se devuelven
de la tarea, consulta la
OverlayView
para obtener más información.