Guía de detección de puntos de referencia facial para Android

La tarea MediaPipe Face Landmarker te permite detectar puntos de referencia y expresiones faciales en imágenes y videos. Puedes usar esta tarea para identificar expresiones faciales humanas, aplicar filtros faciales y efectos, y crear avatares virtuales. En esta tarea, se utiliza modelos de aprendizaje automático (AA) que pueden funcionar con imágenes únicas o una flujo continuo de imágenes. La tarea genera puntos de referencia tridimensionales de rostros, puntuaciones (coeficientes que representan la expresión facial) para inferir los detalles faciales superficies en tiempo real, y matrices de transformación para realizar la transformaciones necesarias para la renderización de efectos.

La muestra de código descrita en estas instrucciones está disponible en GitHub: Para obtener más información sobre las capacidades, los modelos y las opciones de configuración para completar esta tarea, consulta la Descripción general.

Ejemplo de código

El código de ejemplo de tareas de MediaPipe es una implementación simple de un marcador de posición de rostro para Android. En el ejemplo, se usa la cámara de un dispositivo Android físico para detectar rostros en una transmisión continua de video por Internet. La app también puede detectar rostros en imágenes y videos de la galería del dispositivo.

Puedes usar la app como punto de partida para tu propia app para Android o hacer referencia a ella. cuando se modifica una app existente. El código de ejemplo de Face Landmarker se aloja en GitHub:

Descarga el código

En las siguientes instrucciones, se muestra cómo crear una copia local del ejemplo con la herramienta de línea de comandos git.

Para descargar el código de ejemplo, haz lo siguiente:

  1. Clona el repositorio de Git con el siguiente comando:
    git clone https://github.com/google-ai-edge/mediapipe-samples
    
  2. De forma opcional, configura tu instancia de Git para que use un método de confirmación de la compra disperso solo los archivos de la app de ejemplo Face Landmarker:
    cd mediapipe
    git sparse-checkout init --cone
    git sparse-checkout set examples/face_landmarker/android
    

Después de crear una versión local del código de ejemplo, puedes importar el proyecto en Android Studio y ejecutar la app. Para obtener instrucciones, consulta la Guía de configuración de Android

Componentes clave

Los siguientes archivos contienen el código crucial para este ejemplo de punto de referencia de rostros. aplicación:

  • FaceLandmarkerHelper.kt: Inicializa el punto de referencia de rostros y controla el modelo y el delegado. selección.
  • CameraFragment.kt: Controla la cámara del dispositivo y procesa los datos de entrada de imagen y video.
  • GalleryFragment.kt: Interactúa con OverlayView para mostrar la imagen o el video de salida.
  • OverlayView.kt: Implementa la pantalla con una malla de rostros para los rostros detectados.

Configuración

En esta sección, se describen los pasos clave para configurar tu entorno de desarrollo y para crear proyectos de programación específicos para usar Face Landmarker. Para obtener información general configurar tu entorno de desarrollo para usar tareas de MediaPipe, como requisitos de la versión de la plataforma, consulta la Guía de configuración de Android

Dependencias

La tarea Face Landmarker usa la biblioteca com.google.mediapipe:tasks-vision. Agrega esta dependencia al archivo build.gradle de tu app para Android:

dependencies {
    implementation 'com.google.mediapipe:tasks-vision:latest.release'
}

Modelo

La tarea MediaPipe Face Landmarker requiere un paquete de modelos entrenados compatible con esta tarea. Para obtener más información sobre los modelos entrenados disponibles para Face Landmarker, consulta la sección Modelos en la descripción general de la tarea.

Selecciona y descarga el modelo, y almacénalo en el directorio de tu proyecto:

<dev-project-root>/src/main/assets

Especifica la ruta del modelo dentro del parámetro ModelAssetPath. En la código de ejemplo, el modelo se define en el FaceLandmarkerHelper.kt archivo:

baseOptionsBuilder.setModelAssetPath(MP_FACE_LANDMARKER_TASK)

Crea la tarea

La tarea MediaPipe Face Landmarker usa la función createFromOptions() para configurar la tarea. La función createFromOptions() acepta valores para la configuración opciones de estado. Para obtener más información sobre las opciones de configuración, consulta Configuración de la aplicación.

Face Landmarker admite los siguientes tipos de datos de entrada: imágenes fijas, videos archivos y transmisiones de video en vivo. Debes especificar el modo de ejecución correspondiente a tu tipo de datos de entrada cuando crees la tarea. Elige la pestaña para tu tipo de datos de entrada para saber cómo crear la tarea y ejecutar la inferencia.

Imagen

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    FaceLandmarker.FaceLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinFaceDetectionConfidence(minFaceDetectionConfidence)
        .setMinTrackingConfidence(minFaceTrackingConfidence)
        .setMinFacePresenceConfidence(minFacePresenceConfidence)
        .setNumFaces(maxNumFaces)
        .setRunningMode(RunningMode.IMAGE)

val options = optionsBuilder.build()
FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
    

Video

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    FaceLandmarker.FaceLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinFaceDetectionConfidence(minFaceDetectionConfidence)
        .setMinTrackingConfidence(minFaceTrackingConfidence)
        .setMinFacePresenceConfidence(minFacePresenceConfidence)
        .setNumFaces(maxNumFaces)
        .setRunningMode(RunningMode.VIDEO)

val options = optionsBuilder.build()
FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
    

Transmisión en vivo

val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK)
val baseOptions = baseOptionBuilder.build()

val optionsBuilder = 
    FaceLandmarker.FaceLandmarkerOptions.builder()
        .setBaseOptions(baseOptionsBuilder.build())
        .setMinFaceDetectionConfidence(minFaceDetectionConfidence)
        .setMinTrackingConfidence(minFaceTrackingConfidence)
        .setMinFacePresenceConfidence(minFacePresenceConfidence)
        .setNumFaces(maxNumFaces)
        .setResultListener(this::returnLivestreamResult)
        .setErrorListener(this::returnLivestreamError)
        .setRunningMode(RunningMode.LIVE_STREAM)

val options = optionsBuilder.build()
FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
    

La implementación del código de ejemplo de Face Landmarker permite al usuario alternar entre modos de procesamiento. Este enfoque hace que el código de creación de tareas sea más complicado y pueden no ser adecuados para tu caso de uso. Puedes ver este código en la función setupFaceLandmarker() en FaceLandmarkerHelper.kt .

Opciones de configuración

Esta tarea tiene las siguientes opciones de configuración para apps para Android:

Nombre de la opción Descripción Rango de valores Valor predeterminado
runningMode Establece el modo de ejecución de la tarea. Existen tres modos:

IMAGE: Es el modo para entradas de una sola imagen.

VIDEO: es el modo de los fotogramas decodificados de un video.

LIVE_STREAM: Es el modo para una transmisión en vivo de entradas. datos, como los de una cámara. En este modo, resultListener debe se llama para configurar un objeto de escucha que reciba resultados de forma asíncrona.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
numFaces El número máximo de rostros que puede detectar el sistema FaceLandmarker El suavizado solo se aplica cuando num_faces se establece en 1. Integer > 0 1
minFaceDetectionConfidence La puntuación de confianza mínima para la detección de rostro correctamente. Float [0.0,1.0] 0.5
minFacePresenceConfidence La puntuación de confianza mínima de la presencia facial en la detección de puntos de referencia faciales. Float [0.0,1.0] 0.5
minTrackingConfidence La puntuación de confianza mínima para el seguimiento de rostros para ser considerada exitosa. Float [0.0,1.0] 0.5
outputFaceBlendshapes Indica si Face Landmarker genera combinaciones de rostros. Las formas de combinación de rostros se utilizan para renderizar el modelo de rostro 3D. Boolean False
outputFacialTransformationMatrixes Si FaceLandmarker produce el rostro de transformación de datos. FaceLandmarker usa el elemento para transformar los puntos de referencia de los rostros de un modelo de rostro canónico para que los usuarios puedan aplicar efectos en los puntos de referencia detectados. Boolean False
resultListener Configura el objeto de escucha de resultados para recibir los resultados del punto de referencia. de forma asíncrona cuando FaceLandmarker esté en el modo de transmisión en vivo. Solo se puede usar cuando el modo de ejecución está establecido en LIVE_STREAM ResultListener N/A
errorListener Configura un objeto de escucha de errores opcional. ErrorListener N/A

Preparar los datos

Face Landmarker funciona con imágenes, archivos de video y transmisiones de video en vivo. La tarea Controla el procesamiento previo de la entrada de datos, incluidos el cambio de tamaño, la rotación y el valor. normalización.

En el siguiente código, se muestra cómo entregar datos para su procesamiento. Estos incluyen detalles sobre cómo manejar datos de imágenes, archivos de video y datos transmisiones continuas de video por Internet.

Imagen

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(image).build()
    

Video

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

val argb8888Frame =
    if (frame.config == Bitmap.Config.ARGB_8888) frame
    else frame.copy(Bitmap.Config.ARGB_8888, false)

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(argb8888Frame).build()
    

Transmisión en vivo

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(rotatedBitmap).build()
    

En el código de ejemplo de Face Landmarker, la preparación de los datos se controla en la FaceLandmarkerHelper.kt .

Ejecuta la tarea

Según el tipo de datos con el que estés trabajando, usa el FaceLandmarker.detect...() específico para ese tipo de datos. Usa detect() para imágenes individuales, detectForVideo() para fotogramas en archivos de video y detectAsync() para las transmisiones de video por Internet. Al realizar detecciones en un transmisión de video por Internet, asegúrese de ejecutar las detecciones en un subproceso independiente para evitar bloqueando el subproceso de la interfaz de usuario.

En las siguientes muestras de código, se muestran ejemplos simples de cómo ejecutar Face Landmarker. en estos diferentes modos de datos:

Imagen

val result = FaceLandmarker.detect(mpImage)
    

Video

val timestampMs = i * inferenceIntervalMs

FaceLandmarker.detectForVideo(mpImage, timestampMs)
    .let { detectionResult ->
        resultList.add(detectionResult)
    }
    

Transmisión en vivo

val mpImage = BitmapImageBuilder(rotatedBitmap).build()
val frameTime = SystemClock.uptimeMillis()

FaceLandmarker.detectAsync(mpImage, frameTime)
    

Ten en cuenta lo siguiente:

  • Cuando se ejecuta en el modo de video o de transmisión en vivo, debes proporcionar el y la marca de tiempo del fotograma de entrada a la tarea Face Landmarker.
  • Cuando se ejecuta en el modo de imagen o video, el marcador de tarea Face Landmarker bloquea el subproceso actual hasta que termine de procesar la imagen o el marco de entrada. Para Evita bloquear la interfaz de usuario y ejecuta el procesamiento en segundo plano conversación.
  • Cuando se ejecuta en el modo de transmisión en vivo, la tarea Face Landmarker muestra inmediatamente y no bloquea el subproceso actual. Invocará el resultado con el resultado de la detección cada vez que termina de procesar un marco de entrada.

En el código de ejemplo de Face Landmarker, los objetos detect, detectForVideo y Las funciones detectAsync se definen en el FaceLandmarkerHelper.kt .

Cómo controlar y mostrar resultados

El marcador de posición Face muestra un objeto FaceLandmarkerResult para cada detección cuando se ejecute. El objeto resultante contiene una malla de rostros para cada rostro detectado, con coordenadas correspondientes a cada punto de referencia facial. Opcionalmente, el objeto resultante también puede contienen formas combinadas, que denotan expresiones faciales, y un matrices de transformación para aplicar efectos faciales en los puntos de referencia detectados.

A continuación, se muestra un ejemplo de los datos de salida de esta tarea:

FaceLandmarkerResult:
  face_landmarks:
    NormalizedLandmark #0:
      x: 0.5971359014511108
      y: 0.485361784696579
      z: -0.038440968841314316
    NormalizedLandmark #1:
      x: 0.3302789330482483
      y: 0.29289937019348145
      z: -0.09489090740680695
    ... (478 landmarks for each face)
  face_blendshapes:
    browDownLeft: 0.8296722769737244
    browDownRight: 0.8096957206726074
    browInnerUp: 0.00035583582939580083
    browOuterUpLeft: 0.00035752105759456754
    ... (52 blendshapes for each face)
  facial_transformation_matrixes:
    [9.99158978e-01, -1.23036895e-02, 3.91213447e-02, -3.70770246e-01]
    [1.66496094e-02,  9.93480563e-01, -1.12779640e-01, 2.27719707e+01]
    ...

En la siguiente imagen, se muestra una visualización del resultado de la tarea:

El código de ejemplo de Face Landmarker muestra cómo mostrar los resultados que se devuelven de la tarea, consulta la OverlayView para obtener más información.