La tarea MediaPipe Face Landmarker te permite detectar puntos de referencia y expresiones faciales en imágenes y videos. Puedes usar esta tarea para identificar expresiones faciales humanas, aplicar filtros faciales y efectos, y crear avatares virtuales. En esta tarea, se utiliza modelos de aprendizaje automático (AA) que pueden funcionar con imágenes únicas o una flujo continuo de imágenes. La tarea genera puntos de referencia tridimensionales de rostros, puntuaciones (coeficientes que representan la expresión facial) para inferir los detalles faciales superficies en tiempo real, y matrices de transformación para realizar la transformaciones necesarias para la renderización de efectos.
La muestra de código descrita en estas instrucciones está disponible en GitHub: Para obtener más información sobre las capacidades, los modelos y las opciones de configuración para completar esta tarea, consulta la Descripción general.
Ejemplo de código
El código de ejemplo de tareas de MediaPipe es una implementación simple de un marcador de posición de rostro para Android. En el ejemplo, se usa la cámara de un dispositivo Android físico para detectar rostros en una transmisión continua de video por Internet. La app también puede detectar rostros en imágenes y videos de la galería del dispositivo.
Puedes usar la app como punto de partida para tu propia app para Android o hacer referencia a ella. cuando se modifica una app existente. El código de ejemplo de Face Landmarker se aloja en GitHub:
Descarga el código
En las siguientes instrucciones, se muestra cómo crear una copia local del ejemplo con la herramienta de línea de comandos git.
Para descargar el código de ejemplo, haz lo siguiente:
- Clona el repositorio de Git con el siguiente comando:
git clone https://github.com/google-ai-edge/mediapipe-samples
- De forma opcional, configura tu instancia de Git para que use un método de confirmación de la compra disperso
solo los archivos de la app de ejemplo Face Landmarker:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/face_landmarker/android
Después de crear una versión local del código de ejemplo, puedes importar el proyecto en Android Studio y ejecutar la app. Para obtener instrucciones, consulta la Guía de configuración de Android
Componentes clave
Los siguientes archivos contienen el código crucial para este ejemplo de punto de referencia de rostros. aplicación:
- FaceLandmarkerHelper.kt: Inicializa el punto de referencia de rostros y controla el modelo y el delegado. selección.
- CameraFragment.kt: Controla la cámara del dispositivo y procesa los datos de entrada de imagen y video.
- GalleryFragment.kt: Interactúa con
OverlayView
para mostrar la imagen o el video de salida. - OverlayView.kt: Implementa la pantalla con una malla de rostros para los rostros detectados.
Configuración
En esta sección, se describen los pasos clave para configurar tu entorno de desarrollo y para crear proyectos de programación específicos para usar Face Landmarker. Para obtener información general configurar tu entorno de desarrollo para usar tareas de MediaPipe, como requisitos de la versión de la plataforma, consulta la Guía de configuración de Android
Dependencias
La tarea Face Landmarker usa la biblioteca com.google.mediapipe:tasks-vision
. Agrega
esta dependencia al archivo build.gradle
de tu app para Android:
dependencies {
implementation 'com.google.mediapipe:tasks-vision:latest.release'
}
Modelo
La tarea MediaPipe Face Landmarker requiere un paquete de modelos entrenados compatible con esta tarea. Para obtener más información sobre los modelos entrenados disponibles para Face Landmarker, consulta la sección Modelos en la descripción general de la tarea.
Selecciona y descarga el modelo, y almacénalo en el directorio de tu proyecto:
<dev-project-root>/src/main/assets
Especifica la ruta del modelo dentro del parámetro ModelAssetPath
. En la
código de ejemplo, el modelo se define en el
FaceLandmarkerHelper.kt
archivo:
baseOptionsBuilder.setModelAssetPath(MP_FACE_LANDMARKER_TASK)
Crea la tarea
La tarea MediaPipe Face Landmarker usa la función createFromOptions()
para configurar la
tarea. La función createFromOptions()
acepta valores para la configuración
opciones de estado. Para obtener más información sobre las opciones de configuración, consulta Configuración
de la aplicación.
Face Landmarker admite los siguientes tipos de datos de entrada: imágenes fijas, videos archivos y transmisiones de video en vivo. Debes especificar el modo de ejecución correspondiente a tu tipo de datos de entrada cuando crees la tarea. Elige la pestaña para tu tipo de datos de entrada para saber cómo crear la tarea y ejecutar la inferencia.
Imagen
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceLandmarker.FaceLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinFaceDetectionConfidence(minFaceDetectionConfidence) .setMinTrackingConfidence(minFaceTrackingConfidence) .setMinFacePresenceConfidence(minFacePresenceConfidence) .setNumFaces(maxNumFaces) .setRunningMode(RunningMode.IMAGE) val options = optionsBuilder.build() FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
Video
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceLandmarker.FaceLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinFaceDetectionConfidence(minFaceDetectionConfidence) .setMinTrackingConfidence(minFaceTrackingConfidence) .setMinFacePresenceConfidence(minFacePresenceConfidence) .setNumFaces(maxNumFaces) .setRunningMode(RunningMode.VIDEO) val options = optionsBuilder.build() FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
Transmisión en vivo
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(MP_FACE_LANDMARKER_TASK) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceLandmarker.FaceLandmarkerOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinFaceDetectionConfidence(minFaceDetectionConfidence) .setMinTrackingConfidence(minFaceTrackingConfidence) .setMinFacePresenceConfidence(minFacePresenceConfidence) .setNumFaces(maxNumFaces) .setResultListener(this::returnLivestreamResult) .setErrorListener(this::returnLivestreamError) .setRunningMode(RunningMode.LIVE_STREAM) val options = optionsBuilder.build() FaceLandmarker = FaceLandmarker.createFromOptions(context, options)
La implementación del código de ejemplo de Face Landmarker permite al usuario alternar entre
modos de procesamiento. Este enfoque hace que el código de creación de tareas sea más complicado y
pueden no ser adecuados para tu caso de uso. Puedes ver este código en la
función setupFaceLandmarker()
en
FaceLandmarkerHelper.kt
.
Opciones de configuración
Esta tarea tiene las siguientes opciones de configuración para apps para Android:
Nombre de la opción | Descripción | Rango de valores | Valor predeterminado |
---|---|---|---|
runningMode |
Establece el modo de ejecución de la tarea. Existen tres
modos: IMAGE: Es el modo para entradas de una sola imagen. VIDEO: es el modo de los fotogramas decodificados de un video. LIVE_STREAM: Es el modo para una transmisión en vivo de entradas. datos, como los de una cámara. En este modo, resultListener debe se llama para configurar un objeto de escucha que reciba resultados de forma asíncrona. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
numFaces |
El número máximo de rostros que puede detectar el sistema
FaceLandmarker El suavizado solo se aplica cuando
num_faces se establece en 1.
|
Integer > 0 |
1 |
minFaceDetectionConfidence |
La puntuación de confianza mínima para la detección de rostro correctamente. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
La puntuación de confianza mínima de la presencia facial en la detección de puntos de referencia faciales. | Float [0.0,1.0] |
0.5 |
minTrackingConfidence |
La puntuación de confianza mínima para el seguimiento de rostros para ser considerada exitosa. | Float [0.0,1.0] |
0.5 |
outputFaceBlendshapes |
Indica si Face Landmarker genera combinaciones de rostros. Las formas de combinación de rostros se utilizan para renderizar el modelo de rostro 3D. | Boolean |
False |
outputFacialTransformationMatrixes |
Si FaceLandmarker produce el rostro de transformación de datos. FaceLandmarker usa el elemento para transformar los puntos de referencia de los rostros de un modelo de rostro canónico para que los usuarios puedan aplicar efectos en los puntos de referencia detectados. | Boolean |
False |
resultListener |
Configura el objeto de escucha de resultados para recibir los resultados del punto de referencia.
de forma asíncrona cuando FaceLandmarker esté en el modo de transmisión en vivo.
Solo se puede usar cuando el modo de ejecución está establecido en LIVE_STREAM |
ResultListener |
N/A |
errorListener |
Configura un objeto de escucha de errores opcional. | ErrorListener |
N/A |
Preparar los datos
Face Landmarker funciona con imágenes, archivos de video y transmisiones de video en vivo. La tarea Controla el procesamiento previo de la entrada de datos, incluidos el cambio de tamaño, la rotación y el valor. normalización.
En el siguiente código, se muestra cómo entregar datos para su procesamiento. Estos incluyen detalles sobre cómo manejar datos de imágenes, archivos de video y datos transmisiones continuas de video por Internet.
Imagen
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(image).build()
Video
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage val argb8888Frame = if (frame.config == Bitmap.Config.ARGB_8888) frame else frame.copy(Bitmap.Config.ARGB_8888, false) // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(argb8888Frame).build()
Transmisión en vivo
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(rotatedBitmap).build()
En el código de ejemplo de Face Landmarker, la preparación de los datos se controla en la
FaceLandmarkerHelper.kt
.
Ejecuta la tarea
Según el tipo de datos con el que estés trabajando, usa el
FaceLandmarker.detect...()
específico para ese tipo de datos. Usa
detect()
para imágenes individuales, detectForVideo()
para fotogramas en archivos de video
y detectAsync()
para las transmisiones de video por Internet. Al realizar detecciones en un
transmisión de video por Internet, asegúrese de ejecutar las detecciones en un subproceso independiente para evitar
bloqueando el subproceso de la interfaz de usuario.
En las siguientes muestras de código, se muestran ejemplos simples de cómo ejecutar Face Landmarker. en estos diferentes modos de datos:
Imagen
val result = FaceLandmarker.detect(mpImage)
Video
val timestampMs = i * inferenceIntervalMs FaceLandmarker.detectForVideo(mpImage, timestampMs) .let { detectionResult -> resultList.add(detectionResult) }
Transmisión en vivo
val mpImage = BitmapImageBuilder(rotatedBitmap).build() val frameTime = SystemClock.uptimeMillis() FaceLandmarker.detectAsync(mpImage, frameTime)
Ten en cuenta lo siguiente:
- Cuando se ejecuta en el modo de video o de transmisión en vivo, debes proporcionar el y la marca de tiempo del fotograma de entrada a la tarea Face Landmarker.
- Cuando se ejecuta en el modo de imagen o video, el marcador de tarea Face Landmarker bloquea el subproceso actual hasta que termine de procesar la imagen o el marco de entrada. Para Evita bloquear la interfaz de usuario y ejecuta el procesamiento en segundo plano conversación.
- Cuando se ejecuta en el modo de transmisión en vivo, la tarea Face Landmarker muestra inmediatamente y no bloquea el subproceso actual. Invocará el resultado con el resultado de la detección cada vez que termina de procesar un marco de entrada.
En el código de ejemplo de Face Landmarker, los objetos detect
, detectForVideo
y
Las funciones detectAsync
se definen en el
FaceLandmarkerHelper.kt
.
Cómo controlar y mostrar resultados
El marcador de posición Face muestra un objeto FaceLandmarkerResult
para cada detección
cuando se ejecute. El objeto resultante contiene una malla de rostros para cada rostro detectado, con
coordenadas correspondientes a cada punto de referencia facial. Opcionalmente, el objeto resultante también puede
contienen formas combinadas, que denotan expresiones faciales, y un
matrices de transformación para aplicar efectos faciales en los puntos de referencia detectados.
A continuación, se muestra un ejemplo de los datos de salida de esta tarea:
FaceLandmarkerResult:
face_landmarks:
NormalizedLandmark #0:
x: 0.5971359014511108
y: 0.485361784696579
z: -0.038440968841314316
NormalizedLandmark #1:
x: 0.3302789330482483
y: 0.29289937019348145
z: -0.09489090740680695
... (478 landmarks for each face)
face_blendshapes:
browDownLeft: 0.8296722769737244
browDownRight: 0.8096957206726074
browInnerUp: 0.00035583582939580083
browOuterUpLeft: 0.00035752105759456754
... (52 blendshapes for each face)
facial_transformation_matrixes:
[9.99158978e-01, -1.23036895e-02, 3.91213447e-02, -3.70770246e-01]
[1.66496094e-02, 9.93480563e-01, -1.12779640e-01, 2.27719707e+01]
...
En la siguiente imagen, se muestra una visualización del resultado de la tarea:
El código de ejemplo de Face Landmarker muestra cómo mostrar los resultados que se devuelven
de la tarea, consulta la
OverlayView
para obtener más información.