A tarefa MediaPipe Face Detector permite detectar rostos em uma imagem ou vídeo. Você pode usar para localizar rostos e características faciais em um quadro. Esta tarefa usa um de machine learning (ML) que funciona com imagens únicas ou uma fluxo de imagens. A tarefa gera localizações de rostos, junto com os seguintes principais pontos faciais: olho esquerdo, olho direito, ponta do nariz, boca, tragúdio do olho esquerdo e trágico do olho direito.
O exemplo de código descrito nestas instruções está disponível ativado GitHub. Para mais informações sobre os recursos, modelos e de configuração dessa tarefa, consulte a Visão geral.
Exemplo de código
O código de exemplo do MediaPipe Tasks é uma implementação simples de um detector de rostos. para Android. O exemplo usa a câmera de um dispositivo Android físico para detectar rostos em um stream de vídeo contínuo. O app também pode detectar rostos em imagens e vídeos da galeria do dispositivo.
Você pode usar o app como ponto de partida para seu próprio app Android ou consultá-lo ao modificar um aplicativo existente. O exemplo de código do detector de rostos está hospedado em GitHub.
Fazer o download do código
As instruções a seguir mostram como criar uma cópia local do exemplo. usando a ferramenta de linha de comando git.
Para fazer o download do código de exemplo:
- Clone o repositório git usando o seguinte comando:
git clone https://github.com/google-ai-edge/mediapipe-samples
- Como opção, configure sua instância do Git para usar a finalização esparsa.
Então, você tem apenas os arquivos do app de exemplo do Face Detector:
cd mediapipe git sparse-checkout init --cone git sparse-checkout set examples/face_detector/android
Depois de criar uma versão local do código de exemplo, você pode importar o projeto no Android Studio e executar o app. Para instruções, consulte a Guia de configuração para Android.
Principais componentes
Os arquivos a seguir contêm o código essencial para este exemplo de detecção facial aplicativo:
- FaceDetectorHelper.kt: Inicializa o detector facial e processa o modelo e o delegado
- CameraFragment.kt: Controla a câmera do dispositivo e processa os dados de entrada de imagem e vídeo.
- GalleryFragment.kt:
Interage com
OverlayView
para mostrar a imagem ou o vídeo de saída. - OverlayView.kt: Implementa a exibição com caixas delimitadoras para rostos detectados.
Configuração
Esta seção descreve as principais etapas para configurar seu ambiente de desenvolvimento e projetos de código especificamente para usar o Face Detector. Para informações gerais a configuração do seu ambiente de desenvolvimento para usar tarefas do MediaPipe, incluindo requisitos de versão da plataforma, consulte Guia de configuração para Android.
Dependências
A tarefa "Detector de rostos" usa o com.google.mediapipe:tasks-vision
biblioteca. Adicione esta dependência ao arquivo build.gradle
do seu app Android:
dependencies {
implementation 'com.google.mediapipe:tasks-vision:latest.release'
}
Modelo
A tarefa MediaPipe Face Detector requer um pacote de modelo treinado que seja compatível com para essa tarefa. Para mais informações sobre os modelos treinados disponíveis para o detector de rostos, consulte a seção Modelos na visão geral da tarefa.
Selecione e faça o download do modelo e armazene-o no diretório do projeto:
<dev-project-root>/src/main/assets
Especifique o caminho do modelo no parâmetro ModelAssetPath
. Na
exemplo de código,
o modelo é definido no FaceDetectorHelper.kt
arquivo:
val modelName = "face_detection_short_range.tflite"
baseOptionsBuilder.setModelAssetPath(modelName)
Criar a tarefa
A tarefa MediaPipe Face Detector usa a função createFromOptions()
para configurar o
tarefa. A função createFromOptions()
aceita valores para a configuração.
. Para mais informações sobre as opções de configuração, consulte
Opções de configuração.
O detector de rostos é compatível com os seguintes tipos de dados de entrada: imagens estáticas, arquivos de vídeo e streams de vídeo ao vivo. Você precisa especificar o modo de corrida correspondente tipo de dados de entrada ao criar a tarefa. Escolha a guia correspondente ao seu tipo de dados de entrada para ver como criar a tarefa e executar a inferência.
Imagem
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceDetector.FaceDetectorOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinDetectionConfidence(threshold) .setRunningMode(RunningMode.IMAGE) val options = optionsBuilder.build() FaceDetector = FaceDetector.createFromOptions(context, options)
Vídeo
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceDetector.FaceDetectorOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinDetectionConfidence(threshold) .setRunningMode(RunningMode.VIDEO) val options = optionsBuilder.build() FaceDetector = FaceDetector.createFromOptions(context, options)
Transmissão ao vivo
val baseOptionsBuilder = BaseOptions.builder().setModelAssetPath(modelName) val baseOptions = baseOptionBuilder.build() val optionsBuilder = FaceDetector.FaceDetectorOptions.builder() .setBaseOptions(baseOptionsBuilder.build()) .setMinDetectionConfidence(threshold) .setResultListener(this::returnLivestreamResult) .setErrorListener(this::returnLivestreamError) .setRunningMode(RunningMode.LIVE_STREAM) val options = optionsBuilder.build() FaceDetector = FaceDetector.createFromOptions(context, options)
A implementação de código de exemplo do Detector de rostos permite que o usuário alterne entre
os modos de processamento. A abordagem torna o código de criação da tarefa mais complicado
podem não ser adequados para seu caso de uso. Confira esse código
função setupFaceDetector()
na
FaceDetectorHelper.kt
.
Opções de configuração
Esta tarefa tem as seguintes opções de configuração para apps Android:
Nome da opção | Descrição | Intervalo de valor | Valor padrão |
---|---|---|---|
runningMode |
Define o modo de execução da tarefa. Existem três
modos: IMAGEM: o modo para entradas de imagem única. VÍDEO: o modo para frames decodificados de um vídeo. LIVE_STREAM: o modo de transmissão ao vivo da entrada dados de uma câmera, por exemplo. Neste modo, resultListener deve ser chamado para configurar um listener e receber resultados de forma assíncrona. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
minDetectionConfidence |
A pontuação de confiança mínima para que a detecção facial seja considerada bem-sucedida. | Float [0,1] |
0.5 |
minSuppressionThreshold |
O limite mínimo de supressão não máxima para que a detecção facial seja considerada sobreposta. | Float [0,1] |
0.3 |
resultListener |
Define o listener de resultados para receber os resultados da detecção.
de forma assíncrona quando o detector de rostos está na transmissão ao vivo
modo Só pode ser usado quando o modo de execução está definido como LIVE_STREAM . |
N/A |
Not set |
errorListener |
Define um listener de erro opcional. | N/A |
Not set |
Preparar dados
O Face Detector funciona com imagens, arquivos de vídeo e streams de vídeo ao vivo. A tarefa lida com o pré-processamento de entrada de dados, incluindo redimensionamento, rotação e valor. normalização.
O código a seguir demonstra como transferir dados para processamento. Esses os exemplos incluem detalhes sobre como lidar com dados de imagens, arquivos de vídeo e streams de vídeo.
Imagem
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(image).build()
Vídeo
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage val argb8888Frame = if (frame.config == Bitmap.Config.ARGB_8888) frame else frame.copy(Bitmap.Config.ARGB_8888, false) // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(argb8888Frame).build()
Transmissão ao vivo
import com.google.mediapipe.framework.image.BitmapImageBuilder import com.google.mediapipe.framework.image.MPImage // Convert the input Bitmap object to an MPImage object to run inference val mpImage = BitmapImageBuilder(rotatedBitmap).build()
Na
no código de exemplo do detector de rostos, a preparação dos dados é processada no
FaceDetectorHelper.kt
.
Executar a tarefa
Dependendo do tipo de dados com os quais você está trabalhando, use o
Método faceDetector.detect...()
específico para esse tipo de dados. Usar
detect()
para imagens individuais;
detectForVideo()
para frames em arquivos de vídeo
detectAsync()
para streams de vídeo. Quando você realiza detecções
stream de vídeo, execute as detecções em uma linha de execução separada para evitar
bloquear a linha de execução da interface do usuário.
Os exemplos de código a seguir mostram exemplos simples de como executar o Face Detector. nesses diferentes modos de dados:
Imagem
val result = faceDetector.detect(mpImage)
Vídeo
val timestampMs = i * inferenceIntervalMs faceDetector.detectForVideo(mpImage, timestampMs) .let { detectionResult -> resultList.add(detectionResult) }
Transmissão ao vivo
val mpImage = BitmapImageBuilder(rotatedBitmap).build() val frameTime = SystemClock.uptimeMillis() faceDetector.detectAsync(mpImage, frameTime)
Observe o seguinte:
- Ao executar nos modos de vídeo ou de transmissão ao vivo, é necessário forneça o carimbo de data/hora do frame de entrada à tarefa do detector de rostos.
- Na execução na imagem ou no modo de vídeo, a tarefa "Face Detector" bloqueia a linha de execução atual até terminar de processar a imagem de entrada ou frame. Para evitar o bloqueio da interface do usuário, execute o processamento em um linha de execução em segundo plano.
- Quando a execução é feita no modo de transmissão ao vivo, a tarefa do detector de rostos retorna imediatamente e não bloqueia a linha de execução atual. Ele vai invocar o resultado com o resultado da detecção sempre que ele termina de processar um frame de entrada. Se a função de detecção for chamada quando a tarefa do detector de rostos estiver ocupado processando outro frame, a tarefa ignorará o novo frame de entrada.
Na
Exemplo de código do detector de rostos, detect
, detectForVideo
e
As funções detectAsync
são definidas
FaceDetectorHelper.kt
.
Gerenciar e exibir resultados
O detector de rostos retorna um objeto FaceDetectorResult
para cada detecção.
correr. O objeto do resultado contém caixas delimitadoras para os rostos detectados e um
de confiança para cada rosto detectado.
Confira abaixo um exemplo dos dados de saída desta tarefa:
FaceDetectionResult:
Detections:
Detection #0:
BoundingBox:
origin_x: 126
origin_y: 100
width: 463
height: 463
Categories:
Category #0:
index: 0
score: 0.9729152917861938
NormalizedKeypoints:
NormalizedKeypoint #0:
x: 0.18298381567001343
y: 0.2961040139198303
NormalizedKeypoint #1:
x: 0.3302789330482483
y: 0.29289937019348145
... (6 keypoints for each face)
Detection #1:
BoundingBox:
origin_x: 616
origin_y: 193
width: 430
height: 430
Categories:
Category #0:
index: 0
score: 0.9251380562782288
NormalizedKeypoints:
NormalizedKeypoint #0:
x: 0.6151331663131714
y: 0.3713381886482239
NormalizedKeypoint #1:
x: 0.7460576295852661
y: 0.38825345039367676
... (6 keypoints for each face)
A imagem abaixo mostra uma visualização da saída da tarefa:
Para a imagem sem caixas delimitadoras, consulte a imagem original.
O código de exemplo do detector de rostos demonstra como exibir a
resultados retornados da tarefa, consulte a
OverlayView
para mais detalhes.