MediaPipe Face Detector タスクを使用すると、画像や動画内の顔を検出できます。このタスクを使用して、フレーム内の顔や顔の特徴を特定できます。このタスクでは、単一の画像または画像の連続ストリームを操作する機械学習(ML)モデルを使用します。このタスクは、顔の位置と、顔のキーポイント(左目、右目、鼻先、口、左目による悲惨、右目の悲劇)を出力します。
ここでは、ウェブアプリと JavaScript アプリで Face Detector を使用する方法について説明します。このタスクの機能、モデル、構成オプションの詳細については、概要をご覧ください。
サンプルコード
Face Detector のサンプルコードでは、このタスクの完全な実装を JavaScript で説明しています。このコードは、このタスクをテストして独自の顔検出アプリの作成を開始するうえで役立ちます。ウェブブラウザだけで、顔検出機能のサンプルコードを表示、実行、編集できます。
セットアップ
このセクションでは、特に Face Detector を使用するための開発環境をセットアップする主な手順について説明します。プラットフォームのバージョン要件など、ウェブと JavaScript の開発環境の設定に関する一般的な情報については、ウェブの設定ガイドをご覧ください。
JavaScript パッケージ
顔検出ツールは、MediaPipe @mediapipe/tasks-vision
NPM パッケージから入手できます。これらのライブラリは、プラットフォームの設定ガイドの手順に沿って検索してダウンロードできます。
必要なパッケージは、次のコマンドを使用して NPM でインストールできます。
npm install @mediapipe/tasks-vision
コンテンツ配信ネットワーク(CDN)サービスを介してタスクコードをインポートする場合は、HTML ファイルの <head> タグに次のコードを追加します。
<!-- You can replace JSDeliver with another CDN if you prefer to -->
<head>
<script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision/vision_bundle.js"
crossorigin="anonymous"></script>
</head>
モデル
MediaPipe 顔検出タスクには、このタスクと互換性のあるトレーニング済みモデルが必要です。顔検出で利用可能なトレーニング済みモデルの詳細については、タスクの概要のモデルのセクションをご覧ください。
モデルを選択してダウンロードし、プロジェクト ディレクトリに保存します。
<dev-project-root>/app/shared/models/
タスクを作成する
顔検出機能の createFrom...()
関数のいずれかを使用して、推論を実行するタスクを準備します。トレーニング済みモデルファイルへの相対パスまたは絶対パスを指定して、createFromModelPath()
関数を使用します。モデルがすでにメモリに読み込まれている場合は、createFromModelBuffer()
メソッドを使用できます。
次のコード例は、createFromOptions()
関数を使用してタスクをセットアップする方法を示しています。createFromOptions
関数を使用すると、構成オプションを使用して顔検出機能をカスタマイズできます。構成オプションの詳細については、構成オプションをご覧ください。
次のコードは、カスタム オプションを使用してタスクをビルドして構成する方法を示しています。
const vision = await FilesetResolver.forVisionTasks(
// path/to/wasm/root
"https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const facedetector = await FaceDetector.createFromOptions(
vision,
{
baseOptions: {
modelAssetPath: "path/to/model"
},
runningMode: runningMode
});
構成オプション
このタスクには、ウェブ アプリケーションと JavaScript アプリケーション用の次の構成オプションがあります。
オプション名 | 説明 | 値の範囲 | デフォルト値 |
---|---|---|---|
option_var_1_web_js |
タスクの実行モードを設定します。モードは 2 つあります。 IMAGE: 単一の画像入力のモード。 VIDEO: 動画のデコードされたフレーム、または入力データのライブストリーム(カメラなど)のモード。 |
{IMAGE, VIDEO } |
IMAGE |
minDetectionConfidence |
顔検出が成功したとみなすための最小信頼スコア。 | Float [0,1] |
0.5 |
minSuppressionThreshold |
顔検出が重複しているとみなすための、最大サプレッション以外の最小しきい値。 | Float [0,1] |
0.3 |
データの準備
顔検出機能は、ホストブラウザでサポートされている任意の形式の画像内の顔を検出できます。このタスクは、サイズ変更、回転、値の正規化など、データ入力の前処理も処理します。動画内の顔を検出するには、API を使用して一度に 1 フレームずつすばやく処理します。フレームのタイムスタンプを使用して、動画内に顔が出現するタイミングを判断します。
タスクを実行する
顔検出機能は、detect()
メソッド(実行モード image
を使用)と detectForVideo()
メソッド(実行モード video
を使用)を使用して推論をトリガーします。このタスクはデータを処理し、顔の検出を試み、その結果を報告します。
顔検出機能の detect()
メソッドと detectForVideo()
メソッドの呼び出しは同期的に実行され、ユーザー インターフェース スレッドをブロックします。デバイスのカメラから動画フレーム内の顔を検出すると、検出のたびにメインスレッドがブロックされます。これを防ぐには、ウェブ ワーカーを実装して detect()
メソッドと detectForVideo()
メソッドを別のスレッドで実行します。
次のコードは、タスクモデルを使用して処理を実行する方法を示しています。
画像
const image = document.getElementById("image") as HTMLImageElement; const faceDetectorResult = faceDetector.detect(image);
動画
await faceDetector.setOptions({ runningMode: "video" }); let lastVideoTime = -1; function renderLoop(): void { const video = document.getElementById("video"); if (video.currentTime !== lastVideoTime) { const detections = faceDetector.detectForVideo(video); processResults(detections); lastVideoTime = video.currentTime; } requestAnimationFrame(() => { renderLoop(); }); }
顔検出タスクの実行の完全な実装については、コードサンプルをご覧ください。
結果を処理して表示する
顔検出は、検出を実行するたびに顔検出機能の結果オブジェクトを生成します。結果のオブジェクトには、画像座標の顔とワールド座標の顔が含まれます。
このタスクからの出力データの例を次に示します。
FaceDetectionResult:
Detections:
Detection #0:
BoundingBox:
origin_x: 126
origin_y: 100
width: 463
height: 463
Categories:
Category #0:
index: 0
score: 0.9729152917861938
NormalizedKeypoints:
NormalizedKeypoint #0:
x: 0.18298381567001343
y: 0.2961040139198303
NormalizedKeypoint #1:
x: 0.3302789330482483
y: 0.29289937019348145
... (6 keypoints for each face)
Detection #1:
BoundingBox:
origin_x: 616
origin_y: 193
width: 430
height: 430
Categories:
Category #0:
index: 0
score: 0.9251380562782288
NormalizedKeypoints:
NormalizedKeypoint #0:
x: 0.6151331663131714
y: 0.3713381886482239
NormalizedKeypoint #1:
x: 0.7460576295852661
y: 0.38825345039367676
... (6 keypoints for each face)
次の図は、タスク出力を可視化したものです。
境界ボックスのない画像については、元の画像をご覧ください。
顔検出機能のサンプルコードは、タスクから返された結果を表示する方法を示しています。コードサンプルをご覧ください。