Leitfaden zur Erkennung von Positionsmarkierungen

Mit der Aufgabe „MediaPipe Pose Landmarker“ können Sie Sehenswürdigkeiten menschlicher Körpers in einem Bild oder Video. Sie können diese Aufgabe nutzen, um wichtige Körperregionen zu identifizieren, und kategorisieren Sie Bewegungen. Bei dieser Aufgabe werden Modelle für maschinelles Lernen (ML) verwendet, mit einzelnen Bildern oder Videos arbeiten. Die Aufgabe gibt Text und Markierungen im Bild aus und in dreidimensionalen Weltkoordinaten angegeben werden.

Jetzt testen!

Jetzt starten

Beginnen Sie mit dieser Aufgabe, indem Sie den Implementierungsleitfaden für Ihre Zielplattform. Diese plattformspezifischen Anleitungen führen Sie durch Implementierung dieser Aufgabe, einschließlich eines empfohlenen Modells und eines Codebeispiels mit den empfohlenen Konfigurationsoptionen:

Taskdetails

In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfiguration beschrieben. Optionen dieser Aufgabe.

Funktionen

  • Eingabebildverarbeitung: Die Verarbeitung umfasst Rotation, Größenänderung, Normalisierung und Farbraumkonvertierung.
  • Punktzahl-Schwellenwert - Filtern Sie Ergebnisse basierend auf den Vorhersagewerten.
Aufgabeneingaben Aufgabenausgaben
Für den Pose Landmarker kann einer der folgenden Datentypen eingegeben werden:
  • Standbilder
  • Decodierte Videoframes
  • Live-Videofeed
Der Pose Landmarker gibt die folgenden Ergebnisse aus:
  • Sehenswürdigkeiten in normalisierten Bildkoordinaten positionieren
  • Sehenswürdigkeiten in Weltkoordinaten darstellen
  • Optional: eine Segmentierungsmaske für die Pose.

Konfigurationsoptionen

Diese Aufgabe hat die folgenden Konfigurationsoptionen:

Option Beschreibung Wertebereich Standardwert
running_mode Legt den Ausführungsmodus für die Task fest. Es gibt drei Modi:

IMAGE: Der Modus für Einzelbildeingaben.

VIDEO: Der Modus für decodierte Frames eines Videos.

LIVE_STREAM: Der Modus für einen Livestream mit Eingabe zum Beispiel von einer Kamera. In diesem Modus muss der resultListener wird aufgerufen, um einen Listener für den Empfang von Ergebnissen einzurichten asynchron programmiert.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses Die maximale Anzahl der Posen, die vom Pose-Markierung Integer > 0 1
min_pose_detection_confidence Der minimale Konfidenzwert für die Pose-Erkennung als erfolgreich angesehen wird. Float [0.0,1.0] 0.5
min_pose_presence_confidence Der minimale Konfidenzwert für die Präsenz in Posen bei der Erkennung von Orientierungspunkten für Posen. Float [0.0,1.0] 0.5
min_tracking_confidence Der minimale Konfidenzwert für das Positions-Tracking um als erfolgreich zu gelten. Float [0.0,1.0] 0.5
output_segmentation_masks Legt fest, ob Pose Landmarker eine Segmentierungsmaske für die erkannte Pose. Boolean False
result_callback Legt den Ergebnis-Listener so fest, dass er die Landmark-Ergebnisse empfängt asynchron, wenn sich Pose Landmarker im Livestreammodus befindet. Kann nur verwendet werden, wenn der Ausführungsmodus auf LIVE_STREAM festgelegt ist ResultListener N/A

Modelle

Der Pose Landmarker verwendet eine Reihe von Modellen, um Positions-Sehenswürdigkeiten vorherzusagen. Das erste die Anwesenheit von menschlichen Körpern in einem Bildrahmen erkennt, um Orientierungspunkte am Körper zu finden.

Die folgenden Modelle sind in einem herunterladbaren Modell-Bundle zusammengefasst:

  • Pose-Erkennungsmodell: Erkennt das Vorhandensein von Körpern in mehreren Schlüsselpositionen Sehenswürdigkeiten.
  • Pose-Landmark-Modell: Fügt eine vollständige Kartierung der Pose hinzu. Das Modell gibt eine Schätzung von 33 3D-Positionsmarkierungen aus.

Dieses Bundle verwendet ein Convolutional Neural Network ähnlich wie MobileNetV2 und ist für für Fitness-Apps in Echtzeit auf dem Gerät. Diese Variante des BlazePose-Modell verwendet GHUM, Pipeline zur 3D-Modellierung von menschlichen Formen, um die 3D-Körperposition eines einzelne Personen in Bildern oder Videos.

Modellset Eingabeform Datentyp Modellkarten Versionen
Orientierungspunkt (Lite) Positionsdetektor: 224 × 224 × 3
Pose-Landmark: 256 x 256 x 3
Gleitkommazahl 16 Informationen Neueste
Pose-Landmarker (vollständig) Positionsdetektor: 224 × 224 × 3
Pose-Landmark: 256 x 256 x 3
Gleitkommazahl 16 Informationen Neueste
Markierung posieren (schwer) Positionsdetektor: 224 × 224 × 3
Pose-Landmark: 256 x 256 x 3
Gleitkommazahl 16 Informationen Neueste

Positions-Landmark-Modell

Das Modell „Pose“ zeichnet 33 Positionen von Sehenswürdigkeiten auf, die die ungefähre Position der folgenden Körperteile:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

Die Modellausgabe enthält sowohl normalisierte Koordinaten (Landmarks) als auch Weltkoordinaten Koordinaten (WorldLandmarks) für jede Sehenswürdigkeit.