Mit der Aufgabe „MediaPipe Pose Landmarker“ können Sie Sehenswürdigkeiten menschlicher Körpers in einem Bild oder Video. Sie können diese Aufgabe nutzen, um wichtige Körperregionen zu identifizieren, und kategorisieren Sie Bewegungen. Bei dieser Aufgabe werden Modelle für maschinelles Lernen (ML) verwendet, mit einzelnen Bildern oder Videos arbeiten. Die Aufgabe gibt Body-Pose-Markierungen im Bild aus und in dreidimensionalen Weltkoordinaten angegeben werden.
<ph type="x-smartling-placeholder"></ph> Jetzt testen!
Jetzt starten
Beginnen Sie mit dieser Aufgabe, indem Sie den Implementierungsleitfaden für Ihre Zielplattform. Diese plattformspezifischen Anleitungen führen Sie durch Implementierung dieser Aufgabe, einschließlich eines empfohlenen Modells und eines Codebeispiels mit den empfohlenen Konfigurationsoptionen:
- Android – Codebeispiel – Leitfaden
- Python – Codebeispiel – Leitfaden
- Web – Codebeispiel – Leitfaden
Taskdetails
In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfiguration beschrieben. Optionen dieser Aufgabe.
Funktionen
- Eingabebildverarbeitung: Die Verarbeitung umfasst Rotation, Größenänderung, Normalisierung und Farbraumkonvertierung.
- Punktzahl-Schwellenwert - Filtern Sie Ergebnisse basierend auf den Vorhersagewerten.
Aufgabeneingaben | Aufgabenausgaben |
---|---|
Für den Pose Landmarker kann einer der folgenden Datentypen eingegeben werden: <ph type="x-smartling-placeholder">
|
Der Pose Landmarker gibt die folgenden Ergebnisse aus: <ph type="x-smartling-placeholder">
|
Konfigurationsoptionen
Diese Aufgabe hat die folgenden Konfigurationsoptionen:
Option | Beschreibung | Wertebereich | Standardwert |
---|---|---|---|
running_mode |
Legt den Ausführungsmodus für die Task fest. Es gibt drei
Modi: IMAGE: Der Modus für Einzelbildeingaben. VIDEO: Der Modus für decodierte Frames eines Videos. LIVE_STREAM: Der Modus für einen Livestream mit Eingabe zum Beispiel von einer Kamera. In diesem Modus muss der resultListener wird aufgerufen, um einen Listener für den Empfang von Ergebnissen einzurichten asynchron programmiert. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
Die maximale Anzahl der Posen, die vom Pose-Markierung | Integer > 0 |
1 |
min_pose_detection_confidence |
Der minimale Konfidenzwert für die Pose-Erkennung als erfolgreich angesehen wird. | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
Der minimale Konfidenzwert für die Präsenz in Posen bei der Erkennung von Orientierungspunkten für Posen. | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
Der minimale Konfidenzwert für das Positions-Tracking um als erfolgreich zu gelten. | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
Legt fest, ob Pose Landmarker eine Segmentierungsmaske für die erkannte Pose. | Boolean |
False |
result_callback |
Legt fest, dass der Ergebnis-Listener die Landmark-Ergebnisse empfangen soll
asynchron, wenn sich Pose Landmarker im Livestreammodus befindet.
Kann nur verwendet werden, wenn der Ausführungsmodus auf LIVE_STREAM festgelegt ist |
ResultListener |
N/A |
Modelle
Der Pose Landmarker verwendet eine Reihe von Modellen, um Positions-Sehenswürdigkeiten vorherzusagen. Die erste die Anwesenheit von menschlichen Körpern in einem Bildrahmen erkennt, um Orientierungspunkte am Körper zu finden.
Die folgenden Modelle sind in einem herunterladbaren Modell-Bundle zusammengefasst:
- Pose-Erkennungsmodell: Erkennt das Vorhandensein von Körpern in mehreren Schlüsselpositionen Sehenswürdigkeiten.
- Pose-Landmark-Modell: Fügt eine vollständige Kartierung der Pose hinzu. Das Modell gibt eine Schätzung von 33 3D-Positionsmarkierungen aus.
Dieses Bundle verwendet ein Convolutional Neural Network ähnlich wie MobileNetV2 und ist für für Fitness-Apps in Echtzeit auf dem Gerät. Diese Variante des BlazePose-Modell verwendet GHUM Pipeline zur 3D-Modellierung von menschlichen Formen, um die 3D-Körperposition eines einzelne Personen in Bildern oder Videos.
<ph type="x-smartling-placeholder">Modellset | Eingabeform | Datentyp | Modellkarten | Versionen |
---|---|---|---|---|
<ph type="x-smartling-placeholder"></ph> Orientierungspunkt (Lite) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
<ph type="x-smartling-placeholder"></ph> Pose-Landmarker (vollständig) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
<ph type="x-smartling-placeholder"></ph> Markierung posieren (schwer) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
Positions-Landmark-Modell
Das Modell „Pose“ zeichnet 33 Positionen von Sehenswürdigkeiten auf, die die ungefähre Position der folgenden Körperteile:
0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index
Die Modellausgabe enthält sowohl normalisierte Koordinaten (Landmarks
) als auch Weltkoordinaten
Koordinaten (WorldLandmarks
) für jede Sehenswürdigkeit.