Mit der Aufgabe „MediaPipe Pose Landmarker“ können Sie Sehenswürdigkeiten menschlicher Körpers in einem Bild oder Video. Sie können diese Aufgabe nutzen, um wichtige Körperregionen zu identifizieren, und kategorisieren Sie Bewegungen. Bei dieser Aufgabe werden Modelle für maschinelles Lernen (ML) verwendet, mit einzelnen Bildern oder Videos arbeiten. Die Aufgabe gibt Text und Markierungen im Bild aus und in dreidimensionalen Weltkoordinaten angegeben werden.
<ph type="x-smartling-placeholder"></ph> Jetzt testen!
Jetzt starten
Beginnen Sie mit dieser Aufgabe, indem Sie den Implementierungsleitfaden für Ihre Zielplattform. Diese plattformspezifischen Anleitungen führen Sie durch Implementierung dieser Aufgabe, einschließlich eines empfohlenen Modells und eines Codebeispiels mit den empfohlenen Konfigurationsoptionen:
- Android – Codebeispiel – Leitfaden
- Python – Codebeispiel – Leitfaden
- Web – Codebeispiel – Leitfaden
Taskdetails
In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfiguration beschrieben. Optionen dieser Aufgabe.
Funktionen
- Eingabebildverarbeitung: Die Verarbeitung umfasst Rotation, Größenänderung, Normalisierung und Farbraumkonvertierung.
- Punktzahl-Schwellenwert - Filtern Sie Ergebnisse basierend auf den Vorhersagewerten.
Aufgabeneingaben | Aufgabenausgaben |
---|---|
Für den Pose Landmarker kann einer der folgenden Datentypen eingegeben werden: <ph type="x-smartling-placeholder">
|
Der Pose Landmarker gibt die folgenden Ergebnisse aus: <ph type="x-smartling-placeholder">
|
Konfigurationsoptionen
Diese Aufgabe hat die folgenden Konfigurationsoptionen:
Option | Beschreibung | Wertebereich | Standardwert |
---|---|---|---|
running_mode |
Legt den Ausführungsmodus für die Task fest. Es gibt drei
Modi: IMAGE: Der Modus für Einzelbildeingaben. VIDEO: Der Modus für decodierte Frames eines Videos. LIVE_STREAM: Der Modus für einen Livestream mit Eingabe zum Beispiel von einer Kamera. In diesem Modus muss der resultListener wird aufgerufen, um einen Listener für den Empfang von Ergebnissen einzurichten asynchron programmiert. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
Die maximale Anzahl der Posen, die vom Pose-Markierung | Integer > 0 |
1 |
min_pose_detection_confidence |
Der minimale Konfidenzwert für die Pose-Erkennung als erfolgreich angesehen wird. | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
Der minimale Konfidenzwert für die Präsenz in Posen bei der Erkennung von Orientierungspunkten für Posen. | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
Der minimale Konfidenzwert für das Positions-Tracking um als erfolgreich zu gelten. | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
Legt fest, ob Pose Landmarker eine Segmentierungsmaske für die erkannte Pose. | Boolean |
False |
result_callback |
Legt den Ergebnis-Listener so fest, dass er die Landmark-Ergebnisse empfängt
asynchron, wenn sich Pose Landmarker im Livestreammodus befindet.
Kann nur verwendet werden, wenn der Ausführungsmodus auf LIVE_STREAM festgelegt ist |
ResultListener |
N/A |
Modelle
Der Pose Landmarker verwendet eine Reihe von Modellen, um Positions-Sehenswürdigkeiten vorherzusagen. Die erste das Vorhandensein von menschlichen Körpern in einem Bildrahmen erkennt, um Orientierungspunkte am Körper zu finden.
Die folgenden Modelle sind in einem herunterladbaren Modellpaket zusammengefasst:
- Pose-Erkennungsmodell: Erkennt das Vorhandensein von Körpern in mehreren Schlüsselpositionen Sehenswürdigkeiten.
- Pose-Landmark-Modell: fügt eine vollständige Kartierung der Pose hinzu. Das Modell gibt eine Schätzung von 33 3D-Positionsmarkierungen aus.
Dieses Bundle verwendet ein Convolutional Neural Network ähnlich wie MobileNetV2 und ist für für Fitness-Apps in Echtzeit auf dem Gerät. Diese Variante des BlazePose-Modell verwendet GHUM Pipeline zur 3D-Modellierung von menschlichen Formen, um die 3D-Körperposition eines einzelne Personen in Bildern oder Videos.
<ph type="x-smartling-placeholder">Modellset | Eingabeform | Datentyp | Modellkarten | Versionen |
---|---|---|---|---|
<ph type="x-smartling-placeholder"></ph> Orientierungspunkt (Lite) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
<ph type="x-smartling-placeholder"></ph> Pose-Landmarker (vollständig) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
<ph type="x-smartling-placeholder"></ph> Markierung posieren (schwer) | Positionsdetektor: 224 × 224 × 3 Pose-Landmark: 256 x 256 x 3 |
Gleitkommazahl 16 | <ph type="x-smartling-placeholder"></ph> Informationen | <ph type="x-smartling-placeholder"></ph> Neueste |
Positions-Landmark-Modell
Das Modell „Pose“ zeichnet 33 Positionen von Sehenswürdigkeiten auf, die die ungefähre Position der folgenden Körperteile:
Die Modellausgabe enthält sowohl normalisierte Koordinaten (Landmarks
) als auch Weltkoordinaten
Koordinaten (WorldLandmarks
) für jede Sehenswürdigkeit.