Jetzt neu: LiteRT: Die leistungsstarke Laufzeit von Google für On-Device-KI, ehemals TensorFlow Lite.

Diese Seite wurde von der Cloud Translation API übersetzt.

Leitfaden zur Erkennung von Positionsmarkierungen

Eine Frau in einer meditativen Pose. Ihre Pose wird durch einen Wireframe hervorgehoben, der die Positionierung ihrer Gliedmaßen und ihres Torsos angibt.

Mit der MediaPipe-Aufgabe „Pose Landmarker“ können Sie in einem Bild oder Video die Körpermerkmale von Menschen erkennen. Mit dieser Aufgabe können Sie wichtige Körperstellen identifizieren, die Körperhaltung analysieren und Bewegungen kategorisieren. Für diese Aufgabe werden ML-Modelle verwendet, die mit einzelnen Bildern oder Videos funktionieren. Die Aufgabe gibt Markierungen für die Körperhaltung in Bildkoordinaten und in dreidimensionalen Weltkoordinaten aus.

Testen Sie es!

Jetzt starten

Folgen Sie der Implementierungsanleitung für Ihre Zielplattform, um diese Aufgabe zu verwenden. In diesen plattformspezifischen Anleitungen werden Sie durch die grundlegende Implementierung dieser Aufgabe geführt. Sie finden dort auch ein empfohlenes Modell und ein Codebeispiel mit empfohlenen Konfigurationsoptionen:

Android – Codebeispiel – Anleitung
Python – Codebeispiel – Anleitung
Web – Codebeispiel – Anleitung

Taskdetails

In diesem Abschnitt werden die Funktionen, Eingaben, Ausgaben und Konfigurationsoptionen dieser Aufgabe beschrieben.

Funktionen

Eingabebildverarbeitung: Die Verarbeitung umfasst Bilddrehung, Größenänderung, Normalisierung und Farbraumkonvertierung.
Grenzwert für die Bewertung: Ergebnisse nach Bewertungen filtern.

Aufgabeneingaben	Aufgabenausgaben
Der Pose-Markierungstool akzeptiert einen der folgenden Datentypen als Eingabe: Standbilder Decodierte Videoframes Live-Videofeed	Der Pose-Landmarker gibt die folgenden Ergebnisse aus: Markierungen in normalisierten Bildkoordinaten platzieren Markierungen in Weltkoordinaten platzieren Optional: eine Segmentierungsmaske für die Pose.

Aufgabeneingaben

Aufgabenausgaben

Der Pose-Markierungstool akzeptiert einen der folgenden Datentypen als Eingabe:

Standbilder

Decodierte Videoframes

Live-Videofeed

Der Pose-Landmarker gibt die folgenden Ergebnisse aus:

Markierungen in normalisierten Bildkoordinaten platzieren

Markierungen in Weltkoordinaten platzieren

Optional: eine Segmentierungsmaske für die Pose.

Konfigurationsoptionen

Für diese Aufgabe gibt es die folgenden Konfigurationsoptionen:

Option	Beschreibung	Wertebereich	Standardwert
`running_mode`	Legt den Ausführungsmodus für die Aufgabe fest. Es gibt drei Modi: IMAGE: Der Modus für Eingaben mit einem einzelnen Bild. VIDEO: Der Modus für decodierte Frames eines Videos. LIVE_STREAM: Der Modus für einen Livestream von Eingabedaten, z. B. von einer Kamera. In diesem Modus muss resultListener aufgerufen werden, um einen Listener für den asynchronen Empfang von Ergebnissen einzurichten.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	Die maximale Anzahl von Posen, die vom Landmarken-Tracker für Posen erkannt werden können.	`Integer > 0`	`1`
`min_pose_detection_confidence`	Die Mindestpunktzahl für die Konfidenz, damit die Körperhaltungserkennung als erfolgreich gilt.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	Der Mindestwert der Konfidenz bei der Präsenz der Körperhaltung bei der Erkennung von Körperhaltungsmarkierungen.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	Der Mindest-Konfidenzwert, damit die Körperhaltungserkennung als erfolgreich gilt.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Gibt an, ob der Pose-Landmarker eine Segmentierungsmaske für die erkannte Pose ausgibt.	`Boolean`	`False`
`result_callback`	Legt fest, dass der Ergebnis-Listener die Landmarker-Ergebnisse asynchron empfängt, wenn sich der Pose Landmarker im Livestream-Modus befindet. Kann nur verwendet werden, wenn der Ausführungsmodus auf `LIVE_STREAM` festgelegt ist.	`ResultListener`	`N/A`

Modelle

Der Positionsmarkierungstool für Körperhaltungen verwendet eine Reihe von Modellen, um Positionsmarkierungen für die Körperhaltung vorherzusagen. Das erste Modell erkennt die Anwesenheit von Menschen in einem Bildrahmen und das zweite Modell lokalisiert Markierungen auf den Körpern.

Die folgenden Modelle sind in einem herunterladbaren Modellpaket zusammengefasst:

Modell zur Haltungserkennung: Erkennt die Anwesenheit von Körpern anhand einiger wichtiger Anhaltspunkte für die Körperhaltung.
Modell für Positionsmarkierungen: Hier wird eine vollständige Zuordnung der Pose hinzugefügt. Das Modell gibt eine Schätzung von 33 3D-Markierungen für die Körperhaltung aus.

Dieses Paket verwendet ein Convolutional Neural Network, das MobileNetV2 ähnelt, und ist für On-Device-Fitness-Apps in Echtzeit optimiert. Bei dieser Variante des BlazePose-Modells wird GHUM, eine Pipeline zur Modellierung der menschlichen Körperform in 3D, verwendet, um die vollständige 3D-Körperhaltung einer Person in Bildern oder Videos zu schätzen.

Modellpaket	Eingabeform	Datentyp	Modellkarten	Versionen
Landmark für Körperhaltung (Lite)	Positionserkennung: 224 × 224 × 3 Pose-Markierung: 256 × 256 × 3	float 16	info	Neueste
Landmark für Körperhaltung (vollständig)	Positionserkennung: 224 × 224 × 3 Pose-Markierung: 256 × 256 × 3	float 16	info	Neueste
Pose-Markierung (hoch)	Positionserkennung: 224 × 224 × 3 Pose-Markierung: 256 × 256 × 3	float 16	info	Neueste

Modell für Landmarken für Posen

Das Modell für die Körpermarkierungen erfasst 33 Körpermarkierungen, die die ungefähre Position der folgenden Körperteile darstellen:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

Die Modellausgabe enthält sowohl normalisierte Koordinaten (Landmarks) als auch Weltkoordinaten (WorldLandmarks) für jedes Wahrzeichen.