Руководство по обнаружению ориентиров позы

Женщина в медитативной позе. Ее поза выделена каркасом, показывающим положение ее конечностей и туловища.

Задача MediaPipe Pose Landmarker позволяет обнаруживать ориентиры человеческих тел на изображении или видео. Вы можете использовать это задание для определения ключевых положений тела, анализа позы и классификации движений. В этой задаче используются модели машинного обучения (ML), которые работают с отдельными изображениями или видео. Задача выводит ориентиры позы тела в координатах изображения и в трехмерных мировых координатах.

Попробуйте!

Начать

Начните использовать эту задачу, следуя руководству по реализации для вашей целевой платформы. Эти руководства для конкретных платформ покажут вам базовую реализацию этой задачи, включая рекомендуемую модель и пример кода с рекомендуемыми параметрами конфигурации:

Android – Пример кода – Руководство
Python — Пример кода — Руководство
Интернет — Пример кода — Руководство

Подробности задачи

В этом разделе описываются возможности, входные данные, выходные данные и параметры конфигурации этой задачи.

Функции

Обработка входного изображения . Обработка включает в себя поворот изображения, изменение размера, нормализацию и преобразование цветового пространства.
Порог оценки — фильтрация результатов на основе оценок прогноза.

Входные данные задачи	Результаты задачи
Pose Landmarker принимает входные данные одного из следующих типов: Неподвижные изображения Декодированные видеокадры Живое видео	Pose Landmarker выдает следующие результаты: Позиция ориентиров в нормализованных координатах изображения Позиция ориентиров в мировых координатах Необязательно: маска сегментации для позы.

Входные данные задачи

Результаты задачи

Pose Landmarker принимает входные данные одного из следующих типов:

Неподвижные изображения

Декодированные видеокадры

Живое видео

Pose Landmarker выдает следующие результаты:

Позиция ориентиров в нормализованных координатах изображения

Позиция ориентиров в мировых координатах

Необязательно: маска сегментации для позы.

Варианты конфигурации

Эта задача имеет следующие параметры конфигурации:

Название опции	Описание	Диапазон значений	Значение по умолчанию
`running_mode`	Устанавливает режим выполнения задачи. Есть три режима: ИЗОБРАЖЕНИЕ: Режим для ввода одного изображения. ВИДЕО: Режим декодированных кадров видео. LIVE_STREAM: режим прямой трансляции входных данных, например, с камеры. В этом режиме необходимо вызвать resultListener, чтобы настроить прослушиватель на асинхронное получение результатов.	{ `IMAGE, VIDEO, LIVE_STREAM` }	`IMAGE`
`num_poses`	Максимальное количество поз, которые может обнаружить ориентир позы.	`Integer > 0`	`1`
`min_pose_detection_confidence`	Минимальный показатель достоверности, позволяющий считать обнаружение позы успешным.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	Минимальный показатель достоверности оценки присутствия позы при обнаружении ориентира позы.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	Минимальный показатель достоверности, позволяющий отслеживанию позы считаться успешным.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Выводит ли Pose Landmarker маску сегментации для обнаруженной позы.	`Boolean`	`False`
`result_callback`	Настраивает прослушиватель результатов на асинхронное получение результатов ориентира, когда Pose Landmarker находится в режиме прямой трансляции. Может использоваться только в том случае, если для режима работы установлено значение `LIVE_STREAM`	`ResultListener`	`N/A`

Модели

Pose Landmarker использует ряд моделей для прогнозирования позы ориентиров. Первая модель обнаруживает присутствие человеческих тел в кадре изображения, а вторая модель находит ориентиры на телах.

Следующие модели объединены в загружаемый комплект моделей:

Модель определения позы : обнаруживает присутствие тел по нескольким ключевым ориентирам позы.
Модель ориентира позы : добавляет полное отображение позы. Модель выводит оценку 33 трехмерных ориентиров позы.

Этот пакет использует сверточную нейронную сеть, аналогичную MobileNetV2 , и оптимизирован для фитнес-приложений на устройстве, работающих в режиме реального времени. Этот вариант модели BlazePose использует GHUM , конвейер трехмерного моделирования формы человека, для оценки полной трехмерной позы тела человека на изображениях или видео.

Модельный комплект	Форма ввода	Тип данных	Модельные карты	Версии
Поза ориентира (облегченная)	Детектор позы: 224 x 224 x 3 Ориентир позы: 256 x 256 x 3	поплавок 16	информация	Последний
Поза ориентира (Полная версия)	Детектор позы: 224 x 224 x 3 Ориентир позы: 256 x 256 x 3	поплавок 16	информация	Последний
Поза ориентира (тяжелая)	Детектор позы: 224 x 224 x 3 Ориентир позы: 256 x 256 x 3	поплавок 16	информация	Последний

Поза модели ориентира

Модель ориентира позы отслеживает 33 местоположения ориентиров тела, представляя приблизительное расположение следующих частей тела:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

Выходные данные модели содержат как нормализованные координаты ( Landmarks ), так и мировые координаты ( WorldLandmarks ) для каждого ориентира.

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons "С указанием авторства 4.0", а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2026-02-23 UTC.