姿势特征点检测指南

通过 MediaPipe Pose Markerer 任务,您可以检测图片或视频中人体的特征点。您可以使用此任务识别关键的身体位置,分析姿势并对动作进行分类。此任务使用适用于单个图片或视频的机器学习 (ML) 模型。该任务会在图片坐标和三维世界坐标中输出身体姿势地标。

试试吧!

开始使用

请按照目标平台的实现指南开始使用此任务。这些平台专用指南将引导您完成此任务的基本实现,包括推荐的模型和包含推荐配置选项的代码示例:

任务详情

本部分介绍此任务的功能、输入、输出和配置选项。

特性

  • 输入图片处理 - 处理包括图片旋转、调整大小、归一化和颜色空间转换。
  • 分数阈值 - 根据预测分数过滤结果。
任务输入 任务输出
姿势特征点接受以下任一数据类型的输入:
  • 静态图片
  • 已解码的视频帧
  • 实时视频画面
姿势特征点输出以下结果:
  • 在归一化图片坐标上调整地标位置
  • 在世界坐标上调整地标姿势
  • 可选:姿势的分割掩码。

配置选项

此任务具有以下配置选项:

选项名称 说明 值范围 默认值
running_mode 设置任务的运行模式。有三种模式:

IMAGE:单张图片输入的模式。

VIDEO:视频的已解码帧的模式。

LIVE_STREAM:输入数据(例如来自摄像头)的直播的模式。在此模式下,必须调用 resultListener,以设置用于异步接收结果的监听器。
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses 姿势特征点可以检测到的姿势数量上限。 Integer > 0 1
min_pose_detection_confidence 姿势检测被视为成功所需的最低置信度分数。 Float [0.0,1.0] 0.5
min_pose_presence_confidence 在姿势特征点检测中姿势在线状态分数的最低置信度分数。 Float [0.0,1.0] 0.5
min_tracking_confidence 姿势跟踪被视为成功所需的最低置信度分数。 Float [0.0,1.0] 0.5
output_segmentation_masks 姿势特征点是否针对检测到的姿势输出分割掩码。 Boolean False
result_callback 设置结果监听器,以便在姿势地标处于直播模式时异步接收地标结果。 只能在跑步模式设为“LIVE_STREAM”时使用 ResultListener N/A

模型

姿势特征点使用一系列模型来预测姿势特征点。第一个模型检测图片帧中是否存在人体,第二个模型则在身体上定位地标。

以下模型打包成一个可下载的模型软件包:

  • 姿势检测模型:检测是否存在具有一些关键姿势特征的身体。
  • 姿势特征点模型:添加姿势的完整映射。模型会输出 33 个三维姿势地标的估算值。

该软件包使用类似于 MobileNetV2 的卷积神经网络,并针对设备上的实时健身应用进行了优化。BlazePose 模型的这个变体使用 GHUM(3D 人体形状建模流水线)来估算图片或视频中个体的完整 3D 身体姿势。

模型包 输入形状 数据类型 模型卡片 Versions
姿势地标(精简版) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
浮点数 16 信息 最新动态
姿势地标(完整) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
浮点数 16 信息 最新动态
姿势特征点(高强度) 姿势检测器:224 x 224 x 3
姿势地标:256 x 256 x 3
浮点数 16 信息 最新动态

姿势特征点模型

姿势特征点模型会跟踪 33 个身体特征点位置,表示以下身体部位的大致位置:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

模型输出包含每个地标的归一化坐标 (Landmarks) 和世界坐标 (WorldLandmarks)。