姿势特征点检测指南

一位女士在冥想。她的姿势用线框突出显示，线框表示她的四肢和躯干的位置

借助 MediaPipe 姿势地标任务，您可以检测图片或视频中人体的地标。您可以使用此任务来识别关键身体部位、分析姿势和对动作进行分类。此任务使用可处理单张图片或视频的机器学习 (ML) 模型。该任务会以图片坐标和 3 维世界坐标输出身体姿势地标。

试试吧！

开始使用

请按照目标平台的实现指南开始使用此任务。以下平台专用指南将引导您完成此任务的基本实现，包括推荐的模型，以及包含推荐配置选项的代码示例：

Android - 代码示例 - 指南
Python - 代码示例 - 指南
网站 - 代码示例 - 指南

任务详情

本部分介绍了此任务的功能、输入、输出和配置选项。

功能

输入图片处理 - 处理包括图片旋转、调整大小、归一化和颜色空间转换。
得分阈值 - 根据预测得分过滤结果。

任务输入	任务输出
姿势地标接受以下任一数据类型的输入：静态图片解码后的视频帧实时视频画面	姿势地标注点输出以下结果：以标准化图片坐标表示的姿势地标以世界坐标表示的姿势特征点可选：姿势的分割掩码。

任务输入

任务输出

姿势地标接受以下任一数据类型的输入：

静态图片

解码后的视频帧

实时视频画面

姿势地标注点输出以下结果：

以标准化图片坐标表示的姿势地标

以世界坐标表示的姿势特征点

可选：姿势的分割掩码。

配置选项

此任务具有以下配置选项：

选项名称	说明	值范围	默认值
`running_mode`	设置任务的运行模式。共有三种模式： IMAGE：适用于单张图片输入的模式。视频：视频的解码帧的模式。 LIVE_STREAM：输入数据（例如来自摄像头）的直播模式。在此模式下，必须调用 resultListener 以设置监听器以异步接收结果。	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	姿势地标点检测器可检测的姿势数量上限。	`Integer > 0`	`1`
`min_pose_detection_confidence`	姿势检测被视为成功所需的最低置信度得分。	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	在姿势地标检测中，姿势存在得分的最小置信度得分。	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	姿势跟踪被视为成功所需的最低置信度得分。	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	姿势地标检测器是否为检测到的姿势输出分割掩码。	`Boolean`	`False`
`result_callback`	设置结果监听器，以便在姿势地标在实时流模式下时异步接收地标结果。仅当运行模式设置为 `LIVE_STREAM` 时才能使用	`ResultListener`	`N/A`

模型

姿势地标检测器使用一系列模型来预测姿势地标。第一个模型用于检测图片帧中是否存在人体，第二个模型用于定位人体上的地标。

以下模型已打包到一个可下载的模型软件包中：

姿势检测模型：检测是否存在具有几个关键姿势地标的身体。
姿势地标模型：添加了姿势的完整映射。该模型会输出 33 个三维姿势地标的估算值。

此软件包使用与 MobileNetV2 类似的卷积神经网络，并针对设备端实时健身应用进行了优化。BlazePose 模型的此变体使用 GHUM（3D 人体形状建模流水线）来估算图像或视频中个人的完整 3D 身体姿势。

模型软件包	输入形状	数据类型	模型卡片	版本
姿势地标 (Lite)	姿势检测器：224 x 224 x 3 姿势地标：256 x 256 x 3	float 16	信息	最新
姿势地标 (Full)	姿势检测器：224 x 224 x 3 姿势地标：256 x 256 x 3	float 16	信息	最新
姿势地标 (Heavy)	姿势检测器：224 x 224 x 3 姿势地标：256 x 256 x 3	float 16	信息	最新

姿势特征点模型

姿势地标模型会跟踪 33 个身体地标位置，表示以下身体部位的大致位置：

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

模型输出同时包含每个地标的归一化坐标 (Landmarks) 和世界坐标 (WorldLandmarks)。