MediaPipe Pose Landscapeer 작업을 사용하면 이미지 또는 동영상에서 인체의 랜드마크를 감지할 수 있습니다. 이 작업을 사용하여 주요 신체 위치를 식별하고 자세를 분석하며 움직임을 분류할 수 있습니다. 이 작업에서는 단일 이미지 또는 동영상으로 작동하는 머신러닝 (ML) 모델을 사용합니다 작업 출력 본문은 이미지 좌표 및 3차원 세계 좌표로 랜드마크를 포즈합니다.
시작하기
대상 플랫폼별 구현 가이드에 따라 이 작업을 사용하세요. 다음의 플랫폼별 가이드에서는 권장 모델, 권장 구성 옵션이 있는 코드 예를 포함하여 이 작업의 기본 구현을 설명합니다.
태스크 세부정보
이 섹션에서는 이 태스크의 기능, 입력, 출력 및 구성 옵션을 설명합니다.
기능
- 입력 이미지 처리 - 처리에는 이미지 회전, 크기 조절, 정규화, 색 공간 변환이 포함됩니다.
- 점수 임곗값 - 예측 점수를 기준으로 결과를 필터링합니다.
작업 입력 | 작업 출력 |
---|---|
포즈 랜드마크 도구는 다음 데이터 유형 중 하나를 입력할 수 있습니다.
|
포즈 랜드마크는 다음 결과를 출력합니다.
|
구성 옵션
이 태스크에는 다음과 같은 구성 옵션이 있습니다.
옵션 이름 | 설명 | 값 범위 | 기본값 |
---|---|---|---|
running_mode |
작업의 실행 모드를 설정합니다. 모드는 세 가지가 있습니다. IMAGE: 단일 이미지 입력 모드입니다. VIDEO: 동영상의 디코딩된 프레임에 대한 모드입니다. LIVE_STREAM: 카메라에서 전송하는 것과 같은 입력 데이터의 실시간 스트림 모드입니다. 이 모드에서는 resultListener를 호출하여 비동기식으로 결과를 수신하도록 리스너를 설정해야 합니다. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
포즈 랜드마크 도구가 감지할 수 있는 최대 포즈 수입니다. | Integer > 0 |
1 |
min_pose_detection_confidence |
자세 감지가 성공한 것으로 간주되기 위한 최소 신뢰도 점수입니다. | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
포즈 랜드마크 감지에서 포즈 현재 상태 점수의 최소 신뢰도 점수입니다. | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
자세 추적이 성공한 것으로 간주되기 위한 최소 신뢰도 점수입니다. | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
포즈 랜드마크가 감지된 포즈의 세분화 마스크를 출력하는지 여부입니다. | Boolean |
False |
result_callback |
Pose Landscapeer가 실시간 스트림 모드일 때 랜드마크 결과를 비동기식으로 수신하도록 결과 리스너를 설정합니다.
달리기 모드가 LIVE_STREAM 으로 설정된 경우에만 사용할 수 있습니다. |
ResultListener |
N/A |
모델
Pose Landscapeer는 일련의 모델을 사용하여 포즈 랜드마크를 예측합니다. 첫 번째 모델은 이미지 프레임 내에서 인체를 감지하고 두 번째 모델은 신체의 랜드마크를 찾습니다.
다음 모델은 다운로드 가능한 모델 번들로 패키징됩니다.
- 포즈 감지 모델: 몇 가지 주요 자세 특징이 있는 신체를 감지합니다.
- 포즈 랜드마크 모델: 포즈의 완전한 매핑을 추가합니다. 모델은 33개의 3차원 포즈 랜드마크 추정치를 출력합니다.
이 번들은 MobileNetV2와 유사한 컨볼루셔널 신경망을 사용하며 기기 내 실시간 피트니스 애플리케이션에 최적화되어 있습니다. BlazePose 모델의 이 변형은 3D 인간 모양 모델링 파이프라인인 GHUM을 사용하여 이미지 또는 동영상에서 개인의 전체 3D 신체 포즈를 추정합니다.
모델 번들 | 입력 형태 | 데이터 유형 | 모델 카드 | 버전 |
---|---|---|---|---|
포즈 랜드마크 (라이트) | 포즈 감지기: 224 x 224 x 3 포즈 랜드마크: 256 x 256 x 3 |
부동 소수점 16 | 정보 | 최신 |
포즈 랜드마크 (전체) | 포즈 감지기: 224 x 224 x 3 포즈 랜드마크: 256 x 256 x 3 |
부동 소수점 16 | 정보 | 최신 |
포즈 랜드마크 (높음) | 포즈 감지기: 224 x 224 x 3 포즈 랜드마크: 256 x 256 x 3 |
부동 소수점 16 | 정보 | 최신 |
포즈 랜드마크 모델
포즈 랜드마크 모델은 33개의 신체 랜드마크 위치를 추적하여 다음 신체 부위의 대략적인 위치를 나타냅니다.
0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index
모델 출력에는 각 랜드마크의 정규화된 좌표 (Landmarks
)와 세계 좌표 (WorldLandmarks
)가 모두 포함됩니다.