자세 랜드마크 인식 가이드

MediaPipe Pose Landscapeer 작업을 사용하면 이미지 또는 동영상에서 인체의 랜드마크를 감지할 수 있습니다. 이 작업을 사용하여 주요 신체 위치를 식별하고 자세를 분석하며 움직임을 분류할 수 있습니다. 이 작업에서는 단일 이미지 또는 동영상으로 작동하는 머신러닝 (ML) 모델을 사용합니다 작업 출력 본문은 이미지 좌표 및 3차원 세계 좌표로 랜드마크를 포즈합니다.

사용해 보기

시작하기

대상 플랫폼별 구현 가이드에 따라 이 작업을 사용하세요. 다음의 플랫폼별 가이드에서는 권장 모델, 권장 구성 옵션이 있는 코드 예를 포함하여 이 작업의 기본 구현을 설명합니다.

태스크 세부정보

이 섹션에서는 이 태스크의 기능, 입력, 출력 및 구성 옵션을 설명합니다.

기능

  • 입력 이미지 처리 - 처리에는 이미지 회전, 크기 조절, 정규화, 색 공간 변환이 포함됩니다.
  • 점수 임곗값 - 예측 점수를 기준으로 결과를 필터링합니다.
작업 입력 작업 출력
포즈 랜드마크 도구는 다음 데이터 유형 중 하나를 입력할 수 있습니다.
  • 정지 이미지
  • 디코딩된 동영상 프레임
  • 실시간 동영상 피드
포즈 랜드마크는 다음 결과를 출력합니다.
  • 정규화된 이미지 좌표의 포즈 랜드마크
  • 세계 좌표의 랜드마크 포즈
  • 선택사항: 포즈의 세분화 마스크.

구성 옵션

이 태스크에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름 설명 값 범위 기본값
running_mode 작업의 실행 모드를 설정합니다. 모드는 세 가지가 있습니다.

IMAGE: 단일 이미지 입력 모드입니다.

VIDEO: 동영상의 디코딩된 프레임에 대한 모드입니다.

LIVE_STREAM: 카메라에서 전송하는 것과 같은 입력 데이터의 실시간 스트림 모드입니다. 이 모드에서는 resultListener를 호출하여 비동기식으로 결과를 수신하도록 리스너를 설정해야 합니다.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses 포즈 랜드마크 도구가 감지할 수 있는 최대 포즈 수입니다. Integer > 0 1
min_pose_detection_confidence 자세 감지가 성공한 것으로 간주되기 위한 최소 신뢰도 점수입니다. Float [0.0,1.0] 0.5
min_pose_presence_confidence 포즈 랜드마크 감지에서 포즈 현재 상태 점수의 최소 신뢰도 점수입니다. Float [0.0,1.0] 0.5
min_tracking_confidence 자세 추적이 성공한 것으로 간주되기 위한 최소 신뢰도 점수입니다. Float [0.0,1.0] 0.5
output_segmentation_masks 포즈 랜드마크가 감지된 포즈의 세분화 마스크를 출력하는지 여부입니다. Boolean False
result_callback Pose Landscapeer가 실시간 스트림 모드일 때 랜드마크 결과를 비동기식으로 수신하도록 결과 리스너를 설정합니다. 달리기 모드가 LIVE_STREAM으로 설정된 경우에만 사용할 수 있습니다. ResultListener N/A

모델

Pose Landscapeer는 일련의 모델을 사용하여 포즈 랜드마크를 예측합니다. 첫 번째 모델은 이미지 프레임 내에서 인체를 감지하고 두 번째 모델은 신체의 랜드마크를 찾습니다.

다음 모델은 다운로드 가능한 모델 번들로 패키징됩니다.

  • 포즈 감지 모델: 몇 가지 주요 자세 특징이 있는 신체를 감지합니다.
  • 포즈 랜드마크 모델: 포즈의 완전한 매핑을 추가합니다. 모델은 33개의 3차원 포즈 랜드마크 추정치를 출력합니다.

이 번들은 MobileNetV2와 유사한 컨볼루셔널 신경망을 사용하며 기기 내 실시간 피트니스 애플리케이션에 최적화되어 있습니다. BlazePose 모델의 이 변형은 3D 인간 모양 모델링 파이프라인인 GHUM을 사용하여 이미지 또는 동영상에서 개인의 전체 3D 신체 포즈를 추정합니다.

모델 번들 입력 형태 데이터 유형 모델 카드 버전
포즈 랜드마크 (라이트) 포즈 감지기: 224 x 224 x 3
포즈 랜드마크: 256 x 256 x 3
부동 소수점 16 정보 최신
포즈 랜드마크 (전체) 포즈 감지기: 224 x 224 x 3
포즈 랜드마크: 256 x 256 x 3
부동 소수점 16 정보 최신
포즈 랜드마크 (높음) 포즈 감지기: 224 x 224 x 3
포즈 랜드마크: 256 x 256 x 3
부동 소수점 16 정보 최신

포즈 랜드마크 모델

포즈 랜드마크 모델은 33개의 신체 랜드마크 위치를 추적하여 다음 신체 부위의 대략적인 위치를 나타냅니다.

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

모델 출력에는 각 랜드마크의 정규화된 좌표 (Landmarks)와 세계 좌표 (WorldLandmarks)가 모두 포함됩니다.