자세 랜드마크 인식 가이드

MediaPipe 포즈 랜드마크 작업을 사용하면 이미지에서 인체의 랜드마크를 감지할 수 있습니다. 있습니다. 이 작업을 사용하여 주요 신체 위치를 식별하고, 자세를 분석하고, 움직임을 분류합니다. 이 작업에서는 머신러닝 (ML) 모델을 단일 이미지 또는 동영상만 사용할 수 있습니다. 작업이 이미지에 랜드마크를 포즈 본문을 출력합니다. 3차원 세계 좌표로 구성됩니다.

<ph type="x-smartling-placeholder"></ph> 직접 해 보세요.

시작하기

이 작업을 사용하려면 먼저 확인할 수 있습니다 이 플랫폼별 가이드에서는 기본적인 코드 예제와 코드 예시를 포함하여 이 작업의 구현을 다음 권장 구성 옵션을 사용하세요.

태스크 세부정보

이 섹션에서는 기능, 입력, 출력, 구성을 설명합니다. 이 태스크의 옵션 중 하나입니다.

기능

  • 입력 이미지 처리: 처리에는 이미지 회전, 크기 조절, 정규화, 색공간 변환이 포함됩니다.
  • 점수 임곗값 - 예측 점수를 기준으로 결과를 필터링합니다.
작업 입력 작업 출력
포즈 랜드마크는 다음 데이터 유형 중 하나의 입력을 허용합니다.
<ph type="x-smartling-placeholder">
    </ph>
  • 정지 이미지
  • 디코딩된 동영상 프레임
  • 라이브 동영상 피드
포즈 랜드마크는 다음과 같은 결과를 출력합니다.
<ph type="x-smartling-placeholder">
    </ph>
  • 정규화된 이미지 좌표에서 랜드마크 포즈
  • 세계 좌표에서 랜드마크 포즈
  • 선택사항: 포즈의 세분화 마스크.

구성 옵션

이 작업에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름 설명 값 범위 기본값
running_mode 작업의 실행 모드를 설정합니다. 세 가지 모드:

IMAGE: 단일 이미지 입력 모드입니다.

동영상: 동영상의 디코딩된 프레임 모드입니다.

LIVE_STREAM: 입력의 라이브 스트림 모드 데이터를 수집할 수 있습니다. 이 모드에서는 resultListener가 결과를 수신하도록 리스너를 설정하기 위해 호출 있습니다.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses 에서 감지할 수 있는 최대 포즈 수입니다. 포즈 랜드마크 Integer > 0 1
min_pose_detection_confidence 자세 감지에 필요한 최소 신뢰도 점수입니다. 성공으로 간주됩니다. Float [0.0,1.0] 0.5
min_pose_presence_confidence 포즈 존재의 최소 신뢰도 점수입니다. 점수가 몇 점인지 평가합니다. Float [0.0,1.0] 0.5
min_tracking_confidence 자세 추적의 최소 신뢰도 점수입니다. 합격해야 합니다. Float [0.0,1.0] 0.5
output_segmentation_masks Pose TRADEMARKer에서 감지된 대상에 대해 세분화 마스크를 출력하는지 여부 있습니다. Boolean False
result_callback 랜드마크 결과를 수신하도록 결과 리스너를 설정합니다. 비동기식으로 작동합니다. 달리기 모드가 LIVE_STREAM로 설정된 경우에만 사용할 수 있습니다. ResultListener N/A

모델

포즈 랜드마크는 일련의 모델을 사용하여 랜드마크의 포즈를 예측합니다. 첫 번째 모델은 이미지 프레임 내에서 인체의 존재를 감지하고, 몸에서 랜드마크를 찾습니다.

다음 모델은 다운로드 가능한 모델 번들로 함께 패키징됩니다.

  • 동작 감지 모델: 몇 가지 주요 자세를 가진 신체의 존재를 감지합니다. 있습니다.
  • 포즈 랜드마크 모델: 포즈의 전체 매핑을 추가합니다. 모델 33개의 3차원 포즈 랜드마크 추정치를 출력합니다.

이 번들은 컨볼루셔널 신경망을 사용합니다. MobileNetV2와 유사하며 애플리케이션을 위한 온디바이스 실시간 피트니스 애플리케이션입니다. 이 변형은 BlazePose 모델은 , 인간의 전체 3D 신체 자세를 추정할 수 있는 개별 이미지나 동영상에 등장합니다.

<ph type="x-smartling-placeholder">

모델 번들 입력 형태 데이터 유형 모델 카드 버전
<ph type="x-smartling-placeholder"></ph> 랜드마크 포즈 (라이트) 포즈 감지기: 224x224x3
랜드마크 포즈: 256x256x3
부동 소수점 수 16 <ph type="x-smartling-placeholder"></ph> 정보 <ph type="x-smartling-placeholder"></ph> 최신 버전
<ph type="x-smartling-placeholder"></ph> 포즈 랜드마크 (전체) 포즈 감지기: 224x224x3
랜드마크 포즈: 256x256x3
부동 소수점 수 16 <ph type="x-smartling-placeholder"></ph> 정보 <ph type="x-smartling-placeholder"></ph> 최신 버전
<ph type="x-smartling-placeholder"></ph> 랜드마크 포즈 (헤비) 포즈 감지기: 224x224x3
랜드마크 포즈: 256x256x3
부동 소수점 수 16 <ph type="x-smartling-placeholder"></ph> 정보 <ph type="x-smartling-placeholder"></ph> 최신 버전

포즈 랜드마크 모델

이 포즈 랜드마크 모델은 신체의 특징을 나타내는 33개의 신체 랜드마크 위치를 추적하여 다음 신체 부위의 대략적인 위치:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

모델 출력에 정규화된 좌표 (Landmarks)와 세계가 모두 포함되어 있습니다. 각 랜드마크의 좌표 (WorldLandmarks)입니다.