LiteRT 소개: 온디바이스 AI를 위한 Google의 고성능 런타임(이전 명칭: TensorFlow Lite)입니다.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Python용 동작 인식 가이드

MediaPipe 동작 인식기 작업을 통해 실시간으로 손동작을 인식할 수 있습니다. 인식된 손 동작 결과와 감지된 손의 랜드마크를 제공합니다. 있습니다. 다음 안내에서는 동작 인식기를 사용하는 방법을 보여줍니다. Python 애플리케이션을 통해 실행할 수 있습니다

이 작업의 예를 보려면 웹 데모 애플리케이션의 기능, 모델, 구성 옵션에 대해 개요를 참조하세요.

코드 예

동작 인식기의 코드 예는 이 동작을 완전히 참고하세요. 이 코드는 이 작업을 테스트하고 자체 손 동작 인식기를 만들어 보았습니다. 데이터를 보고, 실행하고, 동작 인식기 예시 수정 코드 할 수 있습니다.

Raspberry Pi용 동작 인식기를 구현하는 경우 Raspberry Pi 예시 앱을 엽니다.

설정

이 섹션에서는 개발 환경을 설정하는 주요 단계를 설명하고 코드 프로젝트를 살펴보겠습니다. 일반적인 정보 다음과 같은 MediaPipe 작업을 사용하기 위한 개발 환경 설정 플랫폼 버전 요구사항에 대한 자세한 내용은 Python을 사용합니다.

패키지

MediaPipe 동작 인식기 작업에는 mediapipe PyPI 패키지가 필요합니다. Cloud Shell을 설치하고 다음을 사용하여 이러한 종속 항목을 가져옵니다.

$ python -m pip install mediapipe

드림 <ph type="x-smartling-placeholder">

가져오기

다음 클래스를 가져와 동작 인식기 작업 함수에 액세스합니다.

import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision

모델

MediaPipe 동작 인식기 작업에는 다음과 호환되는 학습된 모델 번들이 필요합니다. 확인할 수 있습니다 동작 인식기에 사용 가능한 학습된 모델에 대한 자세한 내용은 작업 개요 모델 섹션을 참조하세요.

모델을 선택하고 다운로드한 후 로컬 디렉터리에 저장합니다.

model_path = '/absolute/path/to/gesture_recognizer.task'

아래와 같이 모델 이름 매개변수 내에 모델 경로를 지정합니다.

base_options = BaseOptions(model_asset_path=model_path)

할 일 만들기

MediaPipe 동작 인식기 작업은 create_from_options 함수를 사용하여 태스크에 맞추는 것입니다. create_from_options 함수는 구성 값을 허용함 처리할 수 있습니다. 구성 옵션에 대한 자세한 내용은 다음을 참조하세요. 구성 옵션.

다음 코드는 이 작업을 빌드하고 구성하는 방법을 보여줍니다.

또한 이 샘플은 이미지에 대한 작업 구성의 변형도 보여줍니다. 동영상 파일, 라이브 동영상 스트림 등이 있습니다.

이미지

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
GestureRecognizer = mp.tasks.vision.GestureRecognizer
GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a gesture recognizer instance with the image mode:
options = GestureRecognizerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.IMAGE)
with GestureRecognizer.create_from_options(options) as recognizer:
  # The detector is initialized. Use it here.
  # ...

동영상

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
GestureRecognizer = mp.tasks.vision.GestureRecognizer
GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a gesture recognizer instance with the video mode:
options = GestureRecognizerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.VIDEO)
with GestureRecognizer.create_from_options(options) as recognizer:
  # The detector is initialized. Use it here.
  # ...

실시간 스트림

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
GestureRecognizer = mp.tasks.vision.GestureRecognizer
GestureRecognizerOptions = mp.tasks.vision.GestureRecognizerOptions
GestureRecognizerResult = mp.tasks.vision.GestureRecognizerResult
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a gesture recognizer instance with the live stream mode:
def print_result(result: GestureRecognizerResult, output_image: mp.Image, timestamp_ms: int):
    print('gesture recognition result: {}'.format(result))

options = GestureRecognizerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.LIVE_STREAM,
    result_callback=print_result)
with GestureRecognizer.create_from_options(options) as recognizer:
  # The detector is initialized. Use it here.
  # ...

구성 옵션

이 작업에는 Python 애플리케이션을 위한 다음과 같은 구성 옵션이 있습니다.

옵션 이름	설명	값 범위	기본값
`running_mode`	작업의 실행 모드를 설정합니다. 세 가지 모드: IMAGE: 단일 이미지 입력 모드입니다. 동영상: 동영상의 디코딩된 프레임 모드입니다. LIVE_STREAM: 입력의 라이브 스트림 모드 데이터를 수집할 수 있습니다. 이 모드에서는 resultListener가 결과를 수신하도록 리스너를 설정하기 위해 호출 있습니다.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_hands`	감지 가능한 최대 손 개수 `GestureRecognizer`	`Any integer > 0`	`1`
`min_hand_detection_confidence`	손 감지를 위한 최소 신뢰도 점수입니다. 손바닥 감지 모델에서 성공적인 것으로 간주됩니다.	`0.0 - 1.0`	`0.5`
`min_hand_presence_confidence`	손에 있는 손 존재 점수의 최소 신뢰도 점수입니다. 특징 감지 모델입니다. 동작 인식기의 동영상 모드와 라이브 스트림 모드에서, 손 랜드마크 모델의 손 인기척 점수가 아래인 경우 손바닥 감지 모델을 트리거합니다. 그렇지 않은 경우 경량 손 추적 알고리즘을 사용하여 후속 랜드마크 감지를 위한 시곗바늘입니다.	`0.0 - 1.0`	`0.5`
`min_tracking_confidence`	고려해야 할 손 추적의 최소 신뢰도 점수입니다. 있습니다. 이것은 네트워크 안의 시곗바늘 사이의 경계 상자 IoU 임곗값입니다. 현재 프레임과 마지막 프레임입니다. 다음 기기의 동영상 모드 및 스트림 모드 동작 인식기, 추적에 실패하면 동작 인식기가 손을 트리거함 있습니다 그렇지 않으면 손 감지를 건너뜁니다.	`0.0 - 1.0`	`0.5`
`canned_gestures_classifier_options`	미리 준비된 동작 분류기 동작을 구성하는 옵션입니다. 미리 준비된 동작은 `["None", "Closed_Fist", "Open_Palm", "Pointing_Up", "Thumb_Down", "Thumb_Up", "Victory", "ILoveYou"]` 입니다. 표시 이름 언어: TFLite 모델 메타데이터를 통해 지정된 표시 이름에 사용할 언어입니다(있는 경우). 최대 결과: 반환할 최고 점수 분류 결과의 최대 개수입니다. < 0이면 사용 가능한 모든 결과가 반환됩니다. 점수 임곗값: 이 점수보다 낮으면 결과가 거부되는 점수입니다. 0으로 설정하면 사용 가능한 모든 결과가 반환됩니다. 카테고리 허용 목록: 카테고리 이름의 허용 목록입니다. 비어 있지 않으면 카테고리가 이 세트에 없는 분류 결과가 필터링됩니다. 차단 목록과 상호 배타적입니다. 카테고리 차단 목록: 카테고리 이름의 차단 목록입니다. 비어 있지 않으면 카테고리가 이 집합에 속한 분류 결과가 필터링됩니다. 허용 목록과 상호 배타적입니다.	표시 이름 언어: `any string` 최대 결과 수: `any integer`개 점수 기준: `0.0-1.0` 카테고리 허용 목록: `vector of strings` 카테고리 차단 목록: `vector of strings`	표시 이름 언어: `"en"` 최대 결과 수: `-1`개 점수 기준: `0` 카테고리 허용 목록: 비어 있음 카테고리 차단 목록: 비어 있음
`custom_gestures_classifier_options`	맞춤 동작 분류 기준 동작을 구성하는 옵션입니다. 표시 이름 언어: TFLite 모델 메타데이터를 통해 지정된 표시 이름에 사용할 언어입니다(있는 경우). 최대 결과: 반환할 최고 점수 분류 결과의 최대 개수입니다. < 0이면 사용 가능한 모든 결과가 반환됩니다. 점수 임곗값: 이 점수보다 낮으면 결과가 거부되는 점수입니다. 0으로 설정하면 사용 가능한 모든 결과가 반환됩니다. 카테고리 허용 목록: 카테고리 이름의 허용 목록입니다. 비어 있지 않으면 카테고리가 이 세트에 없는 분류 결과가 필터링됩니다. 차단 목록과 상호 배타적입니다. 카테고리 차단 목록: 카테고리 이름의 차단 목록입니다. 비어 있지 않으면 카테고리가 이 집합에 속한 분류 결과가 필터링됩니다. 허용 목록과 상호 배타적입니다.	표시 이름 언어: `any string` 최대 결과 수: `any integer`개 점수 기준: `0.0-1.0` 카테고리 허용 목록: `vector of strings` 카테고리 차단 목록: `vector of strings`	표시 이름 언어: `"en"` 최대 결과 수: `-1`개 점수 기준: `0` 카테고리 허용 목록: 비어 있음 카테고리 차단 목록: 비어 있음
`result_callback`	분류 결과를 수신하도록 결과 리스너를 설정합니다. 동작 인식기가 라이브 스트림 모드일 때 비동기식으로 호출됩니다 달리기 모드가 `LIVE_STREAM`로 설정된 경우에만 사용할 수 있습니다.	`ResultListener`	해당 사항 없음	해당 사항 없음

데이터 준비

입력을 이미지 파일 또는 NumPy 배열로 준비한 후 mediapipe.Image 객체. 입력이 동영상 파일 또는 YouTube의 웹캠과 같은 외부 라이브러리를 입력 프레임을 Numpy로 로드하는 OpenCV 배열입니다.

이미지

import mediapipe as mp

# Load the input image from an image file.
mp_image = mp.Image.create_from_file('/path/to/image')

# Load the input image from a numpy array.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)

동영상

import mediapipe as mp

# Use OpenCV’s VideoCapture to load the input video.

# Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS
# You’ll need it to calculate the timestamp for each frame.

# Loop through each frame in the video using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

실시간 스트림

import mediapipe as mp

# Use OpenCV’s VideoCapture to start capturing from the webcam.

# Create a loop to read the latest frame from the camera using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

작업 실행

동작은 함수를 사용하여 추론을 트리거합니다. 동작 인식의 경우 다음과 같은 작업이 필요합니다. 입력 데이터 전처리, 이미지에서 손 인식, 손 인식 랜드마크에서 손동작을 인식할 수 있습니다.

다음 코드는 작업 모델을 사용하여 처리를 실행하는 방법을 보여줍니다.

이미지

# Perform gesture recognition on the provided single image.
# The gesture recognizer must be created with the image mode.
gesture_recognition_result = recognizer.recognize(mp_image)

동영상

# Perform gesture recognition on the provided single image.
# The gesture recognizer must be created with the video mode.
gesture_recognition_result = recognizer.recognize_for_video(mp_image, frame_timestamp_ms)

실시간 스트림

# Send live image data to perform gesture recognition.
# The results are accessible via the `result_callback` provided in
# the `GestureRecognizerOptions` object.
# The gesture recognizer must be created with the live stream mode.
recognizer.recognize_async(mp_image, frame_timestamp_ms)

다음에 유의하세요.

동영상 모드 또는 라이브 스트림 모드에서 실행하는 경우 동작 인식기 작업에 입력 프레임의 타임스탬프를 제공해야 합니다.
이미지 또는 동영상 모델에서 실행할 때 동작 인식기 작업은 입력 이미지 처리가 완료될 때까지 현재 스레드를 차단하거나 있습니다.
라이브 스트림 모드에서 실행할 때 동작 인식기 작업이 차단되지 않음 즉시 반환됩니다. 그것의 결과를 호출합니다. 처리가 완료될 때마다 인식 결과와 함께 리스너 입력 프레임입니다. 동작 인식기가 호출될 때 인식 함수가 호출되는 경우 작업이 다른 프레임을 처리하느라 바쁜 경우 작업은 새 입력을 무시합니다. 있습니다.

이미지에서 동작 인식기를 실행하는 전체 예는 코드 예 참조하세요.

결과 처리 및 표시

동작 인식기는 각 동작에 대한 동작 감지 결과 객체를 생성합니다. 실행할 수도 있습니다 결과 객체에는 이미지 좌표에 손 랜드마크가 포함되어 있습니다. 세계 좌표의 손 모양, 잘 쓰는 손(왼손/오른손), 손 인식된 손의 동작 카테고리를 표시합니다.

다음은 이 작업의 출력 데이터 예시를 보여줍니다.

결과 GestureRecognizerResult는 구성요소 4개를 포함하며 각 구성요소는 배열입니다. 여기서 각 요소는 감지된 손 한 개의 결과를 포함합니다.

잘 쓰는 손

잘 쓰는 손은 감지된 손이 왼손인지 오른손인지를 나타냅니다.
동작

감지된 손의 인식된 동작 카테고리입니다.
명소

손 모양 랜드마크는 21개이며 각각 x, y, z 좌표로 구성됩니다. 이 x 및 y 좌표는 이미지 너비에 의해 [0.0, 1.0] 으로 정규화되고 각각 높이를 정합니다. z 좌표는 랜드마크 깊이를 나타내며 원점이 되는 손목의 깊이입니다. 값이 작을수록 카메라에 전달합니다. z의 크기는 x
세계의 명소

21개의 손 모양 랜드마크도 세계 좌표로 표시됩니다. 각 랜드마크 x, y, z로 구성되며 이는 실제 3D 좌표를 나타냅니다. 미터를 이동할 수 있습니다.

GestureRecognizerResult:
  Handedness:
    Categories #0:
      index        : 0
      score        : 0.98396
      categoryName : Left
  Gestures:
    Categories #0:
      score        : 0.76893
      categoryName : Thumb_Up
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : -3.41E-7
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
    ... (21 landmarks for a hand)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
    ... (21 world landmarks for a hand)

다음 이미지는 작업 출력을 시각화한 것입니다.

동작 인식기 예시 코드에서는 인식을 표시하는 방법을 보여줍니다. 결과에 대한 자세한 내용은 코드 예 참조하세요.