Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Python 的手地標偵測指南

MediaPipe Hand Landmarker 工作可讓您偵測圖片中的手部地標。本操作說明將說明如何使用 Python 搭配手部標記工具。您可以在 GitHub 上找到這些操作說明中所述的程式碼範例。

如要進一步瞭解這項工作的功能、模型和設定選項，請參閱總覽。

程式碼範例

手部標記器的範例程式碼提供了 Python 中此工作的完整實作方式，供您參考。這段程式碼可協助您測試這項工作，並開始建構自己的手部地標偵測器。您只需使用網頁瀏覽器，即可查看、執行及編輯手部地標標示器範例程式碼。

如果您要為 Raspberry Pi 實作手部標記器，請參閱 Raspberry Pi 範例應用程式。

設定

本節將說明設定開發環境和程式碼專案的關鍵步驟，以便使用手勢標記器。如要進一步瞭解如何設定開發環境以使用 MediaPipe 工作，包括平台版本需求，請參閱 Python 設定指南。

套件

MediaPipe Hand Landmarker 工作需要 mediapipe PyPI 套件。您可以透過下列方式安裝及匯入這些依附元件：

$ python -m pip install mediapipe

匯入

匯入下列類別，以存取手部標記器工作函式：

import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision

型號

MediaPipe Hand Landmarker 工作需要訓練的模型，且必須與此工作相容。如要進一步瞭解手部標記器可用的訓練模型，請參閱工作總覽的「模型」一節。

選取並下載模型，然後將其儲存在本機目錄中：

model_path = '/absolute/path/to/gesture_recognizer.task'

使用 BaseOptions 物件的 model_asset_path 參數，指定要使用的模型路徑。如需程式碼範例，請參閱下一節。

建立工作

MediaPipe 手勢標記器工作會使用 create_from_options 函式設定工作。create_from_options 函式會接受設定選項的值，以便處理。如要進一步瞭解設定選項，請參閱「設定選項」。

以下程式碼示範如何建構及設定此工作。

這些範例也說明瞭圖片、影片檔案和直播的任務建構變化。

圖片

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
HandLandmarker = mp.tasks.vision.HandLandmarker
HandLandmarkerOptions = mp.tasks.vision.HandLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a hand landmarker instance with the image mode:
options = HandLandmarkerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.IMAGE)
with HandLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

影片

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
HandLandmarker = mp.tasks.vision.HandLandmarker
HandLandmarkerOptions = mp.tasks.vision.HandLandmarkerOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a hand landmarker instance with the video mode:
options = HandLandmarkerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.VIDEO)
with HandLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

直播

import mediapipe as mp

BaseOptions = mp.tasks.BaseOptions
HandLandmarker = mp.tasks.vision.HandLandmarker
HandLandmarkerOptions = mp.tasks.vision.HandLandmarkerOptions
HandLandmarkerResult = mp.tasks.vision.HandLandmarkerResult
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a hand landmarker instance with the live stream mode:
def print_result(result: HandLandmarkerResult, output_image: mp.Image, timestamp_ms: int):
    print('hand landmarker result: {}'.format(result))

options = HandLandmarkerOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.LIVE_STREAM,
    result_callback=print_result)
with HandLandmarker.create_from_options(options) as landmarker:
  # The landmarker is initialized. Use it here.
  # ...

如需建立手部標記以供圖片使用，請參閱程式碼範例。

設定選項

此工作包含下列 Python 應用程式的設定選項：

選項名稱	說明	值範圍	預設值
`running_mode`	設定工作執行模式。共有三種模式： IMAGE：單一圖片輸入模式。 VIDEO：影片解碼影格模式。 LIVE_STREAM：輸入資料 (例如來自攝影機的資料) 的直播模式。在這個模式中，必須呼叫 resultListener，才能設定事件監聽器，以非同步方式接收結果。	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_hands`	手部地標偵測器偵測到的手部數量上限。	`Any integer > 0`	`1`
`min_hand_detection_confidence`	在手掌偵測模型中，手部偵測的最低信賴分數，才會視為成功。	`0.0 - 1.0`	`0.5`
`min_hand_presence_confidence`	手部地標偵測模型中手部存在分數的最低可信度分數。在影片模式和直播模式中，如果手勢地標模型的手勢存在可信度分數低於此閾值，手勢地標偵測器就會觸發手掌偵測模型。否則，輕量手勢追蹤演算法會判斷手的位置，以便後續的標記偵測。	`0.0 - 1.0`	`0.5`
`min_tracking_confidence`	手部追蹤系統判定為成功的最低可信度分數。這是目前影格和上一個影格中手的定界框交併比閾值。在 Hand Landmarker 的影片模式和串流模式中，如果追蹤失敗，Hand Landmarker 會觸發手部偵測。否則系統會略過手勢偵測。	`0.0 - 1.0`	`0.5`
`result_callback`	在手部標記處於即時串流模式時，將結果事件監聽器設為以非同步方式接收偵測結果。只有在執行模式設為 `LIVE_STREAM` 時才適用	不適用	不適用

準備資料

將輸入內容設為圖片檔案或 Numpy 陣列，然後轉換為 mediapipe.Image 物件。如果輸入內容是網路攝影機的影片檔案或直播內容，您可以使用 OpenCV 等外部程式庫，將輸入影格載入為 Numpy 陣列。

圖片

import mediapipe as mp

# Load the input image from an image file.
mp_image = mp.Image.create_from_file('/path/to/image')

# Load the input image from a numpy array.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)

影片

import mediapipe as mp

# Use OpenCV’s VideoCapture to load the input video.

# Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS
# You’ll need it to calculate the timestamp for each frame.

# Loop through each frame in the video using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

直播

import mediapipe as mp

# Use OpenCV’s VideoCapture to start capturing from the webcam.

# Create a loop to read the latest frame from the camera using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

執行工作

Hand Landmarker 會使用 detect、detect_for_video 和 detect_async 函式觸發推論。針對手部地標偵測，這包括預先處理輸入資料、偵測圖片中的手部，以及偵測手部地標。

以下程式碼示範如何使用工作模型執行處理作業。

圖片

# Perform hand landmarks detection on the provided single image.
# The hand landmarker must be created with the image mode.
hand_landmarker_result = landmarker.detect(mp_image)

影片

# Perform hand landmarks detection on the provided single image.
# The hand landmarker must be created with the video mode.
hand_landmarker_result = landmarker.detect_for_video(mp_image, frame_timestamp_ms)

直播

# Send live image data to perform hand landmarks detection.
# The results are accessible via the `result_callback` provided in
# the `HandLandmarkerOptions` object.
# The hand landmarker must be created with the live stream mode.
landmarker.detect_async(mp_image, frame_timestamp_ms)

注意事項：

在影片模式或直播模式中執行時，您也必須為手勢標記器工作提供輸入影格時間戳記。
在圖片或影片模型中執行時，手部標記器工作會阻斷目前執行緒，直到處理完輸入圖片或影格為止。
在直播模式下執行時，手部標記器工作不會阻斷目前的執行緒，而是立即傳回。每次處理完輸入影格後，它都會使用偵測結果叫用結果監聽器。如果在手勢標記器工作忙於處理其他影格時呼叫偵測函式，工作會忽略新的輸入影格。

如需在圖片上執行手部標記的完整範例，請參閱程式碼範例。

處理及顯示結果

Hand Landmarker 會為每次偵測執行作業產生手部標記結果物件。結果物件包含圖片座標中的手標記、世界座標中的手標記，以及所偵測手部的慣用手(左手/右手)。

以下是這項工作的輸出資料範例：

HandLandmarkerResult 輸出內容包含三個元件。每個元件都是陣列，其中每個元素都包含單一偵測到的手的下列結果：

慣用手

慣用手代表偵測到的手是左手還是右手。
地標

手部有 21 個地標，每個地標都由 x、y 和 z 座標組成。x 和 y 座標會分別根據圖片寬度和高度，正規化為 [0.0, 1.0]。z 座標代表地標深度，其中手腕的深度為原點。值越小，地標與相機的距離就越近。z 的大小會使用與 x 大致相同的刻度。
世界著名地標

21 個手部地標也會以世界座標呈現。每個地標都由 x、y 和 z 組成，代表以公尺為單位的實際 3D 座標，起點位於手的幾何中心。

HandLandmarkerResult:
  Handedness:
    Categories #0:
      index        : 0
      score        : 0.98396
      categoryName : Left
  Landmarks:
    Landmark #0:
      x            : 0.638852
      y            : 0.671197
      z            : -3.41E-7
    Landmark #1:
      x            : 0.634599
      y            : 0.536441
      z            : -0.06984
    ... (21 landmarks for a hand)
  WorldLandmarks:
    Landmark #0:
      x            : 0.067485
      y            : 0.031084
      z            : 0.055223
    Landmark #1:
      x            : 0.063209
      y            : -0.00382
      z            : 0.020920
    ... (21 world landmarks for a hand)

下圖是工作輸出內容的視覺化呈現：

豎起大拇指的手，並標示出手的骨骼結構

手部地標程式碼範例說明如何顯示工作傳回的結果，請參閱程式碼範例瞭解詳情。