互動式圖片區隔工作指南

MediaPipe 互動式圖片區隔工作可讓您將圖片分為兩個區域:所選物件和其他所有項目。這項工作會採用圖片中的位置、預估該位置的物件邊界,並傳回定義物件區域的圖片資料。您可以使用這項工作,以互動方式選取圖片中的物件,並使用輸出內容為圖片套用效果,例如疊加該物體的色彩重疊,或模糊處理圖片周圍的背景。這項工作會使用機器學習 (ML) 模型處理圖片資料,並可用於單一圖片、影片檔案或連續影片串流。

試試看!

開始使用

如要開始使用這項工作,請按照目標平台適用的任一實作指南操作。下列平台專用指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:

任務詳細資料

本節說明這項工作的功能、輸入、輸出和設定選項。

功能

  • 輸入圖片處理 - 處理包括圖片旋轉、大小調整、正規化和色域轉換。
工作輸入內容 工作輸出內容
  • 圖片中物件的搜尋點座標
  • 要處理的圖片檔
互動式圖片區隔會根據您設定的設定選項,輸出經過區隔的圖片資料,包括下列一或兩種資料:
  • CATEGORY_MASK:包含區隔遮罩的 uint8 格式圖片清單。每個像素值都會指出該值是否屬於所需區域的物件的一部分。
  • CONFIDENCE_MASK:包含已區隔遮罩的管道清單,並以 float32 格式表示。每個像素值都代表其屬於所需區域物件的信心程度。

設定選項

這項工作有以下設定選項:

選項名稱 說明 值範圍 預設值
output_category_mask 如果設為 True,輸出結果會包含 uint8 圖片的區隔遮罩,其中每個像素值都會指出該像素是否屬於所需區域的物件。 {True, False} False
output_confidence_masks 如果設為 True,輸出結果會包含以浮點值圖片形式的區隔遮罩,其中每個浮點值都代表像素屬於相關位置物件的信心。 {True, False} True
display_names_locale 設定標籤語言,用於工作模型中繼資料內的顯示名稱 (如有)。英文的預設值是 en。您可以使用 TensorFlow Lite Metadata Writer API,在自訂模型的中繼資料中加入本地化標籤。語言代碼 en

模型

互動式圖片區隔工具可與多個機器學習模型搭配使用。開始使用這項工作進行開發時,請先針對目標平台採用的預設建議模型。其他可用的模型通常會在效能、準確率、解析度和資源需求之間取得取捨,在某些情況下還包括其他功能。

這個模型可針對特定區域,以特定圖片座標識別線段。這個模型使用卷積類神經網路,類似 MobileNetV3 架構,並搭載自訂解碼器。

模型名稱 輸入形狀 量化類型 Model Card 版本
MagicTouch 512 x 512 x 4 無 (float32) 資訊 最新

工作基準

以下為整個管道根據上述預先訓練模型所產生的工作基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。

模型名稱 CPU 延遲時間 GPU 延遲時間
MagicTouch 130.11 毫秒 67.25 毫秒