MediaPipe 互動式圖片區隔工作可讓您將圖片分為兩個區域:所選物件和其他所有項目。這項工作會採用圖片中的位置、預估該位置的物件邊界,並傳回定義物件區域的圖片資料。您可以使用這項工作,以互動方式選取圖片中的物件,並使用輸出內容為圖片套用效果,例如疊加該物體的色彩重疊,或模糊處理圖片周圍的背景。這項工作會使用機器學習 (ML) 模型處理圖片資料,並可用於單一圖片、影片檔案或連續影片串流。
開始使用
如要開始使用這項工作,請按照目標平台適用的任一實作指南操作。下列平台專用指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:
任務詳細資料
本節說明這項工作的功能、輸入、輸出和設定選項。
功能
- 輸入圖片處理 - 處理包括圖片旋轉、大小調整、正規化和色域轉換。
工作輸入內容 | 工作輸出內容 |
---|---|
|
互動式圖片區隔會根據您設定的設定選項,輸出經過區隔的圖片資料,包括下列一或兩種資料:
|
設定選項
這項工作有以下設定選項:
選項名稱 | 說明 | 值範圍 | 預設值 |
---|---|---|---|
output_category_mask |
如果設為 True ,輸出結果會包含 uint8 圖片的區隔遮罩,其中每個像素值都會指出該像素是否屬於所需區域的物件。 |
{True, False } |
False |
output_confidence_masks |
如果設為 True ,輸出結果會包含以浮點值圖片形式的區隔遮罩,其中每個浮點值都代表像素屬於相關位置物件的信心。 |
{True, False } |
True |
display_names_locale |
設定標籤語言,用於工作模型中繼資料內的顯示名稱 (如有)。英文的預設值是 en 。您可以使用 TensorFlow Lite Metadata Writer API,在自訂模型的中繼資料中加入本地化標籤。 | 語言代碼 | en |
模型
互動式圖片區隔工具可與多個機器學習模型搭配使用。開始使用這項工作進行開發時,請先針對目標平台採用的預設建議模型。其他可用的模型通常會在效能、準確率、解析度和資源需求之間取得取捨,在某些情況下還包括其他功能。
MagicTouch 模型 (建議)
這個模型可針對特定區域,以特定圖片座標識別線段。這個模型使用卷積類神經網路,類似 MobileNetV3 架構,並搭載自訂解碼器。
模型名稱 | 輸入形狀 | 量化類型 | Model Card | 版本 |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | 無 (float32) | 資訊 | 最新 |
工作基準
以下為整個管道根據上述預先訓練模型所產生的工作基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。
模型名稱 | CPU 延遲時間 | GPU 延遲時間 |
---|---|---|
MagicTouch | 130.11 毫秒 | 67.25 毫秒 |