圖片區隔指南

MediaPipe Image Segmenter 工作可根據預先定義的選項將圖片分成多個區域 類別您可以使用這項功能找出特定物件 然後將背景模糊處理等視覺效果目前工作 包含數個具體訓練的模型,用來區隔使用者 圖像資料中的特徵,包括:

  • 人物與背景
  • 只有人髮
  • 人的頭髮、臉部、皮膚、服飾和配件

這項工作會透過機器學習 (ML) 模型處理圖片資料,並提供 圖片或連續影片串流並輸出區隔區域清單 代表圖片中的物件或區域 (視您使用的模型而定)

試試看吧!

開始使用

按照下列任一實作指南,開始使用這項工作: 目標廣告平台這些平台專屬指南將逐步說明 實作這項工作,包含建議模型和程式碼範例 下方列出建議的設定選項:

任務詳細資料

本節會說明功能、輸入、輸出內容和設定 這個工作的選項

功能

  • 輸入圖片處理:處理包括圖片旋轉、調整大小、 正規化和色域轉換
工作輸入內容 工作輸出
輸入內容可以是下列任一種資料類型:
  • 靜態圖片
  • 已解碼的影片影格
  • 即時影像
「Image Segmenter」輸出經過區隔的圖片資料,可能包含一項或 根據您所設定的設定選項,執行下列其中一項操作:
  • CATEGORY_MASK:包含分段遮罩的清單 視為 uint8 格式圖片。每個像素值都會指出該像素值是否屬於模型支援的特定區隔類別。
  • CONFIDENCE_MASK:列出頻道 分段遮罩,採用 float32 格式的像素值。每個像素值代表屬於特定類別的信賴水準 特定資料。

設定選項

這項工作包含下列設定選項:

選項名稱 說明 值範圍 預設值
running_mode 設定任務的執行模式。在架構中 模式:

圖片:單一圖片輸入模式。

VIDEO:影片已解碼的影格模式。

LIVE_STREAM:輸入串流模式 擷取的資訊等。 在此模式下, resultListener 設定接聽程式來接收結果 以非同步方式載入物件
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
output_category_mask 如果設為 True,則輸出結果會包含區隔遮罩 視為 uint8 圖片,其中每個像素值都代表勝出的類別 值。 {True, False} False
output_confidence_masks 如果設為 True,則輸出結果會包含區隔遮罩 視為浮點值圖片,其中各浮點值代表信心值 分數圖。 {True, False} True
display_names_locale 設定標籤語言,供 工作模型的中繼資料 (如有)。以下項目的預設值為 en: 英語。您可以在自訂模型的中繼資料中加入經本地化的標籤 使用 TensorFlow Lite Metadata Writer API 語言代碼 en
result_callback 設定結果監聽器以接收區隔結果 圖片片段工具處於 LIVE_STREAM 模式時,以非同步方式顯示。 只有在執行模式設為「LIVE_STREAM」時才能使用 不適用 不適用

模型

你可以使用 Image Segmenter 搭配多個機器學習模型。下列大多數 區隔模型在建立和訓練的情況下會經過訓練,能根據 人員。不過,DeepLab-v3 模型是採用 以及用途圖片區隔工具請選取最適合您應用程式的模型。

自拍區隔模型

這個模型可以區隔人物肖像,並用於取代 或修改圖片背景這個模型會輸出兩個類別 背景為 0 且使用者位於索引 1這個模型有多個版本 包括方形版本和橫向版本等不同形狀 就能更有效率地處理輸入值一律為這種形狀的應用程式 例如視訊通話

模型名稱 輸入形狀 量化類型 模型資訊卡 版本
SelfieSegmenter (正方形) 256 x 256 浮點值 16 資訊 最新
SelfieSegmenter (橫向) 144 x 256 浮點值 16 資訊 最新

髮組模型

這個模型會拍攝人物相片、找出頭頂頭髮, 輸出髮型圖像。您可以運用這個模型 重新染髮或套用其他頭髮效果。模型會輸出 區隔類別:

0 - background
1 - hair
模型名稱 輸入形狀 量化類型 模型資訊卡 版本
HairSegmenter 512 x 512 無 (float32) 資訊 最新

多類別自拍區隔模型

這個模型會拍攝人物的圖片,找出不同區域的區域,例如 然後輸出這些項目的影像分割地圖 您可以運用這個模型對圖像中的人套用各種特效,或是 影片。這個模型會輸出下列區隔類別:

0 - background
1 - hair
2 - body-skin
3 - face-skin
4 - clothes
5 - others (accessories)
模型名稱 輸入形狀 量化類型 模型資訊卡 版本
SelfieMulticlass (256 x 256) 256 x 256 無 (float32) 資訊 最新

DeepLab-v3 模型

這個模型識別出許多類別的區隔,包括背景 人物、貓、狗和盆栽模型使用熱帶空間金字塔 以擷取較長的範圍資訊若需更多資訊,請參閲 DeepLab-v3

模型名稱 輸入形狀 量化類型 版本
DeepLab-V3 257 x 257 無 (float32) 最新

工作基準

我們根據上述預先訓練的預先訓練資源,為整個管道做出下列工作基準 我們來看評估分類模型成效時 的喚回度和精確度指標延遲結果是指 Pixel 6 使用 CPU / GPU 的平均延遲時間。

模型名稱 CPU 延遲時間 GPU 延遲時間
SelfieSegmenter (正方形) 33.46 毫秒 35.15 毫秒
SelfieSegmenter (橫向) 34.19 毫秒 33.55 毫秒
HairSegmenter 57.90 毫秒 52.14 毫秒
SelfieMulticlass (256 x 256) 217.76 毫秒 71.24 毫秒
DeepLab-V3 123.93 毫秒 103.30 毫秒