MediaPipe Image Segmenter 工作可根據預先定義的選項將圖片分成多個區域 類別您可以使用這項功能找出特定物件 然後將背景模糊處理等視覺效果目前工作 包含數個具體訓練的模型,用來區隔使用者 圖像資料中的特徵,包括:
- 人物與背景
- 只有人髮
- 人的頭髮、臉部、皮膚、服飾和配件
這項工作會透過機器學習 (ML) 模型處理圖片資料,並提供 圖片或連續影片串流並輸出區隔區域清單 代表圖片中的物件或區域 (視您使用的模型而定)
開始使用
按照下列任一實作指南,開始使用這項工作: 目標廣告平台這些平台專屬指南將逐步說明 實作這項工作,包含建議模型和程式碼範例 下方列出建議的設定選項:
任務詳細資料
本節會說明功能、輸入、輸出內容和設定 這個工作的選項
功能
- 輸入圖片處理:處理包括圖片旋轉、調整大小、 正規化和色域轉換
工作輸入內容 | 工作輸出 |
---|---|
輸入內容可以是下列任一種資料類型:
|
「Image Segmenter」輸出經過區隔的圖片資料,可能包含一項或
根據您所設定的設定選項,執行下列其中一項操作:
|
設定選項
這項工作包含下列設定選項:
選項名稱 | 說明 | 值範圍 | 預設值 |
---|---|---|---|
running_mode |
設定任務的執行模式。在架構中
模式: 圖片:單一圖片輸入模式。 VIDEO:影片已解碼的影格模式。 LIVE_STREAM:輸入串流模式 擷取的資訊等。 在此模式下, resultListener 設定接聽程式來接收結果 以非同步方式載入物件 |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
output_category_mask |
如果設為 True ,則輸出結果會包含區隔遮罩
視為 uint8 圖片,其中每個像素值都代表勝出的類別
值。 |
{True, False } |
False |
output_confidence_masks |
如果設為 True ,則輸出結果會包含區隔遮罩
視為浮點值圖片,其中各浮點值代表信心值
分數圖。 |
{True, False } |
True |
display_names_locale |
設定標籤語言,供
工作模型的中繼資料 (如有)。以下項目的預設值為 en :
英語。您可以在自訂模型的中繼資料中加入經本地化的標籤
使用 TensorFlow Lite Metadata Writer API |
語言代碼 | en |
result_callback |
設定結果監聽器以接收區隔結果
圖片片段工具處於 LIVE_STREAM 模式時,以非同步方式顯示。
只有在執行模式設為「LIVE_STREAM 」時才能使用 |
不適用 | 不適用 |
模型
你可以使用 Image Segmenter 搭配多個機器學習模型。下列大多數 區隔模型在建立和訓練的情況下會經過訓練,能根據 人員。不過,DeepLab-v3 模型是採用 以及用途圖片區隔工具請選取最適合您應用程式的模型。
自拍區隔模型
這個模型可以區隔人物肖像,並用於取代 或修改圖片背景這個模型會輸出兩個類別 背景為 0 且使用者位於索引 1這個模型有多個版本 包括方形版本和橫向版本等不同形狀 就能更有效率地處理輸入值一律為這種形狀的應用程式 例如視訊通話
模型名稱 | 輸入形狀 | 量化類型 | 模型資訊卡 | 版本 |
---|---|---|---|---|
SelfieSegmenter (正方形) | 256 x 256 | 浮點值 16 | 資訊 | 最新 |
SelfieSegmenter (橫向) | 144 x 256 | 浮點值 16 | 資訊 | 最新 |
髮組模型
這個模型會拍攝人物相片、找出頭頂頭髮, 輸出髮型圖像。您可以運用這個模型 重新染髮或套用其他頭髮效果。模型會輸出 區隔類別:
0 - background
1 - hair
模型名稱 | 輸入形狀 | 量化類型 | 模型資訊卡 | 版本 |
---|---|---|---|---|
HairSegmenter | 512 x 512 | 無 (float32) | 資訊 | 最新 |
多類別自拍區隔模型
這個模型會拍攝人物的圖片,找出不同區域的區域,例如 然後輸出這些項目的影像分割地圖 您可以運用這個模型對圖像中的人套用各種特效,或是 影片。這個模型會輸出下列區隔類別:
0 - background
1 - hair
2 - body-skin
3 - face-skin
4 - clothes
5 - others (accessories)
模型名稱 | 輸入形狀 | 量化類型 | 模型資訊卡 | 版本 |
---|---|---|---|---|
SelfieMulticlass (256 x 256) | 256 x 256 | 無 (float32) | 資訊 | 最新 |
DeepLab-v3 模型
這個模型識別出許多類別的區隔,包括背景 人物、貓、狗和盆栽模型使用熱帶空間金字塔 以擷取較長的範圍資訊若需更多資訊,請參閲 DeepLab-v3。
模型名稱 | 輸入形狀 | 量化類型 | 版本 |
---|---|---|---|
DeepLab-V3 | 257 x 257 | 無 (float32) | 最新 |
工作基準
我們根據上述預先訓練的預先訓練資源,為整個管道做出下列工作基準 我們來看評估分類模型成效時 的喚回度和精確度指標延遲結果是指 Pixel 6 使用 CPU / GPU 的平均延遲時間。
模型名稱 | CPU 延遲時間 | GPU 延遲時間 |
---|---|---|
SelfieSegmenter (正方形) | 33.46 毫秒 | 35.15 毫秒 |
SelfieSegmenter (橫向) | 34.19 毫秒 | 33.55 毫秒 |
HairSegmenter | 57.90 毫秒 | 52.14 毫秒 |
SelfieMulticlass (256 x 256) | 217.76 毫秒 | 71.24 毫秒 |
DeepLab-V3 | 123.93 毫秒 | 103.30 毫秒 |