圖片產生指南

MediaPipe 圖片產生器工作可讓您根據文字提示生成圖片。這個 工作會運用文字轉圖片模型,以擴散技術產生圖片。

這項工作接受文字提示做為輸入內容,以及選用的條件圖片 模型可以擴增並在生成時參考如要進一步瞭解 有條件地生成文字轉圖片,請參閱「裝置端擴散外掛程式 有條件的文字轉圖片

圖片產生器 也能根據訓練期間提供給模型的具體概念 訓練、訓練或重新訓練詳情請參閱自訂 LoRA

開始使用

按照下列任一實作指南,開始使用這項工作: 目標廣告平台這些平台專屬指南將逐步說明 實作此工作的實作,包括使用預設模型的程式碼範例,以及 建議的設定選項:

任務詳細資料

本節會說明功能、輸入、輸出內容和設定 這個工作的選項

功能

您可以使用圖片產生器實作下列項目:

  1. 產生文字轉圖片:利用文字提示生成圖片。
  2. 使用條件圖片產生圖片:產生內含文字的圖片 提示和參考圖片圖片產生器會以不同方式使用條件圖片 與 ControlNet 類似。
  3. 以 LoRA 權重產生圖片:生成特定人物的圖像 並搭配自訂模型權重,透過文字提示生成物件和樣式
工作輸入內容 工作輸出
圖片產生器接受下列輸入內容:
  • 文字提示
  • 種子輪
  • 生成式疊代作業數量
  • 選用:條件圖片
圖片產生器會輸出下列結果:
  • 根據輸入內容產生圖片。
  • 選用:產生映像檔的疊代快照。

設定選項

這項工作包含下列設定選項:

選項名稱 說明 值範圍
imageGeneratorModelDirectory 儲存模型權重的圖片產生器模型目錄。 PATH
loraWeightsFilePath 設定 LoRA 權重檔案的路徑。選用,僅適用於 我們使用 LoRA 自訂了模型 PATH
errorListener 設定選用的錯誤事件監聽器。 N/A

這項工作也支援外掛程式模型,可讓使用者加入條件圖片 基礎模型可以擴增並做為參考 生成圖像這些狀況圖片可以是臉部地標、邊緣輪廓, 預估深度預估結果,模型會參考這些資料做為額外情境和資訊 生成圖像

在基礎模型中新增外掛程式模型時,請一併設定外掛程式 只要設定成「自動重新啟動」 和「在主機維護期間」選項即可臉部地標外掛程式使用 Canny 邊緣的 faceConditionOptions 外掛程式會使用 edgeConditionOptions,而 Depth 外掛程式會使用 depthConditionOptions

Canny 邊緣選項

edgeConditionOptions 中設定下列選項。

選項名稱 說明 值範圍 預設值
threshold1 混合程序的第一個門檻。 Float 100
threshold2 水療程序的第二個門檻。 Float 200
apertureSize Sobel 運算子的光圈大小。範圍通常介於 3 至 7 之間。 Integer 3
l2Gradient 無論是否使用 L2 正規數來計算圖片漸層大小 而不是預設的 L1 常式 BOOLEAN False
EdgePluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

如要進一步瞭解這些設定選項的運作方式,請參閱: Canny 邊緣偵測工具

臉孔地標選項

faceConditionOptions 中設定下列選項。

選項名稱 說明 值範圍 預設值
minFaceDetectionConfidence 臉部偵測的最低可信度分數 。 Float [0.0,1.0] 0.5
minFacePresenceConfidence 呈現臉孔的最低可信度分數 臉部地標偵測結果傳回值。 Float [0.0,1.0] 0.5
faceModelBaseOptions 設定路徑的 BaseOptions 物件 來建立條件圖片的模型 BaseOptions 個物件 N/A
FacePluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

如要進一步瞭解這些設定選項的運作方式,請參閱 臉部地標工作

深度選項

depthConditionOptions 中設定下列選項。

選項名稱 說明 值範圍 預設值
depthModelBaseOptions 設定路徑的 BaseOptions 物件 來建立條件圖片的模型 BaseOptions 個物件 N/A
depthPluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

模型

圖片產生器需要基礎模型,也就是文字轉圖片的 AI 模型 模型運用擴散技術生成新圖像基礎模型 列出的是經過最佳化處理的輕量級模型,可在高階 智慧型手機

外掛程式模型是選用項目,能與基礎模型相輔相成,方便 提供更多條件圖片及文字提示 更具體的圖像生成功能使用 LoRA 自訂基礎模型 權重是一種向基礎模型說明特定概念的方式 例如物件、人物或樣式,並將這些圖片插入生成的圖片

基礎模型

基礎模型是潛在的文字轉圖像擴散模型 製作出圖像圖片產生器需要 比對 runwayml/stable-diffusion-v1-5 EMA-only 模型格式,而是根據 以下模型:

下列基礎模型也與圖片產生器相容:

下載基礎模型後,請使用 image_generator_converter 以便將模型轉換成適當的裝置端格式 。

安裝必要的依附元件:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

執行 convert.py敬上 指令碼:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

外掛程式模型

本節中的外掛程式模型是由 Google 開發,必須用於 與基礎模型結合外掛程式模型可讓圖片產生器 接受條件圖片及文字提示做為輸入內容 控管生成圖片的結構外掛程式模型 功能與 ControlNet 相似,不過前者俱備 特別是網路新科技 裝置端擴散

外掛程式模型必須在基本選項中指定,並可能會要求您 下載其他模型檔案。每個外掛程式的 和狀況圖片,可由圖片產生器產生。

Canny Edge 外掛程式

Canny Edge 外掛程式接受使用描繪所需邊緣的條件圖片 產生的圖片說明文字基礎模型會使用 並生成新圖片 圖片產生器內建的功能可讓您建立條件圖片 只需下載外掛程式模型即可

下載 Canny Edge 外掛程式

Canny Edge 外掛程式包含下列設定選項:

選項名稱 說明 值範圍 預設值
threshold1 混合程序的第一個門檻。 Float 100
threshold2 水療程序的第二個門檻。 Float 200
apertureSize Sobel 運算子的光圈大小。範圍通常介於 3 至 7 之間。 Integer 3
l2Gradient 無論是否使用 L2 正規數來計算圖片漸層大小 而不是預設的 L1 常式 BOOLEAN False
EdgePluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

如要進一步瞭解這些設定選項的運作方式,請參閱: Canny 邊緣偵測工具

臉部地標外掛程式

臉部地標外掛程式接受 MediaPipe Face 的輸出內容 地標師做為條件圖片。幕後 地標提供單一臉部的精細臉部網格,在地圖中繪製出 臉部特徵的所在地和位置。基礎模型會使用 並由條件圖片隱含的對應,然後在網格上產生新的臉部。

下載臉部地標外掛程式

臉部地標外掛程式也需要使用臉部地標模型 組合來建立條件映像檔。這個 模型組合 Face Placeer 工作。

下載臉部地標模型套件

臉部地標外掛程式包含下列設定選項:

選項名稱 說明 值範圍 預設值
minFaceDetectionConfidence 臉部偵測的最低可信度分數 。 Float [0.0,1.0] 0.5
minFacePresenceConfidence 呈現臉孔的最低可信度分數 臉部地標偵測結果傳回值。 Float [0.0,1.0] 0.5
faceModelBaseOptions 設定路徑的 BaseOptions 物件 來建立條件圖片的模型 BaseOptions 個物件 N/A
FacePluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

如要進一步瞭解這些設定選項的運作方式,請參閱 臉部地標工作

深度外掛程式

深度外掛程式接受指定單項深度的條件圖片 物件基礎模型會使用條件圖片來推斷 要生成的物件深度,並根據文字生成新圖片 提示。

下載深度外掛程式

深度外掛程式也需要深度估算模型才能建立條件 圖片。

下載深度估算模型

深度外掛程式包含下列設定選項:

選項名稱 說明 值範圍 預設值
depthModelBaseOptions 設定路徑的 BaseOptions 物件 來建立條件圖片的模型 BaseOptions 個物件 N/A
depthPluginModelBaseOptions 設定路徑的 BaseOptions 物件 外掛程式和外掛程式 BaseOptions 個物件 N/A

使用 LoRA 進行自訂

使用 LoRA 自訂模型時 圖片產生器,可根據特定概念生成圖像 透過專屬符記識別採用新的 LoRA 權重後 模型就會產生新概念的圖像 都會在文字提示中指定

想建立 LoRA 權重,就必須使用 特定物件、人物或樣式 生成圖像的概念如果您要建立 LoRa 權重 生成內含特定人物和臉孔的圖像,但請只在 臉孔或臉孔。

下方為自訂模型的輸出內容,這些模型使用 茶壺來自 DreamBooth 資料集 「monadikos Tepot」憑證:

提示:鏡子旁的單月茶壺

自訂模型收到提示中的符記,並注入了 它學會瞭如何描繪 LoRA 權重,並將圖像放在 要求鏡像翻轉

搭配使用 LoRA 與 Vertex AI

詳情請參閱自訂 指南、 這類模型會使用 Vertex AI 中的模型園地 將 LoRA 權重套用至基礎模型來自訂模型