Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

圖片產生指南

圖像生成器工作

MediaPipe 圖像生成器任務可根據文字提示詞生成圖像。這項工作會使用文字轉圖像模型，透過擴散技術生成圖像。

這項工作會將文字提示詞做為輸入內容，並可選用模型可擴增的條件圖片，做為生成參考。如要進一步瞭解條件式文字轉圖像生成功能，請參閱「裝置端擴散外掛程式，用於條件式文字轉圖像生成」。

圖片生成器也可以根據訓練或重新訓練期間提供給模型的特定概念生成圖片。詳情請參閱「使用 LoRA 自訂」。

開始使用

請按照目標廣告平台的其中一份導入指南，開始使用這項工作。這些平台專屬指南會逐步說明這項工作的基本實作方式，並提供使用預設模型和建議設定選項的程式碼範例：

Android - 程式碼範例 - 指南
使用 LoRA 自訂 - 程式碼範例 - Colab

任務詳細資料

本節說明這項工作的能力、輸入內容、輸出內容和設定選項。

功能

你可以使用圖像產生器實作下列功能：

文字轉圖像：根據文字提示生成圖像。
使用條件圖片生成圖像：使用文字提示詞和參考圖像生成圖像。圖像生成器使用條件圖片的方式與 ControlNet 類似。
使用 LoRA 權重生成圖片 - 使用自訂模型權重，透過文字提示生成特定人物、物體和風格的圖片。

工作輸入內容	工作輸出內容
圖片生成器接受下列輸入內容：文字提示種子生成疊代次數選用：狀況圖片	圖像生成器會輸出下列結果：根據輸入內容生成的圖像。選用：生成圖像的疊代快照。

工作輸入內容

工作輸出內容

圖片生成器接受下列輸入內容：

文字提示

種子

生成疊代次數

選用：狀況圖片

圖像生成器會輸出下列結果：

根據輸入內容生成的圖像。

選用：生成圖像的疊代快照。

設定選項

這項工作提供下列設定選項：

選項名稱	說明	值範圍
`imageGeneratorModelDirectory`	儲存模型權重的圖像生成器模型目錄。	`PATH`
`loraWeightsFilePath`	設定 LoRA 權重檔案的路徑。此為選用屬性，僅適用於使用 LoRA 自訂模型的情況。	`PATH`
`errorListener`	設定選用的錯誤監聽器。	`N/A`

這項工作也支援外掛程式模型，讓使用者在工作輸入內容中加入條件圖片，基礎模型可以擴增這些圖片，並做為生成內容的參考。這些條件圖片可以是臉部地標、邊緣輪廓和深度估計值，模型會將這些圖片做為額外的背景資訊，用來生成圖片。

將外掛程式模型新增至基礎模型時，請一併設定外掛程式選項。Face 地標外掛程式使用 faceConditionOptions，Canny 邊緣外掛程式使用 edgeConditionOptions，Depth 外掛程式則使用 depthConditionOptions。

Canny 邊緣選項

在 edgeConditionOptions 中設定下列選項。

選項名稱	說明	值範圍	預設值
`threshold1`	遲滯程序的第一個門檻。	`Float`	`100`
`threshold2`	磁滯程序的第二個門檻。	`Float`	`200`
`apertureSize`	Sobel 運算子的光圈大小。一般範圍介於 3 到 7 之間。	`Integer`	`3`
`l2Gradient`	是否使用 L2 範數計算圖片梯度大小，而非預設的 L1 範數。	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

如要進一步瞭解這些設定選項的運作方式，請參閱「Canny 邊緣偵測器」。

臉部特徵選項

在 faceConditionOptions 中設定下列選項。

選項名稱	說明	值範圍	預設值
`minFaceDetectionConfidence`	臉部偵測成功所需的最低信賴分數。	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	臉部特徵偵測中，臉部出現信賴分數的最低分數。	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` 物件，用於設定建立條件圖片的模型路徑。	`BaseOptions` 個物件	`N/A`
`FacePluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

如要進一步瞭解這些設定選項的運作方式，請參閱「臉部地標工作」。

深度選項

在 depthConditionOptions 中設定下列選項。

選項名稱	說明	值範圍	預設值
`depthModelBaseOptions`	`BaseOptions` 物件，用於設定建立條件圖片的模型路徑。	`BaseOptions` 個物件	`N/A`
`depthPluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

模型

圖像生成器需要基礎模型，也就是文字轉圖像 AI 模型，這類模型會使用擴散技術生成新圖像。本節列出的基礎模型是經過最佳化的輕量模型，可在高階智慧型手機上執行。

外掛程式模型為選用功能，可輔助基礎模型，讓使用者提供額外的條件圖片和文字提示，生成更精確的圖片。使用 LoRA 權重自訂基礎模型，可讓基礎模型學習特定概念 (例如物件、人物或樣式)，並將這些概念注入生成的圖像。

基礎模型

基礎模型是潛在的文字轉圖像擴散模型，可根據文字提示生成圖像。圖片產生器需要基礎模型符合 stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only 模型格式，依據下列模型：

stable-diffusion-v1-5/stable-diffusion-v1-5

下列基礎模型也與圖像產生器相容：

下載基礎模型後，請使用 image_generator_converter 將模型轉換為適合 Image Generator 的裝置端格式。

安裝必要的依附元件：

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

執行 convert.py 指令碼：

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

外掛程式模型

本節中的外掛程式模型由 Google 開發，必須與基礎模型搭配使用。外掛程式模型可讓圖像生成器接受條件圖片和文字提示做為輸入內容，方便你控制生成的圖像結構。外掛程式模型提供的功能與 ControlNet 類似，但採用專為裝置端擴散設計的新穎架構。

外掛程式模型必須在基本選項中指定，且可能需要下載其他模型檔案。每個外掛程式對狀況圖片都有獨特要求，這類圖片可由圖片產生器生成。

Canny Edge 外掛程式

以下是兩個生成圖像的輸出範例，這些圖像使用提供的條件圖片 (磚塊輪廓清晰) 和提示「

Canny Edge 外掛程式會接受條件圖片，其中會標示生成圖片的預期邊緣。基礎模型會使用條件圖片隱含的邊緣，並根據文字提示生成新圖片。圖像生成器內建建立條件圖像的功能，只要下載外掛程式模型即可使用。

下載 Canny Edge 外掛程式

Canny Edge 外掛程式包含下列設定選項：

選項名稱	說明	值範圍	預設值
`threshold1`	遲滯程序的第一個門檻。	`Float`	`100`
`threshold2`	磁滯程序的第二個門檻。	`Float`	`200`
`apertureSize`	Sobel 運算子的光圈大小。一般範圍介於 3 到 7 之間。	`Integer`	`3`
`l2Gradient`	是否使用 L2 範數計算圖片梯度大小，而非預設的 L1 範數。	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

如要進一步瞭解這些設定選項的運作方式，請參閱「Canny 邊緣偵測器」。

臉部特徵點外掛程式

兩張生成圖片的輸出範例，使用手繪臉孔的條件圖片和兩個不同的提示，顯示同一張條件圖片可用於生成外觀差異極大的圖片

Face Landmark 外掛程式會接受 MediaPipe FaceLandmarker 的輸出內容做為條件圖片。Face Landmarker 可提供單一臉部的詳細臉部網格，並繪製臉部特徵的出現位置和所在位置。基礎模型會使用條件圖片所隱含的臉部對應，並在網格上生成新臉部。

下載臉部地標外掛程式

此外，Face landmark 外掛程式也需要 Face Landmarker 模型套件，才能建立條件圖片。這個模型套件與 Face Landmarker 工作使用的套件相同。

下載臉部地標模型套件

Face Landmark 外掛程式包含下列設定選項：

選項名稱	說明	值範圍	預設值
`minFaceDetectionConfidence`	臉部偵測成功所需的最低信賴分數。	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	臉部特徵偵測中，臉部出現信賴分數的最低分數。	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` 物件，用於設定建立條件圖片的模型路徑。	`BaseOptions` 個物件	`N/A`
`FacePluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

如要進一步瞭解這些設定選項的運作方式，請參閱「臉部地標工作」。

深度外掛程式

範例輸出內容：兩張生成的圖片使用提供的條件圖片，顯示車輛的大致形狀，說明 Depth 外掛程式可建立圖片，為平面圖片新增深度

Depth 外掛程式會接受指定物體單眼深度的條件圖片。基礎模型會使用條件圖片推斷要生成物件的大小和深度，並根據文字提示生成新圖片。

下載 Depth 外掛程式

深度外掛程式也需要深度估算模型，才能建立條件圖片。

下載深度估算模型

「深度」外掛程式包含下列設定選項：

選項名稱	說明	值範圍	預設值
`depthModelBaseOptions`	`BaseOptions` 物件，用於設定建立條件圖片的模型路徑。	`BaseOptions` 個物件	`N/A`
`depthPluginModelBaseOptions`	設定外掛程式模型路徑的 `BaseOptions` 物件。	`BaseOptions` 個物件	`N/A`

使用 LoRA 自訂

使用 LoRA 自訂模型後，圖片產生器就能根據特定概念生成圖片，這些概念會在訓練期間由專屬權杖識別。訓練完成後，模型會產生新的 LoRA 權重，只要在文字提示中指定權杖，模型就能生成新概念的圖片。

如要建立 LoRA 權重，必須先使用特定物體、人物或風格的圖片訓練基礎模型，讓模型能夠辨識新概念，並在生成圖片時套用。如要建立 LoRa 權重，生成特定人物和臉孔的圖片，請只對您自己的臉孔或已授權您這麼做的人臉使用這項解決方案。

以下是根據 DreamBooth 資料集中的茶壺圖片訓練自訂模型後，使用「monadikos teapot」權杖產生的輸出內容：

生成的逼真照片：茶壺放在桌上，旁邊是掛在牆上的鏡子

提示：鏡子旁的 monadikos 茶壺

自訂模型收到提示中的權杖，並插入從 LoRA 權重學會描繪的茶壺，然後按照提示要求，將茶壺放在鏡子旁邊。

使用 Vertex AI 的 LoRA

詳情請參閱自訂指南，瞭解如何使用 Vertex AI 上的 Model Garden，將 LoRA 權重套用至基礎模型，藉此自訂模型。