图片生成指南

<ph type="x-smartling-placeholder">

借助 MediaPipe 图片生成器任务,你可以根据文本提示生成图片。这个 使用文本到图像模型使用扩散技术生成图像。

任务接受文本提示和可选的条件图片 模型可以进行扩充并用作生成参考。有关 条件式文本到图像生成,请参阅适用于 有条件的文本到图像 生成的内容

图片生成器 也可以根据提供给模型的特定概念生成图像, 或再训练。有关详情,请参见使用 LoRA

开始使用

使用此任务时,请先按照以下某个实施指南操作 目标平台这些针对具体平台的指南将向您介绍 该任务的实现,并提供了使用默认模型和 建议的配置选项:

任务详情

本部分介绍功能、输入、输出和配置 此任务的选项。

功能

您可以使用图片生成器实现以下目标:

  1. 文本到图像生成 - 在文本提示下生成图像。
  2. 使用条件图片生成图片 - 使用文本生成图片 提示和参考图片。图片生成器以多种方式使用调整图片 类似于 ControlNet
  3. 使用 LoRA 权重生成图片 - 根据特定人物、 对象和样式,并采用自定义模型权重生成文本提示。
任务输入 任务输出
图片生成器接受以下输入:
<ph type="x-smartling-placeholder">
    </ph>
  • 文本提示
  • 种子
  • 生成式迭代次数
  • 可选:使用情况图片
图像生成器输出以下结果:
<ph type="x-smartling-placeholder">
    </ph>
  • 根据输入生成的图片。
  • 可选:所生成图片的迭代快照。

配置选项

此任务具有以下配置选项:

选项名称 说明 值范围
imageGeneratorModelDirectory 存储模型权重的图片生成器模型目录。 PATH
loraWeightsFilePath 设置 LoRA 权重文件的路径。可选,且仅在 模型是使用 LoRA 定制的。 PATH
errorListener 设置一个可选的错误监听器。 N/A

此任务还支持插件模型,让用户可以添加条件图片 在任务输入中,基础模型可以对其进行扩充,并将其用作参考 进行训练。这些条件图像可以是人脸特征点、边缘轮廓和 深度估算,模型将其用作额外的上下文和信息, 生成图像。

将插件模型添加到基础模型时,还需要配置插件 选项。人脸特征点插件使用 faceConditionOptions(Canny 边缘) 插件使用 edgeConditionOptions,而 Depth 插件使用 depthConditionOptions

Canny 边缘选项

edgeConditionOptions 中配置以下选项。

选项名称 说明 值范围 默认值
threshold1 迟滞过程的第一个阈值。 Float 100
threshold2 迟滞过程的第二个阈值。 Float 200
apertureSize Sobel 运算符的光圈大小。一般范围在 3-7 之间。 Integer 3
l2Gradient 是否使用 L2 范数计算图像梯度幅值, 而不是默认的 L1 范数。 BOOLEAN False
EdgePluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

如需详细了解这些配置选项的工作原理,请参阅 Canny 边缘检测器

面孔特征点选项

faceConditionOptions 中配置以下选项。

选项名称 说明 值范围 默认值
minFaceDetectionConfidence 人脸检测的最低置信度分数 则视为成功 Float [0.0,1.0] 0.5
minFacePresenceConfidence 人脸存在的最低置信度分数 得分。 Float [0.0,1.0] 0.5
faceModelBaseOptions 用于设置路径的 BaseOptions 对象 创建条件图片的模型。 BaseOptions 对象 N/A
FacePluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

有关这些配置选项工作方式的详细信息,请参阅 人脸特征点标记器任务

深度选项

depthConditionOptions 中配置以下选项。

选项名称 说明 值范围 默认值
depthModelBaseOptions 用于设置路径的 BaseOptions 对象 创建条件图片的模型。 BaseOptions 对象 N/A
depthPluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

模型

图片生成器需要基础模型,即基于文本到图像的 AI 模型 它利用扩散技术生成新图像。基础模型 这些是轻量级模型,此类模型经过优化,可在 智能手机。

插件模型是可选的,是对基础模型的补充, 用户需要提供额外的使用情况图片以及文本提示 更加具体的图像生成过程。使用 LoRA 自定义基础模型 权重是一种选项,可让基础模型了解特定概念、 例如对象、人物或风格,并将其注入到生成的图像中。

基础模型

基础模型是潜在的文本到图像扩散模型, 生成图像。图片生成器要求基础模型 符合 runwayml/stable-diffusion-v1-5 EMA-only 模型格式,具体取决于 以下模型:

以下基础模型也与图片生成器兼容:

下载基础模型后,使用 image_generator_converter 将模型转换为 图片生成器。

安装必要的依赖项:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

运行 convert.py 脚本:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

插件模型

本部分中的插件模型由 Google 开发, 基础模型。借助插件模型,图片生成器可以 接受条件图片以及文本提示作为输入, 来控制生成的图像的结构。插件模型提供 功能与 ControlNet 类似, 新颖的架构 设备端扩散

插件模型必须在基本选项中指定,并且可能需要您 下载其他模型文件。对于 条件图片,由图片生成器生成。

Canny Edge 插件

Canny Edge 插件接受可勾勒出预期边缘的条件图片 生成图像。基础模型使用 条件图片,并根据文本提示生成新图片。通过 图片生成器内置了创建条件图片的功能,以及 只需要下载插件模型。

<ph type="x-smartling-placeholder"></ph> 下载 Canny Edge 插件

Canny Edge 插件包含以下配置选项:

选项名称 说明 值范围 默认值
threshold1 迟滞过程的第一个阈值。 Float 100
threshold2 迟滞过程的第二个阈值。 Float 200
apertureSize Sobel 运算符的光圈大小。一般范围在 3-7 之间。 Integer 3
l2Gradient 是否使用 L2 范数计算图像梯度幅值, 而不是默认的 L1 范数。 BOOLEAN False
EdgePluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

如需详细了解这些配置选项的工作原理,请参阅 Canny 边缘检测器

人脸特征点插件

人脸特征点插件接受来自 MediaPipe Face Markerer 作为使用情况图片。面孔 Markerer 提供单个面部的详细面部网格,用于绘制 面部特征的存在和位置。基础模型使用 映射,并在网格上生成新面孔。

<ph type="x-smartling-placeholder"></ph> 下载人脸特征点插件

人脸特征点插件还需要人脸特征点器 模型 bundle 以创建条件图片。这个 模型包与 人脸特征点任务。

<ph type="x-smartling-placeholder"></ph> 下载人脸特征点模型包

人脸特征点插件包含以下配置选项:

选项名称 说明 值范围 默认值
minFaceDetectionConfidence 人脸检测的最低置信度分数 则视为成功 Float [0.0,1.0] 0.5
minFacePresenceConfidence 人脸存在的最低置信度分数 得分。 Float [0.0,1.0] 0.5
faceModelBaseOptions 用于设置路径的 BaseOptions 对象 创建条件图片的模型。 BaseOptions 对象 N/A
FacePluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

有关这些配置选项工作方式的详细信息,请参阅 人脸特征点标记器任务

深度插件

Depth 插件接受一个条件图像,用于指定 对象。基础模型根据条件图片来推断大小, 深度,并根据文本生成新图片。 提示。

<ph type="x-smartling-placeholder"></ph> 下载 Depth 插件

Depth 插件还需要深度估算模型来创建条件 图片。

<ph type="x-smartling-placeholder"></ph> 下载深度估算模型

Depth 插件包含以下配置选项:

选项名称 说明 值范围 默认值
depthModelBaseOptions 用于设置路径的 BaseOptions 对象 创建条件图片的模型。 BaseOptions 对象 N/A
depthPluginModelBaseOptions 用于设置路径的 BaseOptions 对象 。 BaseOptions 对象 N/A

使用 LoRA 进行自定义

使用 LoRA 自定义模型可以启用 图片生成器,用于根据特定概念生成图片, 通过唯一词元来标识。采用新的 LoRA 权重之后, 模型就能够生成新概念的图像, 。

创建 LoRA 权重需要使用 特定对象、人物或风格,使模型能够识别 并在生成图像时加以应用。如果您要创建 LoRa 权重, 生成包含特定人物和人脸的图片,请仅在您的

下面是一个使用 图片训练的自定义模型的输出 TeapotsDreamBooth 数据集,使用 令牌“monadikos teapot”:

提示:镜子旁边的一把 Monadikos 茶壶

自定义模型在提示中收到令牌,并注入一个茶壶, 它学会了通过 LoRA 权重进行描述, 按照提示中的要求进行镜像

<ph type="x-smartling-placeholder"></ph> LoRA 与 Vertex AI

有关详情,请参阅自定义 指南, 它使用 Vertex AI 上的 Model Garden 对基础模型应用 LoRA 权重来自定义模型。