借助 MediaPipe 图片生成器任务,你可以根据文本提示生成图片。这个 使用文本到图像模型使用扩散技术生成图像。
任务接受文本提示和可选的条件图片 模型可以进行扩充并用作生成参考。有关 条件式文本到图像生成,请参阅适用于 有条件的文本到图像 生成的内容。
图片生成器 也可以根据提供给模型的特定概念生成图像, 或再训练。有关详情,请参见使用 LoRA。
开始使用
使用此任务时,请先按照以下某个实施指南操作 目标平台这些针对具体平台的指南将向您介绍 该任务的实现,并提供了使用默认模型和 建议的配置选项:
任务详情
本部分介绍功能、输入、输出和配置 此任务的选项。
功能
您可以使用图片生成器实现以下目标:
- 文本到图像生成 - 在文本提示下生成图像。
- 使用条件图片生成图片 - 使用文本生成图片 提示和参考图片。图片生成器以多种方式使用调整图片 类似于 ControlNet。
- 使用 LoRA 权重生成图片 - 根据特定人物、 对象和样式,并采用自定义模型权重生成文本提示。
任务输入 | 任务输出 |
---|---|
图片生成器接受以下输入: <ph type="x-smartling-placeholder">
|
图像生成器输出以下结果: <ph type="x-smartling-placeholder">
|
配置选项
此任务具有以下配置选项:
选项名称 | 说明 | 值范围 |
---|---|---|
imageGeneratorModelDirectory |
存储模型权重的图片生成器模型目录。 | PATH |
loraWeightsFilePath |
设置 LoRA 权重文件的路径。可选,且仅在 模型是使用 LoRA 定制的。 | PATH |
errorListener |
设置一个可选的错误监听器。 | N/A |
此任务还支持插件模型,让用户可以添加条件图片 在任务输入中,基础模型可以对其进行扩充,并将其用作参考 进行训练。这些条件图像可以是人脸特征点、边缘轮廓和 深度估算,模型将其用作额外的上下文和信息, 生成图像。
将插件模型添加到基础模型时,还需要配置插件
选项。人脸特征点插件使用 faceConditionOptions
(Canny 边缘)
插件使用 edgeConditionOptions
,而 Depth 插件使用
depthConditionOptions
。
Canny 边缘选项
在 edgeConditionOptions
中配置以下选项。
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
threshold1 |
迟滞过程的第一个阈值。 | Float |
100 |
threshold2 |
迟滞过程的第二个阈值。 | Float |
200 |
apertureSize |
Sobel 运算符的光圈大小。一般范围在 3-7 之间。 | Integer |
3 |
l2Gradient |
是否使用 L2 范数计算图像梯度幅值, 而不是默认的 L1 范数。 | BOOLEAN |
False |
EdgePluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
如需详细了解这些配置选项的工作原理,请参阅 Canny 边缘检测器。
面孔特征点选项
在 faceConditionOptions
中配置以下选项。
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
minFaceDetectionConfidence |
人脸检测的最低置信度分数 则视为成功 | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
人脸存在的最低置信度分数 得分。 | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
用于设置路径的 BaseOptions 对象
创建条件图片的模型。 |
BaseOptions 对象 |
N/A |
FacePluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
有关这些配置选项工作方式的详细信息,请参阅 人脸特征点标记器任务。
深度选项
在 depthConditionOptions
中配置以下选项。
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
depthModelBaseOptions |
用于设置路径的 BaseOptions 对象
创建条件图片的模型。 |
BaseOptions 对象 |
N/A |
depthPluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
模型
图片生成器需要基础模型,即基于文本到图像的 AI 模型 它利用扩散技术生成新图像。基础模型 这些是轻量级模型,此类模型经过优化,可在 智能手机。
插件模型是可选的,是对基础模型的补充, 用户需要提供额外的使用情况图片以及文本提示 更加具体的图像生成过程。使用 LoRA 自定义基础模型 权重是一种选项,可让基础模型了解特定概念、 例如对象、人物或风格,并将其注入到生成的图像中。
基础模型
基础模型是潜在的文本到图像扩散模型,
生成图像。图片生成器要求基础模型
符合 runwayml/stable-diffusion-v1-5 EMA-only
模型格式,具体取决于
以下模型:
以下基础模型也与图片生成器兼容:
下载基础模型后,使用 image_generator_converter 将模型转换为 图片生成器。
安装必要的依赖项:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
运行
convert.py
脚本:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
插件模型
本部分中的插件模型由 Google 开发, 基础模型。借助插件模型,图片生成器可以 接受条件图片以及文本提示作为输入, 来控制生成的图像的结构。插件模型提供 功能与 ControlNet 类似, 新颖的架构 设备端扩散。
插件模型必须在基本选项中指定,并且可能需要您 下载其他模型文件。对于 条件图片,由图片生成器生成。
Canny Edge 插件
Canny Edge 插件接受可勾勒出预期边缘的条件图片 生成图像。基础模型使用 条件图片,并根据文本提示生成新图片。通过 图片生成器内置了创建条件图片的功能,以及 只需要下载插件模型。
<ph type="x-smartling-placeholder"></ph> 下载 Canny Edge 插件
Canny Edge 插件包含以下配置选项:
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
threshold1 |
迟滞过程的第一个阈值。 | Float |
100 |
threshold2 |
迟滞过程的第二个阈值。 | Float |
200 |
apertureSize |
Sobel 运算符的光圈大小。一般范围在 3-7 之间。 | Integer |
3 |
l2Gradient |
是否使用 L2 范数计算图像梯度幅值, 而不是默认的 L1 范数。 | BOOLEAN |
False |
EdgePluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
如需详细了解这些配置选项的工作原理,请参阅 Canny 边缘检测器。
人脸特征点插件
人脸特征点插件接受来自 MediaPipe Face Markerer 作为使用情况图片。面孔 Markerer 提供单个面部的详细面部网格,用于绘制 面部特征的存在和位置。基础模型使用 映射,并在网格上生成新面孔。
<ph type="x-smartling-placeholder"></ph> 下载人脸特征点插件
人脸特征点插件还需要人脸特征点器 模型 bundle 以创建条件图片。这个 模型包与 人脸特征点任务。
<ph type="x-smartling-placeholder"></ph> 下载人脸特征点模型包
人脸特征点插件包含以下配置选项:
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
minFaceDetectionConfidence |
人脸检测的最低置信度分数 则视为成功 | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
人脸存在的最低置信度分数 得分。 | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
用于设置路径的 BaseOptions 对象
创建条件图片的模型。 |
BaseOptions 对象 |
N/A |
FacePluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
有关这些配置选项工作方式的详细信息,请参阅 人脸特征点标记器任务。
深度插件
Depth 插件接受一个条件图像,用于指定 对象。基础模型根据条件图片来推断大小, 深度,并根据文本生成新图片。 提示。
<ph type="x-smartling-placeholder"></ph> 下载 Depth 插件
Depth 插件还需要深度估算模型来创建条件 图片。
<ph type="x-smartling-placeholder"></ph> 下载深度估算模型
Depth 插件包含以下配置选项:
选项名称 | 说明 | 值范围 | 默认值 |
---|---|---|---|
depthModelBaseOptions |
用于设置路径的 BaseOptions 对象
创建条件图片的模型。 |
BaseOptions 对象 |
N/A |
depthPluginModelBaseOptions |
用于设置路径的 BaseOptions 对象
。 |
BaseOptions 对象 |
N/A |
使用 LoRA 进行自定义
使用 LoRA 自定义模型可以启用 图片生成器,用于根据特定概念生成图片, 通过唯一词元来标识。采用新的 LoRA 权重之后, 模型就能够生成新概念的图像, 。
创建 LoRA 权重需要使用 特定对象、人物或风格,使模型能够识别 并在生成图像时加以应用。如果您要创建 LoRa 权重, 生成包含特定人物和人脸的图片,请仅在您的
下面是一个使用 图片训练的自定义模型的输出 Teapots: DreamBooth 数据集,使用 令牌“monadikos teapot”:
提示:镜子旁边的一把 Monadikos 茶壶
自定义模型在提示中收到令牌,并注入一个茶壶, 它学会了通过 LoRA 权重进行描述, 按照提示中的要求进行镜像
<ph type="x-smartling-placeholder"></ph> LoRA 与 Vertex AI
有关详情,请参阅自定义 指南, 它使用 Vertex AI 上的 Model Garden 对基础模型应用 LoRA 权重来自定义模型。