如需使用 Imagen,您必须提供要生成的内容的文本说明。这些说明称为“提示”,这些提示是您与 Imagen 进行通信的主要方式。
本指南介绍了修改文本转图片提示的部分内容会如何产生不同的结果,并举例说明了您可以创建的图片。
提示撰写基本知识(主体、背景和风格)
虽然可以通过多种方式撰写较好的提示,但添加一些关键字和修饰符可以帮助您更接近最终目标。提示不需要很长或复杂,但大多数良好的提示都具有描述性,并且清晰明了。
您不妨先考虑主体、上下文和风格。
![强调主体、背景和风格的提示](https://ai.google.dev/static/gemini-api/docs/images/imagen/style-subject-context.png?hl=zh-cn)
主体:对于任何提示,首先要考虑的都是主体:对象、人物、动物或场景。
背景和环境:与主体所处的背景或环境一样重要。请尝试将主体置于各种背景下。例如,白色背景、户外或室内环境下的工作室。
样式:最后,添加所需图片的样式。样式可以是常规内容(绘画、照片、草图),也可以是非常具体的内容(色粉画、木炭画、无透视三维绘图)。您还可以组合使用多种样式。
写出初始版本的提示后,请添加更多详细信息来优化提示,直到获得所需的图片。迭代很重要。 首先确定核心创意,然后对其进行优化和扩展,直到生成的图片接近您的预期效果。
![]() |
![]() |
![]() |
Imagen 3 提示撰写
无论您的提示是简短还是详尽,Imagen 3 都能将您的想法转化为详细的图片。通过迭代提示来优化您的构想,添加细节,直到获得理想的结果。
通过简短的提示,您可以快速生成图片。 ![]() |
通过更长的提示,您可以添加具体细节并构建图片。 ![]() |
有关 Imagen 3 提示撰写的其他建议:
- 使用描述性语言:使用详细的形容词和副词,为 Imagen 3 描绘一幅清晰的画面。
- 提供背景信息:根据需要,添加背景信息以帮助 AI 理解。
- 参考特定艺术家或风格:如果您有特定的审美取向,参考特定艺术家或艺术运动可能会有所帮助。
- 使用提示工程工具:不妨探索提示工程工具或资源,以帮助您优化提示并取得理想的结果。
- 美化个人和合影照片中的面部细节:
- 将面部细节指定为照片的重点(例如,在提示中使用“肖像”一词)。
在图片中生成文本
Imagen 3 能够在图片中添加文字,从而为生成富有创意的图片提供了可能。请遵循以下指南,充分利用此功能:
- 自信地迭代:您可能需要重新生成图片,直到获得所需的外观。Imagen 的文本集成功能仍在不断发展,有时需要多次尝试才能获得最佳结果。
- 保持简短:请将文字限制在 25 个字符以内,以便系统生成最佳内容。
多个短语:尝试使用两个或三个不同的短语来提供更多信息。为使组成更简洁,请避免超过三个短语。
问题:一张海报,其中“Summerland”一词以粗体字作为标题,下方是口号“Summer never felt so good” 引导式放置:虽然 Imagen 会尝试按照指示放置文字,但偶尔也会出现变化。我们会不断改进此功能。
启发字体样式:指定常规字体样式,以巧妙地影响 Imagen 的选择。不要依赖于精确的字体复制,而是期待富有创意的诠释。
字体大小:指定字体大小或大小的一般指示(例如小、中、大),以影响字体大小的生成。
提示参数化
为了更好地控制输出结果,您可能需要将输入参数化为 Imagen。例如,假设您希望客户能够为其商家生成徽标,并且您希望确保徽标始终在纯色背景上生成。您还希望限制客户可以从菜单中选择的选项。
在此示例中,您可以创建类似以下的参数化提示:
A{logo_style} logo for a{company_area} company on a solid color background. Include the text{company_name} .
在您的自定义界面中,客户可以使用菜单输入参数,系统会将其选择的值填充到 Imagen 收到的提示中。
例如:
提示:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
提示:
A modern logo for a software company on a solid color background. Include the text Silo.
提示:
A traditional logo for a baking company on a solid color background. Include the text Seed.
风格:摄影
- 提示包括:“...的照片”
如需使用此风格,请先使用能明确告知 Imagen 您要查找的是照片的关键字。提示开头是“一张. . . 的照片”。例如:
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应文本提示和 Imagen 3 模型生成的。
样式:插图和艺术
- 提示包括:“...的 painting”、“...的 sketch”
艺术风格各不相同,从铅笔素描等单色风格到超现实的数字艺术均有。例如,以下图片使用相同提示而使用不同风格:
一辆背景是摩天大楼的棱角分明的运动型电动轿车的 [art style or creation technique]
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应文本提示和 Imagen 2 模型生成的。
高级提示撰写技术
使用以下示例根据属性创建更具体的提示:摄影描述符、形状和材料、历史艺术运动和图像质量修饰符。
摄影修饰符
在以下示例中,您可以看到多个专用于照片的修饰符和参数。您可以组合使用多个修饰符,以实现更精确的控制。
相机邻近性 - 特写,从远处拍摄
提示:咖啡豆的特写照片 提示:一张
凌乱厨房中一小袋咖啡豆的缩小照片相机位置 - 航拍、仰拍
提示:摩天大楼的航拍照片 提示:森林覆盖蓝天的仰拍照片 光线 - 自然、舞台、暖、冷
提示:现代扶手椅的工作室照片,自然光线 提示:现代扶手椅的工作室照片,舞台灯光 相机设置 - 运动模糊、柔焦、焦外成像、人像
提示:从车内拍摄的城市摩天大楼照片,运动模糊 提示:夜间城市一座桥梁的柔焦照片 镜头类型 - 35 毫米、50 毫米、鱼眼、广角、微距
提示:叶子的照片,微距镜头 提示:街道摄影、纽约市、鱼眼镜头 胶片类型 - 黑白、拍立得
提示:戴眼镜的狗的拍立得人像模式照片 提示:戴眼镜的狗的黑白照片
图片来源:每张图片都是使用相应文本提示和 Imagen 3 模型生成的。
形状和材料
- 提示包括:“...制作的...”、“...形状的…”
这项技术的一大优势是您可以创建难以实现或无法实现的图像。例如,您可以用不同的材料和纹理重新创建公司徽标。
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应文本提示和 Imagen 3 模型生成的。
历史艺术参考
- 提示包括:“...风格的...”
多年来,某些风格已经成为标志。以下是一些您可以尝试的历史绘图或艺术风格。
“生成[art period or movement] 风格图片:风力发电场”
![]() |
![]() |
![]() |
图片来源:每张图片都是使用相应文本提示和 Imagen 3 模型生成的。
图片质量修饰符
某些关键字可使模型知道您正在寻找高质量的资源。质量修饰符的示例包括:
- 常规修饰符 - 高品质、精美、风格化
- 照片 - 4K、HDR、摄影棚照片
- 艺术、插图 - 由专业的、详细的
以下是几个不带质量修饰符的提示以及带有质量修饰符的相同提示的示例。
![]() |
![]() 玉米秆的照片 由 专业摄影师拍摄 |
图片来源:每张图片都是使用相应文本提示和 Imagen 3 模型生成的。
宽高比
借助 Imagen 3 图片生成,您可以设置五种不同的图片宽高比。
- 方形(1:1,默认值)- 标准方形照片。这种宽高比的常见用途包括社交媒体帖子。
全屏 (4:3) - 这种宽高比通常用于媒体或电影。它也是大多数旧款(非宽屏)电视和中等格式相机的尺寸。它可水平拍摄更多场景(与 1:1 相比),因而成为摄影的首选宽高比。
提示:close up of a musician's fingers playing the piano, black and white film, vintage (4:3 aspect ratio) 提示:高档餐厅的炸玉米饼的专业工作室照片,采用美食杂志的风格(宽高比为 4:3) 纵向全屏 (3:4) - 这是旋转 90 度的全屏宽高比。与 1:1 宽高比相比,这种宽高比可垂直拍摄更多场景。
提示:一位徒步旅行的女士,靴子的近处倒映在水坑中,背景是大山,广告风格,戏剧性的角度(宽高比为 3:4) 提示:aerial shot of a river flowing up a mystical valley (3:4 aspect ratio) 宽屏 (16:9) - 此宽高比已取代 4:3,现在是电视、显示器和手机屏幕(横向)的最常用宽高比。如果您想拍摄更多背景(例如风景),请使用这种宽高比。
提示:a man wearing all white clothing sitting on the beach, close up, golden hour lighting (16:9 aspect ratio) 纵向 (9:16) - 这种宽高比是宽屏,但进行了旋转。这是一种相对较新的宽高比,深受短视频应用(例如 YouTube Shorts)的欢迎。可将这种宽高比用于具有强烈垂直方向的较高对象,例如建筑物、树、瀑布或其他类似对象。
提示:a digital render of a massive skyscraper, modern, grand, epic with a beautiful sunset in the background (9:16 aspect ratio)
逼真图片
图片生成模型的不同版本可以提供具有艺术效果的输出和逼真的输出。根据要生成的主题,在提示中使用以下措辞,以生成更逼真的输出。
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
人物(人像) | 定焦、变焦 | 24-35 毫米 | 黑白胶片、黑色电影、景深、双色调(提及两种颜色) |
食品、昆虫、植物(物体、静物) | 宏 | 60-105 毫米 | 高精度、精准聚焦、控制照明 |
体育运动、野生动物(运动) | 远摄变焦 | 100-400 毫米 | 高速快门、动作或运动追踪 |
天文、风光(广角) | 广角 | 10-24 毫米 | 长曝光、清晰对焦、长曝光、平滑的水或云 |
人像
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
人物(人像) | 定焦、变焦 | 24-35 毫米 | 黑白胶片、黑色电影、景深、双色调(提及两种颜色) |
使用表中的多个关键字,Imagen 可以生成以下人像图片。
![]() |
![]() |
![]() |
![]() |
提示:一个女人、35 毫米人像、蓝色和灰色双色调
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:一个女人、35 毫米人像、黑色电影
模型:imagen-3.0-generate-002
对象
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
食品、昆虫、植物(物体、静物) | 宏 | 60-105 毫米 | 高精度、精准聚焦、控制照明 |
使用表中的多个关键字,Imagen 可以生成以下静物图片。
![]() |
![]() |
![]() |
![]() |
提示:竹芋的叶子、微距镜头、60 毫米
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:一盘意大利面、100 毫米微距镜头
模型:imagen-3.0-generate-002
动画
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
体育运动、野生动物(运动) | 远摄变焦 | 100-400 毫米 | 高速快门、动作或运动追踪 |
使用表中的多个关键字,Imagen 可以生成以下运动图片。
![]() |
![]() |
![]() |
![]() |
提示:致胜的触地得分、高速快门、运动追踪
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:森林中奔跑的鹿、高速快门、运动追踪
模型:imagen-3.0-generate-002
广角
使用场景 | 镜头类型 | 焦距 | 其他详情 |
---|---|---|---|
天文、风光(广角) | 广角 | 10-24 毫米 | 长曝光、清晰对焦、长曝光、平滑的水或云 |
使用表中的多个关键字,Imagen 可以生成以下广角图片。
![]() |
![]() |
![]() |
![]() |
提示:广阔的山脉、10 毫米风光广角
模型:imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
提示:月亮的照片、天文摄影、10 毫米广角
模型:imagen-3.0-generate-002