คุณสามารถสร้างรูปภาพโดยใช้ Gemini API ด้วยความสามารถแบบมัลติโมดัลในตัวของ Gemini หรือ Imagen ซึ่งเป็นโมเดลการสร้างรูปภาพที่เชี่ยวชาญของ Google สําหรับกรณีการใช้งานส่วนใหญ่ ให้เริ่มต้นด้วย Gemini เลือก Imagen สำหรับงานที่เฉพาะเจาะจงซึ่งคุณภาพของรูปภาพมีความสำคัญ ดูคําแนะนําเพิ่มเติมได้ในส่วนการเลือกรูปแบบที่เหมาะสม
รูปภาพที่สร้างขึ้นทั้งหมดจะมีลายน้ำ SynthID
ก่อนเริ่มต้น
ตรวจสอบว่าคุณใช้โมเดลและเวอร์ชันที่รองรับในการสร้างรูปภาพ
สำหรับ Gemini ให้ใช้การสร้างรูปภาพตัวอย่างของ Gemini 2.0 Flash
สำหรับ Imagen ให้ใช้ Imagen 3 โปรดทราบว่ารูปแบบนี้มีให้บริการในระดับแบบชำระเงินเท่านั้น
คุณสามารถเข้าถึงทั้ง Gemini และ Imagen 3 โดยใช้คลังเดียวกัน
สร้างรูปภาพโดยใช้ Gemini
Gemini สามารถสร้างและประมวลผลรูปภาพจากการสนทนาได้ คุณสามารถแจ้ง Gemini ด้วยข้อความ รูปภาพ หรือทั้ง 2 อย่างร่วมกันเพื่อทำงานต่างๆ เกี่ยวกับรูปภาพ เช่น การสร้างและแก้ไขรูปภาพ
คุณต้องใส่ responseModalities
: ["TEXT", "IMAGE"]
ในการกำหนดค่า โมเดลเหล่านี้ไม่รองรับเอาต์พุตรูปภาพเท่านั้น
การสร้างรูปภาพ (การเปลี่ยนข้อความเป็นรูปภาพ)
โค้ดต่อไปนี้แสดงวิธีสร้างรูปภาพตามพรอมต์ที่สื่อความหมาย
Python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64
client = genai.Client()
contents = ('Hi, can you create a 3d rendered image of a pig '
'with wings and a top hat flying over a happy '
'futuristic scifi city with lots of greenery?')
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=contents,
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO((part.inline_data.data)))
image.save('gemini-native-image.png')
image.show()
JavaScript
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const contents =
"Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?";
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-preview-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
Go
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-preview-image-generation",
genai.Text("Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?"),
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
REST
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
]
}],
"generationConfig":{"responseModalities":["TEXT","IMAGE"]}
}' \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-native-image.png

การแก้ไขรูปภาพ (ข้อความและรูปภาพต่อรูปภาพ)
หากต้องการแก้ไขรูปภาพ ให้เพิ่มรูปภาพเป็นอินพุต ตัวอย่างต่อไปนี้แสดงการอัปโหลดรูปภาพที่เข้ารหัส Base64 สำหรับรูปภาพหลายรูปและเพย์โหลดขนาดใหญ่ ให้ดูที่ส่วนอินพุตรูปภาพ
Python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import PIL.Image
image = PIL.Image.open('/path/to/image.png')
client = genai.Client()
text_input = ('Hi, This is a picture of me.'
'Can you add a llama next to me?',)
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=[text_input, image],
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.show()
JavaScript
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
// Load the image from the local file system
const imagePath = "path/to/image.png";
const imageData = fs.readFileSync(imagePath);
const base64Image = imageData.toString("base64");
// Prepare the content parts
const contents = [
{ text: "Can you add a llama next to the image?" },
{
inlineData: {
mimeType: "image/png",
data: base64Image,
},
},
];
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-preview-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
Go
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
imagePath := "/path/to/image.png"
imgData, _ := os.ReadFile(imagePath)
parts := []*genai.Part{
genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
&genai.Part{
InlineData: &genai.Blob{
MIMEType: "image/png",
Data: imgData,
},
},
}
contents := []*genai.Content{
genai.NewContentFromParts(parts, genai.RoleUser),
}
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-preview-image-generation",
contents,
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
REST
IMG_PATH=/path/to/your/image1.jpeg
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
B64FLAGS="--input"
else
B64FLAGS="-w0"
fi
IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d "{
\"contents\": [{
\"parts\":[
{\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
{
\"inline_data\": {
\"mime_type\":\"image/jpeg\",
\"data\": \"$IMG_BASE64\"
}
}
]
}],
\"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
}" \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-edited-image.png
โหมดการสร้างรูปภาพอื่นๆ
Gemini รองรับโหมดการโต้ตอบกับรูปภาพอื่นๆ ตามโครงสร้างพรอมต์และบริบท ซึ่งรวมถึง
- ข้อความเป็นรูปภาพและข้อความ (สลับกัน): แสดงผลรูปภาพที่มีข้อความที่เกี่ยวข้อง
- ตัวอย่างพรอมต์: "สร้างสูตรอาหารพร้อมภาพสำหรับข้าวผัดพริกปาเอลยา"
- รูปภาพและข้อความเป็นรูปภาพและข้อความ (สลับกัน): ใช้รูปภาพและข้อความที่ป้อนเพื่อสร้างรูปภาพและข้อความใหม่ที่เกี่ยวข้อง
- ตัวอย่างพรอมต์: (มีรูปภาพห้องที่มีเฟอร์นิเจอร์) "โซฟาสีอื่นใดที่เข้ากับพื้นที่ของฉันได้บ้าง คุณอัปเดตรูปภาพได้ไหม"
- การแก้ไขรูปภาพแบบหลายรอบ (แชท): สร้าง / แก้ไขรูปภาพได้อย่างต่อเนื่องในบทสนทนา
- ตัวอย่างพรอมต์: [อัปโหลดรูปภาพรถสีน้ำเงิน] , "เปลี่ยนรถคันนี้เป็นรถเปิดประทุน", "ตอนนี้เปลี่ยนเป็นสีเหลือง"
ข้อจำกัด
- ใช้ภาษาต่อไปนี้เพื่อประสิทธิภาพที่ดีที่สุด ได้แก่ อังกฤษ สเปน (เม็กซิโก) ญี่ปุ่น จีน (จีน) และฮินดี (อินเดีย)
- การสร้างรูปภาพไม่รองรับอินพุตเสียงหรือวิดีโอ
- การสร้างรูปภาพอาจไม่ทริกเกอร์ในกรณีต่อไปนี้เสมอไป
- โมเดลอาจแสดงผลเป็นข้อความเท่านั้น ลองขอเอาต์พุตรูปภาพอย่างชัดเจน (เช่น "สร้างรูปภาพ" "ระบุรูปภาพไปเรื่อยๆ" "อัปเดตรูปภาพ")
- โมเดลอาจหยุดสร้างกลางคัน ลองอีกครั้งหรือลองใช้พรอมต์อื่น
- เมื่อสร้างข้อความสำหรับรูปภาพ Gemini จะทำงานได้ดีที่สุดหากคุณสร้างข้อความก่อนแล้วจึงขอรูปภาพที่มีข้อความ
- การสร้างรูปภาพไม่พร้อมใช้งานในบางภูมิภาค/ประเทศ ดูข้อมูลเพิ่มเติมได้ที่รุ่น
สร้างรูปภาพโดยใช้ Imagen 3
ตัวอย่างนี้แสดงการสร้างรูปภาพด้วย Imagen 3
Python
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Robot holding a red skateboard',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
JavaScript
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const response = await ai.models.generateImages({
model: 'imagen-3.0-generate-002',
prompt: 'Robot holding a red skateboard',
config: {
numberOfImages: 4,
},
});
let idx = 1;
for (const generatedImage of response.generatedImages) {
let imgBytes = generatedImage.image.imageBytes;
const buffer = Buffer.from(imgBytes, "base64");
fs.writeFileSync(`imagen-${idx}.png`, buffer);
idx++;
}
}
main();
Go
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateImagesConfig{
NumberOfImages: 4,
}
response, _ := client.Models.GenerateImages(
ctx,
"imagen-3.0-generate-002",
"Robot holding a red skateboard",
config,
)
for n, image := range response.GeneratedImages {
fname := fmt.Sprintf("imagen-%d.png", n)
_ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
}
}
REST
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"instances": [
{
"prompt": "Robot holding a red skateboard"
}
],
"parameters": {
"sampleCount": 4
}
}'

พารามิเตอร์โมเดล Imagen
ปัจจุบัน Imagen รองรับพรอมต์ภาษาอังกฤษเท่านั้นและพารามิเตอร์ต่อไปนี้
numberOfImages
: จำนวนรูปภาพที่จะสร้าง ตั้งแต่ 1 ถึง 4 (รวม) ค่าเริ่มต้นคือ 4aspectRatio
: เปลี่ยนสัดส่วนภาพของรูปภาพที่สร้างขึ้น ค่าที่รองรับคือ"1:1"
,"3:4"
,"4:3"
,"9:16"
และ"16:9"
โดยมีค่าเริ่มต้นเป็น"1:1"
personGeneration
: อนุญาตให้โมเดลสร้างรูปภาพคน ค่าที่รองรับมีดังนี้"DONT_ALLOW"
: บล็อกการสร้างรูปภาพคน"ALLOW_ADULT"
: สร้างรูปภาพผู้ใหญ่ แต่ไม่ใช่รูปภาพเด็ก ซึ่งเป็นค่าเริ่มต้น
การเลือกรูปแบบที่เหมาะสม
เลือก Gemini ในกรณีต่อไปนี้
- คุณต้องมีรูปภาพที่มีความเกี่ยวข้องตามบริบทซึ่งใช้ประโยชน์จากความรู้และเหตุผลของโลก
- การผสมผสานข้อความและรูปภาพอย่างลงตัวเป็นสิ่งสําคัญ
- คุณต้องการฝังภาพที่มีความแม่นยำภายในลำดับข้อความที่ยาว
- คุณต้องการแก้ไขรูปภาพในเชิงสนทนาโดยคงบริบทไว้
เลือก Imagen 3 ในกรณีต่อไปนี้
- คุณภาพรูปภาพ ภาพถ่ายสมจริง รายละเอียดทางศิลปะ หรือสไตล์ที่เฉพาะเจาะจง (เช่น อิมเพรสชันนิสม์ อะนิเมะ) เป็นสิ่งที่สำคัญที่สุด
- ทำงานด้านการแก้ไขเฉพาะทาง เช่น การอัปเดตพื้นหลังของผลิตภัณฑ์หรือการเพิ่มขนาดรูปภาพ
- การใส่แบรนด์ สไตล์ หรือสร้างโลโก้และการออกแบบผลิตภัณฑ์
คู่มือการใช้พรอมต์ของ Imagen
ส่วนนี้ของคู่มือ Imagen แสดงวิธีแก้ไขพรอมต์การแปลงข้อความเป็นรูปภาพเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน พร้อมตัวอย่างรูปภาพที่คุณสามารถสร้างได้
ข้อมูลเบื้องต้นเกี่ยวกับการเขียนพรอมต์
พรอมต์ที่ดีจะสื่อความหมายชัดเจน และใช้คีย์เวิร์ดและตัวแก้ไขที่มีความหมาย เริ่มต้นด้วยการพิจารณาหัวข้อ บริบท และสไตล์

เรื่อง: สิ่งแรกที่ต้องคำนึงถึงสำหรับพรอมต์ใดๆ คือเรื่อง ซึ่งก็คือวัตถุ บุคคล สัตว์ หรือฉากที่ต้องการถ่ายภาพ
บริบทและพื้นหลัง: พื้นหลังหรือบริบทที่ใช้วางวัตถุก็สำคัญไม่แพ้กัน ลองวางวัตถุในพื้นหลังที่หลากหลาย เช่น สตูดิโอที่มีพื้นหลังสีขาว กลางแจ้ง หรือสภาพแวดล้อมในอาคาร
สไตล์: สุดท้าย ให้เพิ่มสไตล์รูปภาพที่ต้องการ สไตล์อาจเป็นแบบทั่วไป (ภาพวาด รูปถ่าย ภาพร่าง) หรือเฉพาะเจาะจงมาก (ภาพวาดสีพาสเทล ภาพวาดถ่าน 3 มิติแบบ Isometric) นอกจากนี้ คุณยังรวมสไตล์เข้าด้วยกันได้ด้วย
หลังจากเขียนพรอมต์เวอร์ชันแรกแล้ว ให้ปรับแต่งพรอมต์โดยเพิ่มรายละเอียดเพิ่มเติมจนกว่าจะได้รูปภาพที่ต้องการ การทำซ้ำเป็นสิ่งสําคัญ เริ่มต้นด้วยการกำหนดแนวคิดหลัก จากนั้นปรับแต่งและขยายแนวคิดหลักนั้นจนกว่ารูปภาพที่สร้างขึ้นจะใกล้เคียงกับภาพที่คุณเห็น
![]() |
![]() |
![]() |
Imagen 3 สามารถเปลี่ยนไอเดียของคุณให้เป็นรูปภาพที่มีรายละเอียด ไม่ว่าพรอมต์จะสั้นหรือยาวและละเอียด ปรับแต่งวิสัยทัศน์ของคุณผ่านพรอมต์แบบซ้ำๆ เพิ่มรายละเอียดจนกว่าจะได้ผลลัพธ์ที่สมบูรณ์แบบ
พรอมต์แบบสั้นช่วยให้คุณสร้างรูปภาพได้อย่างรวดเร็ว ![]() |
พรอมต์ที่ยาวขึ้นจะช่วยให้คุณเพิ่มรายละเอียดที่เฉพาะเจาะจงและสร้างรูปภาพได้ ![]() |
คำแนะนำเพิ่มเติมในการเขียนพรอมต์สำหรับ Imagen
- ใช้ภาษาที่สื่อความหมาย: ใช้คำคุณศัพท์และคำวิเศษณ์ที่ละเอียดเพื่ออธิบายภาพให้ชัดเจนสำหรับ Imagen 3
- ระบุบริบท: ระบุข้อมูลเบื้องต้นเพื่อช่วยให้ AI ทำความเข้าใจได้ง่ายขึ้น หากจำเป็น
- อ้างอิงศิลปินหรือสไตล์ที่เฉพาะเจาะจง: หากคุณมีสไตล์ที่ต้องการอยู่แล้ว การอ้างอิงศิลปินหรือการเคลื่อนไหวทางศิลปะที่เฉพาะเจาะจงอาจมีประโยชน์
- ใช้เครื่องมือวิศวกรรมพรอมต์: ลองสำรวจเครื่องมือหรือแหล่งข้อมูลวิศวกรรมพรอมต์เพื่อช่วยปรับแต่งพรอมต์และบรรลุผลลัพธ์ที่ดีที่สุด
- การปรับแต่งรายละเอียดใบหน้าในรูปภาพส่วนตัวและรูปหมู่: ระบุรายละเอียดใบหน้าเป็นจุดสนใจของรูปภาพ (เช่น ใช้คำว่า "ภาพบุคคล" ในพรอมต์)
สร้างข้อความในรูปภาพ
Imagen สามารถเพิ่มข้อความลงในรูปภาพ ซึ่งจะเปิดโอกาสให้สร้างรูปภาพได้สร้างสรรค์มากขึ้น ใช้คําแนะนําต่อไปนี้เพื่อใช้ประโยชน์สูงสุดจากฟีเจอร์นี้
- ทำซ้ำอย่างมั่นใจ: คุณอาจต้องสร้างรูปภาพอีกครั้งจนกว่าจะได้รูปภาพที่ต้องการ การผสานรวมข้อความของ Imagen ยังอยู่ระหว่างการพัฒนา และบางครั้งการลองหลายครั้งจะให้ผลลัพธ์ที่ดีที่สุด
- สั้นกระชับ: จำกัดข้อความให้มีอักขระไม่เกิน 25 ตัวเพื่อให้ได้ชิ้นงานที่ดีที่สุด
วลีหลายรายการ: ทดลองใช้วลีที่แตกต่างกัน 2-3 วลีเพื่อระบุข้อมูลเพิ่มเติม หลีกเลี่ยงการใช้วลีเกิน 3 วลีเพื่อให้การเรียบเรียงชัดเจนขึ้น
พรอมต์: โปสเตอร์ที่มีข้อความ "Summerland" เป็นชื่อด้วยแบบอักษรตัวหนา ใต้ข้อความนี้คือสโลแกน "Summer never felt so good" แนะนำตำแหน่ง: แม้ว่า Imagen จะพยายามจัดตำแหน่งข้อความตามที่ระบุ แต่อาจมีการปรับเปลี่ยนเป็นครั้งคราว ฟีเจอร์นี้ได้รับการปรับปรุงอย่างต่อเนื่อง
รูปแบบอักษรที่เป็นแรงบันดาลใจ: ระบุรูปแบบอักษรทั่วไปเพื่อมีอิทธิพลต่อตัวเลือกของ Imagen อย่างละเอียด อย่าคาดหวังการจำลองแบบอักษรที่แม่นยำ แต่ให้คาดหวังการตีความที่สร้างสรรค์
ขนาดแบบอักษร: ระบุขนาดแบบอักษรหรือตัวบ่งชี้ขนาดทั่วไป (เช่น เล็ก กลาง ใหญ่) เพื่อกำหนดขนาดแบบอักษร
การพารามิเตอร์พรอมต์
คุณอาจพบว่าการกำหนดพารามิเตอร์อินพุตใน Imagen มีประโยชน์ในการควบคุมผลลัพธ์เอาต์พุตได้ดียิ่งขึ้น ตัวอย่างเช่น สมมติว่าคุณต้องการให้ลูกค้าสร้างโลโก้สําหรับธุรกิจได้ และคุณต้องการตรวจสอบว่าระบบจะสร้างโลโก้บนพื้นหลังสีพื้นเสมอ นอกจากนี้ คุณยังจํากัดตัวเลือกที่ลูกค้าเลือกจากเมนูได้ด้วย
ในตัวอย่างนี้ คุณสามารถสร้างพรอมต์ที่มีพารามิเตอร์ซึ่งคล้ายกับตัวอย่างต่อไปนี้
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.
ในอินเทอร์เฟซผู้ใช้ที่กําหนดเอง ลูกค้าสามารถป้อนพารามิเตอร์ได้โดยใช้เมนู และค่าที่เลือกจะแสดงในพรอมต์ที่ Imagen ได้รับ
เช่น
พรอมต์:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
พรอมต์:
A modern logo for a software company on a solid color background. Include the text Silo.
พรอมต์:
A traditional logo for a baking company on a solid color background. Include the text Seed.
เทคนิคขั้นสูงในการเขียนพรอมต์
ใช้ตัวอย่างต่อไปนี้เพื่อสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นตามแอตทริบิวต์ เช่น ตัวบ่งชี้การถ่ายภาพ รูปร่างและวัสดุ การเคลื่อนไหวของศิลปะในประวัติศาสตร์ และตัวแก้ไขคุณภาพรูปภาพ
การถ่ายภาพ
- พรอมต์ประกอบด้วย "รูปภาพ..."
หากต้องการใช้สไตล์นี้ ให้เริ่มต้นด้วยการใช้คีย์เวิร์ดที่บอก Imagen อย่างชัดเจนว่าคุณกำลังมองหารูปภาพ เริ่มต้นพรอมต์ด้วยข้อความ "รูปภาพ . ." เช่น
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
อุปกรณ์เสริมสำหรับถ่ายภาพ
ในตัวอย่างต่อไปนี้ คุณจะเห็นตัวแก้ไขและพารามิเตอร์เฉพาะสำหรับงานถ่ายภาพหลายรายการ คุณรวมตัวแก้ไขหลายรายการเข้าด้วยกันเพื่อให้ควบคุมได้แม่นยำยิ่งขึ้น
ระยะใกล้ของกล้อง - ภาพระยะใกล้ที่ถ่ายจากระยะไกล
พรอมต์: รูปภาพระยะใกล้ของเมล็ดกาแฟ พรอมต์: รูปภาพซูมออกของถุง
เมล็ดกาแฟขนาดเล็กในห้องครัวที่รกตำแหน่งกล้อง - ภาพถ่ายจากมุมสูงจากด้านล่าง
พรอมต์: ภาพถ่ายทางอากาศของเมืองที่มีตึกระฟ้า พรอมต์: รูปภาพเรือนยอดป่าที่มีท้องฟ้าสีฟ้าจากด้านล่าง การจัดแสง - แสงธรรมชาติ แสงจัดจ้า อบอุ่น เย็น
พรอมต์: รูปภาพอาร์มแชร์โมเดิร์นในสตูดิโอ แสงธรรมชาติ พรอมต์: รูปภาพอาร์มแชร์สมัยใหม่ในสตูดิโอ การจัดแสงให้ดูมีมิติ การตั้งค่ากล้อง - เบลอการเคลื่อนไหว โฟกัสนุ่ม โบเก้ ภาพบุคคล
พรอมต์: รูปภาพเมืองที่มีตึกระฟ้าจากภายในรถที่มีภาพเบลอจากการเคลื่อนไหว พรอมต์: ภาพถ่ายแบบซอฟต์โฟกัสของสะพานในเมืองตอนกลางคืน ประเภทเลนส์ - 35 มม., 50 มม., ฟิชอาย, มุมกว้าง, มาโคร
พรอมต์: รูปภาพใบไม้, เลนส์มาโคร พรอมต์: ภาพถ่ายถนน, นิวยอร์กซิตี้, เลนส์ฟิชอาย ประเภทฟิล์ม - ขาวดํา โพลารอยด์
พรอมต์: ภาพบุคคลแบบโพลารอยด์ของสุนัขสวมแว่นกันแดด พรอมต์: รูปภาพขาวดำของสุนัขสวมแว่นกันแดด
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ภาพประกอบและศิลปะ
- พรอมต์มี "painting ของ..." "sketch ของ..."
รูปแบบศิลปะมีตั้งแต่โมโนโครม เช่น ภาพสเก็ตช์ดินสอ ไปจนถึงศิลปะดิจิทัลที่สมจริง ตัวอย่างเช่น รูปภาพต่อไปนี้ใช้พรอมต์เดียวกันแต่มีสไตล์ต่างกัน
"[art style or creation technique] ของรถซีดานไฟฟ้าทรงเหลี่ยมที่ดูสปอร์ตโดยมีตึกระฟ้าเป็นฉากหลัง"
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 2
รูปร่างและวัสดุ
- พรอมต์มี "...made of..." "...มีรูปร่างเป็น..."
จุดแข็งอย่างหนึ่งของเทคโนโลยีนี้คือคุณสามารถสร้างภาพซึ่งทำได้ยากหรือเป็นไปไม่ได้ เช่น คุณอาจสร้างโลโก้บริษัทขึ้นมาใหม่ในวัสดุและพื้นผิวต่างๆ
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ข้อมูลอ้างอิงเกี่ยวกับงานศิลปะในอดีต
- พรอมต์มีข้อความว่า "...ในสไตล์ของ..."
สไตล์บางสไตล์กลายเป็นสัญลักษณ์ในช่วงหลายปีที่ผ่านมา ต่อไปนี้คือตัวอย่างแนวคิดภาพวาดประวัติศาสตร์หรือสไตล์ศิลปะที่คุณลองใช้ได้
"สร้างรูปภาพในสไตล์ [art period or movement] : ฟาร์มพลังงานลม"
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ตัวแก้ไขคุณภาพรูปภาพ
คีย์เวิร์ดบางรายการช่วยให้โมเดลทราบว่าคุณกําลังมองหาชิ้นงานคุณภาพสูง ตัวอย่างตัวแก้ไขคุณภาพมีดังนี้
- ตัวแก้ไขทั่วไป - คุณภาพสูง สวยงาม มีสไตล์
- รูปภาพ - 4K, HDR, รูปภาพระดับสตูดิโอ
- อาร์ตเวิร์ก ภาพ - โดยผู้เชี่ยวชาญที่ละเอียด
ต่อไปนี้คือตัวอย่างพรอมต์ที่ไม่มีตัวแก้ไขคุณภาพและพรอมต์เดียวกันที่มีตัวแก้ไขคุณภาพ
![]() |
![]() ถ่ายโดย ช่างภาพมืออาชีพ |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
สัดส่วนภาพ
การสร้างรูปภาพด้วย Imagen 3 ช่วยให้คุณกำหนดสัดส่วนรูปภาพที่แตกต่างกันได้ 5 แบบ
- สี่เหลี่ยมจัตุรัส (1:1, ค่าเริ่มต้น) - รูปภาพสี่เหลี่ยมจัตุรัสมาตรฐาน การใช้งานทั่วไปสําหรับสัดส่วนภาพนี้คือโพสต์โซเชียลมีเดีย
เต็มหน้าจอ (4:3) - สัดส่วนภาพนี้มักใช้ในสื่อหรือภาพยนตร์ นอกจากนี้ยังเป็นขนาดของทีวีรุ่นเก่าส่วนใหญ่ (ไม่ใช่หน้าจอกว้าง) และกล้องขนาดกลาง เนื่องจากสามารถจับภาพฉากแนวนอนได้มากกว่า (เมื่อเทียบกับ 1:1) จึงเป็นสัดส่วนภาพที่เหมาะสำหรับการถ่ายภาพ
พรอมต์: ภาพนิ้วมือนักดนตรีในระยะใกล้ขณะเล่นเปียโน เป็นฟิล์มขาวดํา แนววินเทจ (สัดส่วนภาพ 4:3) พรอมต์: รูปภาพสตูดิโอระดับมืออาชีพของเฟรนช์ฟรายสำหรับร้านอาหารหรูในสไตล์นิตยสารอาหาร (สัดส่วนภาพ 4:3) เต็มหน้าจอแนวตั้ง (3:4) - สัดส่วนภาพแบบเต็มหน้าจอที่บิด 90 องศา วิธีนี้ช่วยให้คุณจับภาพฉากในแนวตั้งได้มากขึ้นเมื่อเทียบกับสัดส่วนภาพ 1:1
พรอมต์: ผู้หญิงกำลังเดินป่า ภาพบู๊ตของเธอในระยะใกล้ที่สะท้อนในแอ่งน้ำ ภูเขาขนาดใหญ่อยู่เบื้องหลัง ถ่ายในสไตล์โฆษณา มุมมองที่สร้างความตื่นเต้น (สัดส่วนภาพ 3:4) พรอมต์: ภาพมุมสูงของแม่น้ำที่ไหลผ่านหุบเขาอันลึกลับ (สัดส่วนภาพ 3:4) จอกว้าง (16:9) - อัตราส่วนนี้เข้ามาแทนที่ 4:3 และกลายเป็นอัตราส่วนที่พบมากที่สุดสำหรับหน้าจอทีวี จอภาพ และหน้าจอโทรศัพท์มือถือ (แนวนอน) ใช้สัดส่วนภาพนี้เมื่อคุณต้องการจับภาพพื้นหลังให้มากขึ้น (เช่น ภูมิทัศน์ที่สวยงาม)
พรอมต์: ชายสวมใส่เสื้อผ้าสีขาวล้วน นั่งอยู่บนชายหาด ถ่ายระยะใกล้ แสงในช่วงทอง (สัดส่วนภาพ 16:9) แนวตั้ง (9:16) - อัตราส่วนนี้เป็นอัตราส่วนแบบจอกว้างแต่มีการหมุน ซึ่งเป็นสัดส่วนภาพที่ค่อนข้างใหม่ซึ่งได้รับความนิยมจากแอปวิดีโอแบบสั้น (เช่น YouTube Shorts) ใช้กับวัตถุสูงที่มีการวางแนวในแนวตั้งอย่างชัดเจน เช่น อาคาร ต้นไม้ น้ำตก หรือวัตถุอื่นๆ ที่คล้ายกัน
พรอมต์: ภาพเรนเดอร์ดิจิทัลของตึกระฟ้าขนาดใหญ่ ทันสมัย ยิ่งใหญ่ อลังการ โดยมีภาพพระอาทิตย์ตกที่สวยงามเป็นพื้นหลัง (สัดส่วนภาพ 9:16)
รูปภาพสมจริง
โมเดลการสร้างรูปภาพเวอร์ชันต่างๆ อาจให้ผลลัพธ์ที่ผสมผสานระหว่างภาพศิลปะและภาพเหมือนจริง ใช้ข้อความต่อไปนี้ในพรอมต์เพื่อสร้างเอาต์พุตที่เหมือนภาพถ่ายมากขึ้น โดยอิงตามหัวข้อที่ต้องการสร้าง
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
บุคคล (ภาพบุคคล) | ไพร์ม ซูม | 24-35 มม. | ฟิล์มขาวดํา, ภาพยนตร์นัวร์, ระยะชัดลึก, โทนสีคู่ (ระบุ 2 สี) |
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง) | มาโคร | 60-105 มม. | รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้ |
กีฬา สัตว์ป่า (การเคลื่อนไหว) | ซูมเทเลโฟโต้ | 100-400 มม. | ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน |
ดาราศาสตร์ แนวนอน (มุมกว้าง) | ไวด์ | 10-24 มม. | การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ |
ภาพพอร์เทรต
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
บุคคล (ภาพบุคคล) | ไพร์ม ซูม | 24-35 มม. | ฟิล์มขาวดํา, ภาพยนตร์นัวร์, ระยะชัดลึก, โทนสีคู่ (ระบุ 2 สี) |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพบุคคลต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ผู้หญิง ภาพบุคคล 35 มม. โมโนโครมสีน้ำเงินและสีเทา
นางแบบ: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: ผู้หญิง ภาพบุคคล 35 มม. ฟิล์มนัวร์
นางแบบ: imagen-3.0-generate-002
วัตถุ
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง) | มาโคร | 60-105 มม. | รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้ |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพวัตถุต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ใบของต้นกวนอิม, เลนส์มาโคร, 60 มม.
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: จานพาสต้า เลนส์มาโคร 100 มม.
รุ่น: imagen-3.0-generate-002
การเคลื่อนไหว
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
กีฬา สัตว์ป่า (การเคลื่อนไหว) | ซูมเทเลโฟโต้ | 100-400 มม. | ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพเคลื่อนไหวต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ทัชดาวน์ที่ชนะ ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: กวางวิ่งในป่า ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002
ไวด์
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
ดาราศาสตร์ แนวนอน (มุมกว้าง) | ไวด์ | 10-24 มม. | การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพมุมกว้างต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: เทือกเขาอันกว้างใหญ่ มุมกว้าง 10 มม. แนวนอน
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: รูปภาพดวงจันทร์ ถ่ายภาพดวงดาว มุมกว้าง 10 มม.
รุ่น: imagen-3.0-generate-002
ขั้นตอนถัดไป
- ดูคู่มือ Veo เพื่อดูวิธีสร้างวิดีโอด้วย Gemini API
- ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Gemini 2.0 ได้ที่หัวข้อโมเดล Gemini และโมเดลเวอร์ชันทดลอง