Gemini API รองรับการสร้างรูปภาพโดยใช้ Gemini 2.0 Flash Experimental และ Imagen 3 คู่มือนี้จะช่วยคุณเริ่มต้นใช้งานทั้ง 2 รุ่น
ดูคำแนะนำเกี่ยวกับพรอมต์รูปภาพได้ที่ส่วนคู่มือการใช้พรอมต์ Imagen
ก่อนเริ่มต้น
ก่อนเรียกใช้ Gemini API โปรดตรวจสอบว่าคุณได้ติดตั้ง SDK ที่ต้องการ รวมถึงกําหนดค่าคีย์ Gemini API ให้พร้อมใช้งานแล้ว
สร้างรูปภาพโดยใช้ Gemini
Gemini 2.0 Flash Experimental รองรับการแสดงผลข้อความและรูปภาพในบรรทัด ซึ่งจะช่วยให้คุณใช้ Gemini เพื่อแก้ไขรูปภาพแบบสนทนาหรือสร้างเอาต์พุตที่มีข้อความแทรกอยู่ได้ (เช่น สร้างบล็อกโพสต์ที่มีข้อความและรูปภาพในรอบเดียว) รูปภาพที่สร้างขึ้นทั้งหมดจะมีลายน้ำ SynthID และรูปภาพใน Google AI Studio จะมีลายน้ำที่มองเห็นได้เช่นกัน
ตัวอย่างต่อไปนี้แสดงวิธีใช้ Gemini 2.0 เพื่อสร้างเอาต์พุตข้อความและรูปภาพ
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64
client = genai.Client()
contents = ('Hi, can you create a 3d rendered image of a pig '
'with wings and a top hat flying over a happy '
'futuristic scifi city with lots of greenery?')
response = client.models.generate_content(
model="gemini-2.0-flash-exp-image-generation",
contents=contents,
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO((part.inline_data.data)))
image.save('gemini-native-image.png')
image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const contents =
"Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?";
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-exp-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-exp-image-generation",
genai.Text("Hi, can you create a 3d rendered image of a pig " +
"with wings and a top hat flying over a happy " +
"futuristic scifi city with lots of greenery?"),
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
]
}],
"generationConfig":{"responseModalities":["TEXT","IMAGE"]}
}' \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-native-image.png

Gemini จะสร้างเนื้อหาในโหมดต่างๆ (ข้อความเป็นรูปภาพ ข้อความเป็นทั้งรูปภาพและข้อความ ฯลฯ) ทั้งนี้ขึ้นอยู่กับพรอมต์และบริบท โดยมีตัวอย่างดังนี้
- การเปลี่ยนข้อความเป็นรูปภาพ
- ตัวอย่างพรอมต์: "สร้างรูปภาพหอไอเฟลที่มีพลุเป็นพื้นหลัง"
- ข้อความเป็นรูปภาพและข้อความ (สลับกัน)
- ตัวอย่างพรอมต์: "สร้างสูตรอาหารพร้อมภาพสำหรับข้าวผัดพริกสเปน"
- รูปภาพและข้อความเป็นรูปภาพและข้อความ (สลับกัน)
- ตัวอย่างพรอมต์: (มีรูปภาพห้องที่มีเฟอร์นิเจอร์) "โซฟาสีอื่นใดที่เหมาะกับพื้นที่ของฉันบ้าง คุณอัปเดตรูปภาพได้ไหม"
- การแก้ไขรูปภาพ (ข้อความและรูปภาพต่อรูปภาพ)
- ตัวอย่างพรอมต์: "แก้ไขรูปภาพนี้ให้ดูเหมือนการ์ตูน"
- ตัวอย่างพรอมต์: [รูปแมว] + [รูปหมอน] + "สร้างงานปักครอสติชรูปแมวของฉันบนหมอนนี้"
- การแก้ไขรูปภาพแบบหลายรอบ (แชท)
- ตัวอย่างพรอมต์: [อัปโหลดรูปภาพรถสีน้ำเงิน] "เปลี่ยนรถคันนี้เป็นรถเปิดประทุน" "ตอนนี้เปลี่ยนเป็นสีเหลือง"
การแก้ไขรูปภาพด้วย Gemini
หากต้องการแก้ไขรูปภาพ ให้เพิ่มรูปภาพเป็นอินพุต ตัวอย่างต่อไปนี้แสดงการอัปโหลดรูปภาพที่เข้ารหัส Base64 สำหรับรูปภาพหลายรูปและเพย์โหลดขนาดใหญ่ ให้ดูที่ส่วนอินพุตรูปภาพ
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import PIL.Image
image = PIL.Image.open('/path/to/image.png')
client = genai.Client()
text_input = ('Hi, This is a picture of me.'
'Can you add a llama next to me?',)
response = client.models.generate_content(
model="gemini-2.0-flash-exp-image-generation",
contents=[text_input, image],
config=types.GenerateContentConfig(
response_modalities=['TEXT', 'IMAGE']
)
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.show()
import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
// Load the image from the local file system
const imagePath = "path/to/image.png";
const imageData = fs.readFileSync(imagePath);
const base64Image = imageData.toString("base64");
// Prepare the content parts
const contents = [
{ text: "Can you add a llama next to the image?" },
{
inlineData: {
mimeType: "image/png",
data: base64Image,
},
},
];
// Set responseModalities to include "Image" so the model can generate an image
const response = await ai.models.generateContent({
model: "gemini-2.0-flash-exp-image-generation",
contents: contents,
config: {
responseModalities: [Modality.TEXT, Modality.IMAGE],
},
});
for (const part of response.candidates[0].content.parts) {
// Based on the part type, either show the text or save the image
if (part.text) {
console.log(part.text);
} else if (part.inlineData) {
const imageData = part.inlineData.data;
const buffer = Buffer.from(imageData, "base64");
fs.writeFileSync("gemini-native-image.png", buffer);
console.log("Image saved as gemini-native-image.png");
}
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
imagePath := "/path/to/image.png"
imgData, _ := os.ReadFile(imagePath)
parts := []*genai.Part{
genai.NewPartFromText("Hi, This is a picture of me. Can you add a llama next to me?"),
&genai.Part{
InlineData: &genai.Blob{
MIMEType: "image/png",
Data: imgData,
},
},
}
contents := []*genai.Content{
genai.NewContentFromParts(parts, genai.RoleUser),
}
config := &genai.GenerateContentConfig{
ResponseModalities: []string{"TEXT", "IMAGE"},
}
result, _ := client.Models.GenerateContent(
ctx,
"gemini-2.0-flash-exp-image-generation",
contents,
config,
)
for _, part := range result.Candidates[0].Content.Parts {
if part.Text != "" {
fmt.Println(part.Text)
} else if part.InlineData != nil {
imageBytes := part.InlineData.Data
outputFilename := "gemini_generated_image.png"
_ = os.WriteFile(outputFilename, imageBytes, 0644)
}
}
}
IMG_PATH=/path/to/your/image1.jpeg
if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
B64FLAGS="--input"
else
B64FLAGS="-w0"
fi
IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d "{
\"contents\": [{
\"parts\":[
{\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
{
\"inline_data\": {
\"mime_type\":\"image/jpeg\",
\"data\": \"$IMG_BASE64\"
}
}
]
}],
\"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
}" \
| grep -o '"data": "[^"]*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-edited-image.png
ข้อจำกัด
- ใช้ภาษาต่อไปนี้เพื่อประสิทธิภาพที่ดีที่สุด ได้แก่ อังกฤษ สเปน (เม็กซิโก) ญี่ปุ่น จีน (จีน) และฮินดี (อินเดีย)
- การสร้างรูปภาพไม่รองรับอินพุตเสียงหรือวิดีโอ
- การสร้างรูปภาพอาจไม่ทริกเกอร์ในกรณีต่อไปนี้เสมอไป
- โมเดลอาจแสดงผลเป็นข้อความเท่านั้น ลองขอเอาต์พุตรูปภาพอย่างชัดเจน (เช่น "สร้างรูปภาพ" "ระบุรูปภาพไปเรื่อยๆ" "อัปเดตรูปภาพ")
- โมเดลอาจหยุดสร้างกลางคัน ลองอีกครั้งหรือลองใช้พรอมต์อื่น
- เมื่อสร้างข้อความสำหรับรูปภาพ Gemini จะทำงานได้ดีที่สุดหากคุณสร้างข้อความก่อนแล้วจึงขอรูปภาพที่มีข้อความ
เลือกรุ่น
คุณควรใช้โมเดลใดในการสร้างรูปภาพ ขึ้นอยู่กับกรณีการใช้งานของคุณ
Gemini 2.0 เหมาะอย่างยิ่งสำหรับการสร้างรูปภาพที่ตรงตามบริบท การผสมผสานข้อความและรูปภาพ การใช้ความรู้ทั่วไป และการหาเหตุผลเกี่ยวกับรูปภาพ คุณสามารถใช้ฟีเจอร์นี้เพื่อสร้างภาพที่มีความแม่นยำและมีความเกี่ยวข้องกับบริบทซึ่งฝังอยู่ในข้อความยาวๆ นอกจากนี้ คุณยังแก้ไขรูปภาพในลักษณะการสนทนาโดยใช้ภาษาที่เป็นธรรมชาติได้ พร้อมกับคงบริบทไว้ตลอดการสนทนา
หากคุณภาพรูปภาพเป็นสิ่งสำคัญที่สุด Imagen 3 จะเป็นตัวเลือกที่ดีกว่า Imagen 3 โดดเด่นในเรื่องภาพเหมือนจริง รายละเอียดทางศิลปะ และสไตล์ศิลปะที่เฉพาะเจาะจง เช่น อิมเพรสชันนิสม์หรืออะนิเมะ นอกจากนี้ Imagen 3 ยังเหมาะสําหรับงานแก้ไขรูปภาพเฉพาะทาง เช่น การอัปเดตพื้นหลังผลิตภัณฑ์ การเพิ่มขนาดรูปภาพ และการใช้การสร้างแบรนด์และสไตล์ในภาพ คุณสามารถใช้ Imagen 3 เพื่อสร้างโลโก้หรือการออกแบบผลิตภัณฑ์อื่นๆ ที่มีแบรนด์
สร้างรูปภาพโดยใช้ Imagen 3
Gemini API ให้สิทธิ์เข้าถึง Imagen 3 ซึ่งเป็นโมเดลการเปลี่ยนข้อความเป็นรูปภาพคุณภาพสูงสุดของ Google ที่มาพร้อมความสามารถใหม่ๆ และความสามารถที่ปรับปรุงแล้วมากมาย Imagen 3 สามารถทำสิ่งต่อไปนี้
- สร้างรูปภาพที่มีรายละเอียดดีขึ้น แสงสว่างมากขึ้น และข้อบกพร่องที่รบกวนสายตาน้อยลงกว่ารุ่นก่อนหน้า
- ทําความเข้าใจพรอมต์ที่เขียนด้วยภาษาที่เป็นธรรมชาติ
- สร้างรูปภาพในหลากหลายรูปแบบและสไตล์
- แสดงผลข้อความได้มีประสิทธิภาพมากกว่ารุ่นก่อนหน้า
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Robot holding a red skateboard',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";
async function main() {
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
const response = await ai.models.generateImages({
model: 'imagen-3.0-generate-002',
prompt: 'Robot holding a red skateboard',
config: {
numberOfImages: 4,
},
});
let idx = 1;
for (const generatedImage of response.generatedImages) {
let imgBytes = generatedImage.image.imageBytes;
const buffer = Buffer.from(imgBytes, "base64");
fs.writeFileSync(`imagen-${idx}.png`, buffer);
idx++;
}
}
main();
package main
import (
"context"
"fmt"
"os"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, _ := genai.NewClient(ctx, &genai.ClientConfig{
APIKey: os.Getenv("GEMINI_API_KEY"),
Backend: genai.BackendGeminiAPI,
})
config := &genai.GenerateImagesConfig{
NumberOfImages: 4,
}
response, _ := client.Models.GenerateImages(
ctx,
"imagen-3.0-generate-002",
"Robot holding a red skateboard",
config,
)
for n, image := range response.GeneratedImages {
fname := fmt.Sprintf("imagen-%d.png", n)
_ = os.WriteFile(fname, image.Image.ImageBytes, 0644)
}
}
curl -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"instances": [
{
"prompt": "Robot holding a red skateboard"
}
],
"parameters": {
"sampleCount": 4
}
}'

ปัจจุบัน Imagen รองรับพรอมต์ภาษาอังกฤษเท่านั้นและพารามิเตอร์ต่อไปนี้
พารามิเตอร์โมเดล Imagen
(แบบแผนการตั้งชื่อจะแตกต่างกันไปตามภาษาโปรแกรม)
numberOfImages
: จํานวนรูปภาพที่จะสร้าง ตั้งแต่ 1 ถึง 4 (รวม) ค่าเริ่มต้นคือ 4aspectRatio
: เปลี่ยนสัดส่วนภาพของรูปภาพที่สร้างขึ้น ค่าที่รองรับคือ"1:1"
,"3:4"
,"4:3"
,"9:16"
และ"16:9"
โดยมีค่าเริ่มต้นเป็น"1:1"
personGeneration
: อนุญาตให้โมเดลสร้างรูปภาพคน ค่าที่รองรับมีดังนี้"DONT_ALLOW"
: บล็อกการสร้างรูปภาพคน"ALLOW_ADULT"
: สร้างรูปภาพผู้ใหญ่ แต่ไม่สร้างรูปภาพเด็ก ซึ่งเป็นค่าเริ่มต้น
คู่มือการใช้พรอมต์ของ Imagen
ส่วนนี้ของคู่มือ Imagen แสดงวิธีแก้ไขพรอมต์การแปลงข้อความเป็นรูปภาพเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน พร้อมตัวอย่างรูปภาพที่คุณสามารถสร้างได้
พื้นฐานการเขียนพรอมต์
พรอมต์ที่ดีจะอธิบายได้ชัดเจน และใช้คีย์เวิร์ดและตัวแก้ไขที่มีความหมาย เริ่มต้นด้วยการพิจารณาหัวข้อ บริบท และสไตล์

เรื่อง: สิ่งแรกที่ต้องคำนึงถึงสำหรับพรอมต์ใดๆ คือเรื่อง ซึ่งก็คือวัตถุ บุคคล สัตว์ หรือฉากที่ต้องการถ่ายภาพ
บริบทและพื้นหลัง: พื้นหลังหรือบริบทที่ใช้วางวัตถุก็สำคัญไม่แพ้กัน ลองวางวัตถุในพื้นหลังที่หลากหลาย เช่น สตูดิโอที่มีพื้นหลังสีขาว กลางแจ้ง หรือสภาพแวดล้อมในอาคาร
สไตล์: สุดท้าย ให้เพิ่มสไตล์รูปภาพที่ต้องการ สไตล์อาจเป็นแบบทั่วไป (ภาพวาด รูปภาพ ภาพสเก็ตช์) หรือเฉพาะเจาะจงมาก (ภาพวาดสีพาสเทล ภาพวาดถ่าน 3 มิติแบบ Isometric) นอกจากนี้ คุณยังรวมสไตล์เข้าด้วยกันได้ด้วย
หลังจากเขียนพรอมต์เวอร์ชันแรกแล้ว ให้ปรับแต่งพรอมต์โดยเพิ่มรายละเอียดเพิ่มเติมจนกว่าจะได้รูปภาพที่ต้องการ การทำซ้ำเป็นสิ่งสําคัญ เริ่มต้นด้วยการกำหนดแนวคิดหลัก จากนั้นปรับแต่งและขยายแนวคิดหลักนั้นจนกว่ารูปภาพที่สร้างขึ้นจะใกล้เคียงกับภาพที่คุณเห็น
![]() |
![]() |
![]() |
Imagen 3 สามารถเปลี่ยนไอเดียของคุณให้เป็นรูปภาพที่มีรายละเอียด ไม่ว่าพรอมต์จะสั้นหรือยาวและละเอียด ปรับแต่งวิสัยทัศน์ของคุณผ่านพรอมต์แบบซ้ำๆ เพิ่มรายละเอียดจนกว่าจะได้ผลลัพธ์ที่สมบูรณ์แบบ
พรอมต์แบบสั้นช่วยให้คุณสร้างรูปภาพได้อย่างรวดเร็ว ![]() |
พรอมต์ที่ยาวขึ้นจะช่วยให้คุณเพิ่มรายละเอียดที่เฉพาะเจาะจงและสร้างรูปภาพได้ ![]() |
คำแนะนำเพิ่มเติมในการเขียนพรอมต์สำหรับ Imagen
- ใช้ภาษาที่สื่อความหมาย: ใช้คำคุณศัพท์และคำวิเศษณ์ที่ละเอียดเพื่อวาดภาพให้ชัดเจนสำหรับ Imagen 3
- ระบุบริบท: ระบุข้อมูลเบื้องต้นเพื่อช่วยให้ AI ทำความเข้าใจได้ง่ายขึ้น หากจําเป็น
- อ้างอิงศิลปินหรือสไตล์ที่เฉพาะเจาะจง: หากคุณมีสไตล์ที่ต้องการอยู่แล้ว การอ้างอิงศิลปินหรือการเคลื่อนไหวทางศิลปะที่เฉพาะเจาะจงอาจมีประโยชน์
- ใช้เครื่องมือวิศวกรรมพรอมต์: ลองสำรวจเครื่องมือหรือแหล่งข้อมูลวิศวกรรมพรอมต์เพื่อช่วยปรับแต่งพรอมต์และบรรลุผลลัพธ์ที่ดีที่สุด
- การปรับปรุงรายละเอียดใบหน้าในรูปภาพส่วนตัวและรูปหมู่
- ระบุรายละเอียดใบหน้าเป็นจุดสนใจของรูปภาพ (เช่น ใช้คำว่า "ภาพบุคคล" ในพรอมต์)
สร้างข้อความในรูปภาพ
Imagen สามารถเพิ่มข้อความลงในรูปภาพ ซึ่งจะเปิดโอกาสให้สร้างรูปภาพได้สร้างสรรค์มากขึ้น ใช้คําแนะนําต่อไปนี้เพื่อใช้ประโยชน์สูงสุดจากฟีเจอร์นี้
- ทำซ้ำอย่างมั่นใจ: คุณอาจต้องสร้างรูปภาพอีกครั้งจนกว่าจะได้รูปภาพที่ต้องการ การผสานรวมข้อความของ Imagen ยังอยู่ระหว่างการพัฒนา และบางครั้งการลองหลายครั้งจะให้ผลลัพธ์ที่ดีที่สุด
- สั้นกระชับ: จำกัดข้อความให้มีอักขระไม่เกิน 25 ตัวเพื่อให้ได้ชิ้นงานที่ดีที่สุด
วลีหลายรายการ: ทดลองใช้วลีที่แตกต่างกัน 2-3 วลีเพื่อระบุข้อมูลเพิ่มเติม หลีกเลี่ยงการใช้วลีเกิน 3 วลีเพื่อให้การเรียบเรียงชัดเจนขึ้น
พรอมต์: โปสเตอร์ที่มีข้อความ "Summerland" เป็นชื่อด้วยแบบอักษรตัวหนา ใต้ข้อความนี้คือสโลแกน "Summer never felt so good" แนะนำตำแหน่ง: แม้ว่า Imagen จะพยายามจัดตำแหน่งข้อความตามที่ระบุ แต่อาจมีการปรับเปลี่ยนเป็นครั้งคราว ฟีเจอร์นี้ได้รับการปรับปรุงอย่างต่อเนื่อง
รูปแบบอักษรที่เป็นแรงบันดาลใจ: ระบุรูปแบบอักษรทั่วไปเพื่อมีอิทธิพลต่อตัวเลือกของ Imagen อย่างละเอียด อย่าคาดหวังการจำลองแบบอักษรที่แม่นยำ แต่ให้คาดหวังการตีความที่สร้างสรรค์
ขนาดแบบอักษร: ระบุขนาดแบบอักษรหรือตัวบ่งชี้ขนาดทั่วไป (เช่น เล็ก กลาง ใหญ่) เพื่อกำหนดขนาดแบบอักษร
การพารามิเตอร์พรอมต์
คุณอาจพบว่าการกำหนดพารามิเตอร์อินพุตใน Imagen มีประโยชน์ในการควบคุมผลลัพธ์เอาต์พุตได้ดียิ่งขึ้น เช่น สมมติว่าคุณต้องการให้ลูกค้าสร้างโลโก้สําหรับธุรกิจได้ และคุณต้องการตรวจสอบว่าระบบจะสร้างโลโก้บนพื้นหลังสีพื้นเสมอ นอกจากนี้ คุณยังจํากัดตัวเลือกที่ลูกค้าเลือกจากเมนูได้ด้วย
ในตัวอย่างนี้ คุณสามารถสร้างพรอมต์ที่มีพารามิเตอร์ซึ่งคล้ายกับตัวอย่างต่อไปนี้
A{logo_style} logo for a{company_area} company on a solid color background. Include the text{company_name} .
ในอินเทอร์เฟซผู้ใช้ที่กําหนดเอง ลูกค้าสามารถป้อนพารามิเตอร์ได้โดยใช้เมนู และค่าที่เลือกจะแสดงในพรอมต์ที่ Imagen ได้รับ
เช่น
พรอมต์:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
พรอมต์:
A modern logo for a software company on a solid color background. Include the text Silo.
พรอมต์:
A traditional logo for a baking company on a solid color background. Include the text Seed.
เทคนิคขั้นสูงในการเขียนพรอมต์
ใช้ตัวอย่างต่อไปนี้เพื่อสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นตามแอตทริบิวต์ เช่น ตัวบ่งชี้การถ่ายภาพ รูปร่างและวัสดุ การเคลื่อนไหวของศิลปะในประวัติศาสตร์ และตัวแก้ไขคุณภาพรูปภาพ
การถ่ายภาพ
- พรอมต์ประกอบด้วย "รูปภาพของ..."
หากต้องการใช้สไตล์นี้ ให้เริ่มต้นด้วยการใช้คีย์เวิร์ดที่บอก Imagen อย่างชัดเจนว่าคุณกำลังมองหารูปภาพ เริ่มต้นพรอมต์ด้วยข้อความ "รูปภาพ . ." เช่น
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
อุปกรณ์เสริมสำหรับถ่ายภาพ
ในตัวอย่างต่อไปนี้ คุณจะเห็นตัวแก้ไขและพารามิเตอร์เฉพาะสำหรับงานถ่ายภาพ คุณรวมตัวแก้ไขหลายรายการเข้าด้วยกันเพื่อให้ควบคุมได้แม่นยำยิ่งขึ้น
ระยะใกล้ของกล้อง - ภาพระยะใกล้ที่ถ่ายจากระยะไกล
พรอมต์: รูปภาพระยะใกล้ของเมล็ดกาแฟ พรอมต์: รูปภาพซูมออกของถุง
เมล็ดกาแฟขนาดเล็กในครัวที่รกตำแหน่งกล้อง - ภาพมุมสูงจากด้านล่าง
พรอมต์: ภาพถ่ายทางอากาศของเมืองที่มีตึกระฟ้า พรอมต์: รูปภาพเรือนยอดป่าที่มีท้องฟ้าสีฟ้าจากด้านล่าง การจัดแสง - แสงธรรมชาติ แสงจัดจ้า อบอุ่น เย็น
พรอมต์: รูปภาพอาร์มแชร์โมเดิร์นในสตูดิโอ แสงธรรมชาติ พรอมต์: รูปภาพอาร์มแชร์สมัยใหม่ในสตูดิโอ การจัดแสงให้ดูมีมิติ การตั้งค่ากล้อง - เบลอการเคลื่อนไหว โฟกัสนุ่ม โบเก้ ภาพบุคคล
พรอมต์: รูปภาพเมืองที่มีตึกระฟ้าจากภายในรถที่มีภาพเบลอจากการเคลื่อนไหว พรอมต์: ภาพถ่ายแบบซอฟต์โฟกัสของสะพานในเมืองตอนกลางคืน ประเภทเลนส์ - 35 มม., 50 มม., ฟิชอาย, มุมกว้าง, มาโคร
พรอมต์: รูปภาพใบไม้, เลนส์มาโคร พรอมต์: ภาพถ่ายถนน, นิวยอร์กซิตี้, เลนส์ฟิชอาย ประเภทฟิล์ม - ขาวดํา โพลารอยด์
พรอมต์: ภาพบุคคลแบบโพลารอยด์ของสุนัขสวมแว่นกันแดด พรอมต์: รูปภาพขาวดำของสุนัขสวมแว่นกันแดด
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ภาพประกอบและศิลปะ
- พรอมต์มี "painting ของ..." "sketch ของ..."
รูปแบบศิลปะมีตั้งแต่โมโนโครม เช่น ภาพสเก็ตช์ดินสอ ไปจนถึงศิลปะดิจิทัลที่สมจริง ตัวอย่างเช่น รูปภาพต่อไปนี้ใช้พรอมต์เดียวกันแต่มีสไตล์ต่างกัน
"[art style or creation technique] ของรถซีดานไฟฟ้าทรงเหลี่ยมที่ดูสปอร์ตโดยมีตึกระฟ้าเป็นฉากหลัง"
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 2
รูปร่างและวัสดุ
- พรอมต์มี "...made of..." "...ในรูปทรงของ..."
จุดแข็งอย่างหนึ่งของเทคโนโลยีนี้คือคุณสามารถสร้างภาพซึ่งทำได้ยากหรือเป็นไปไม่ได้ เช่น คุณอาจสร้างโลโก้บริษัทขึ้นมาใหม่ในวัสดุและพื้นผิวต่างๆ
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ข้อมูลอ้างอิงเกี่ยวกับงานศิลปะในอดีต
- พรอมต์มีข้อความว่า "...ในสไตล์ของ..."
สไตล์บางสไตล์กลายเป็นสัญลักษณ์ในช่วงหลายปีที่ผ่านมา ต่อไปนี้คือตัวอย่างแนวคิดภาพวาดประวัติศาสตร์หรือสไตล์ศิลปะที่คุณลองใช้ได้
"สร้างรูปภาพในสไตล์ [art period or movement] : ฟาร์มพลังงานลม"
![]() |
![]() |
![]() |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
ตัวแก้ไขคุณภาพรูปภาพ
คีย์เวิร์ดบางรายการช่วยให้โมเดลทราบว่าคุณกําลังมองหาชิ้นงานคุณภาพสูง ตัวอย่างตัวแก้ไขคุณภาพมีดังนี้
- ตัวแก้ไขทั่วไป - คุณภาพสูง สวยงาม มีสไตล์
- รูปภาพ - 4K, HDR, รูปภาพระดับสตูดิโอ
- อาร์ตเวิร์ก ภาพ - โดยผู้เชี่ยวชาญที่ละเอียด
ต่อไปนี้คือตัวอย่างพรอมต์ที่ไม่มีตัวแก้ไขคุณภาพและพรอมต์เดียวกันที่มีตัวแก้ไขคุณภาพ
![]() |
![]() ถ่ายโดย ช่างภาพมืออาชีพ |
แหล่งที่มาของรูปภาพ: รูปภาพแต่ละรูปสร้างขึ้นโดยใช้พรอมต์ข้อความที่เกี่ยวข้องกับโมเดล Imagen 3
สัดส่วนภาพ
การสร้างรูปภาพด้วย Imagen 3 ช่วยให้คุณกำหนดสัดส่วนรูปภาพที่แตกต่างกันได้ 5 แบบ
- สี่เหลี่ยมจัตุรัส (1:1, ค่าเริ่มต้น) - รูปภาพสี่เหลี่ยมจัตุรัสมาตรฐาน การใช้งานทั่วไปสําหรับสัดส่วนภาพนี้คือโพสต์โซเชียลมีเดีย
เต็มหน้าจอ (4:3) - สัดส่วนภาพนี้มักใช้ในสื่อหรือภาพยนตร์ นอกจากนี้ยังเป็นขนาดของทีวีรุ่นเก่าส่วนใหญ่ (ไม่ใช่หน้าจอกว้าง) และกล้องขนาดกลาง เนื่องจากสามารถจับภาพฉากแนวนอนได้มากกว่า (เมื่อเทียบกับ 1:1) จึงเป็นสัดส่วนภาพที่เหมาะสำหรับการถ่ายภาพ
พรอมต์: ภาพนิ้วมือนักดนตรีในระยะใกล้ขณะเล่นเปียโน เป็นฟิล์มขาวดํา แนววินเทจ (สัดส่วนภาพ 4:3) พรอมต์: รูปภาพระดับมืออาชีพในสตูดิโอของเฟรนช์ฟรายสำหรับร้านอาหารระดับไฮเอนด์ในสไตล์นิตยสารอาหาร (สัดส่วนภาพ 4:3) เต็มหน้าจอแนวตั้ง (3:4) - สัดส่วนภาพเต็มหน้าจอที่บิด 90 องศา วิธีนี้ช่วยให้คุณจับภาพฉากในแนวตั้งได้มากขึ้นเมื่อเทียบกับสัดส่วนภาพ 1:1
พรอมต์: ผู้หญิงกำลังเดินป่า ภาพบู๊ตของเธอในระยะใกล้ที่สะท้อนในแอ่งน้ำ ภูเขาขนาดใหญ่อยู่เบื้องหลัง ในสไตล์โฆษณา มุมมองที่สร้างความตื่นเต้น (สัดส่วนภาพ 3:4) พรอมต์: ภาพมุมสูงของแม่น้ำที่ไหลผ่านหุบเขาอันลึกลับ (สัดส่วนภาพ 3:4) จอกว้าง (16:9) - อัตราส่วนนี้เข้ามาแทนที่ 4:3 และกลายเป็นอัตราส่วนที่พบมากที่สุดสำหรับหน้าจอทีวี จอภาพ และหน้าจอโทรศัพท์มือถือ (แนวนอน) ใช้สัดส่วนภาพนี้เมื่อคุณต้องการจับภาพพื้นหลังให้มากขึ้น (เช่น ภูมิทัศน์ที่สวยงาม)
พรอมต์: ชายสวมใส่เสื้อผ้าสีขาวล้วน นั่งอยู่บนชายหาด ถ่ายระยะใกล้ แสงในช่วงทอง (สัดส่วนภาพ 16:9) แนวตั้ง (9:16) - อัตราส่วนนี้เป็นอัตราส่วนจอกว้างแต่มีการหมุน ซึ่งเป็นสัดส่วนภาพที่ค่อนข้างใหม่ซึ่งได้รับความนิยมจากแอปวิดีโอแบบสั้น (เช่น YouTube Shorts) ใช้กับวัตถุสูงที่มีการวางแนวในแนวตั้งอย่างชัดเจน เช่น อาคาร ต้นไม้ น้ำตก หรือวัตถุอื่นๆ ที่คล้ายกัน
พรอมต์: ภาพเรนเดอร์ดิจิทัลของตึกระฟ้าขนาดใหญ่ ทันสมัย ยิ่งใหญ่ อลังการ โดยมีภาพพระอาทิตย์ตกที่สวยงามเป็นพื้นหลัง (สัดส่วนภาพ 9:16)
รูปภาพสมจริง
โมเดลการสร้างรูปภาพเวอร์ชันต่างๆ อาจให้ผลลัพธ์ที่ผสมผสานระหว่างภาพศิลปะและภาพเหมือนจริง ใช้ข้อความต่อไปนี้ในพรอมต์เพื่อสร้างเอาต์พุตที่เหมือนภาพถ่ายมากขึ้น โดยอิงตามหัวข้อที่ต้องการสร้าง
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
บุคคล (ภาพบุคคล) | ไพร์ม ซูม | 24-35 มม. | ภาพยนตร์ขาวดำ, ภาพยนตร์นัวร์, ระยะชัดลึก, ภาพโมโนโครม (ระบุ 2 สี) |
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง) | มาโคร | 60-105 มม. | รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้ |
กีฬา สัตว์ป่า (การเคลื่อนไหว) | ซูมเทเลโฟโต้ | 100-400 มม. | ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน |
ดาราศาสตร์ แนวนอน (มุมกว้าง) | ไวด์ | 10-24 มม. | การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ |
ภาพพอร์เทรต
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
บุคคล (ภาพบุคคล) | ไพร์ม ซูม | 24-35 มม. | ภาพยนตร์ขาวดำ, ภาพยนตร์นัวร์, ระยะชัดลึก, ภาพโมโนโครม (ระบุ 2 สี) |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพบุคคลต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ผู้หญิง ภาพบุคคลขนาด 35 มม. โมโนโครมสีฟ้าและสีเทา
นางแบบ: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: ผู้หญิง ภาพบุคคล 35 มม. ฟิล์มนัวร์
นางแบบ: imagen-3.0-generate-002
วัตถุ
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
อาหาร แมลง พืช (วัตถุ ภาพนิ่ง) | มาโคร | 60-105 มม. | รายละเอียดสูง โฟกัสแม่นยำ แสงที่ควบคุมได้ |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพวัตถุต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ใบของต้นกวนอิม, เลนส์มาโคร, 60 มม.
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: จานพาสต้า เลนส์มาโคร 100 มม.
รุ่น: imagen-3.0-generate-002
การเคลื่อนไหว
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
กีฬา สัตว์ป่า (การเคลื่อนไหว) | ซูมเทเลโฟโต้ | 100-400 มม. | ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหวหรือแอ็กชัน |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างภาพเคลื่อนไหวต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: ทัชดาวน์ที่ชนะ ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: กวางวิ่งในป่า ความเร็วชัตเตอร์สูง การติดตามการเคลื่อนไหว
รุ่น: imagen-3.0-generate-002
ไวด์
กรณีการใช้งาน | ประเภทเลนส์ | ความยาวโฟกัส | รายละเอียดเพิ่มเติม |
---|---|---|---|
ดาราศาสตร์ แนวนอน (มุมกว้าง) | ไวด์ | 10-24 มม. | การเปิดรับแสงนาน โฟกัสคมชัด น้ำหรือเมฆที่เรียบ |
เมื่อใช้คีย์เวิร์ดหลายรายการจากตาราง Imagen จะสร้างรูปภาพมุมกว้างต่อไปนี้ได้
![]() |
![]() |
![]() |
![]() |
พรอมต์: เทือกเขาอันกว้างใหญ่ มุมมองภาพกว้าง 10 มม.
รุ่น: imagen-3.0-generate-002
![]() |
![]() |
![]() |
![]() |
พรอมต์: รูปภาพดวงจันทร์ ถ่ายภาพดวงดาว มุมกว้าง 10 มม.
รุ่น: imagen-3.0-generate-002
ขั้นตอนถัดไป
- ดูคู่มือ Veo เพื่อดูวิธีสร้างวิดีโอด้วย Gemini API
- ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Gemini 2.0 ได้ที่หัวข้อโมเดล Gemini และโมเดลเวอร์ชันทดลอง